Анастази А.

При отсут-
ствии значимого взаимодействия между заданием и группой, т.е. если
Рис. 27. Двумерное распределение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых учеников-старшеклассников
(W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
201
АНАЛИЗ ЗАДАНИЙ
относительные трудности заданий одинаковы для обоих групп, эта кор-
реляция должна быть близка к 1,0. Эти более совершенные средства ста-
тистического анализа были применены для исследования предваритель-
ного теста способности к обучению для старшеклассников. Изучению
было подвергнуто влияние на относительную трудность заданий этого
теста таких факторов, как этнический, социоэкономический и проживание
в городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973;
Т. A. Cleary, Т. L. Hilton, 1968).
Было обнаружено значимое, хотя и слабое взаимодействие между
заданиями и группами. Корреляция между значениями А для двух этни-
ческих групп была несколько ниже корреляции для двух случайных вы-
борок из одной и той же этнической группы. На рис. 27 и 28 представ-
лены два двумерных распределения показателя А. При сравнении двух
случайных выборок белых старшеклассников (рис. 27) значения показате-
ля А для заданий теста оказались весьма сходными, причем коэффициент
корреляции достиг 0,987. Когда же были сопоставлены результаты белых
Рис. 28. Двумерное роспредепение трудности заданий предварительного теста способ-
ности к обучению для двух случайных выборок белых и черных учеников-старше-
классников (W. Н. Angoff, S. F. Ford, 1973).
С разрешения Национального совета по статистике в образовании
10 12 14 16
Чмакйыия А для выбооки черных школьников
202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
и черных школьников (рис. 28), выяснилось, что для негритянских детей
задания не только были в целом труднее, но и имели несколько иную от-
носительную трудность, на что указывает коэффициент корреляции 0,929.
Попытки выяснить причины этих различий привели к следующим
предварительным выводам. Во-первых, обследование содержания зада-
ний не вскрыло какой-либо связи между ними и известными различиями
в предшествующем жизненном опыте сравниваемых групп. Во-вторых,
уравнивание групп по когнитивной переменной, на которую были ориен-
тированы задания, приводило к сокращению групповых различий как по
среднему показателю, так и по взаимодействию между заданием и груп-
пой. Последний результат указывает на то, что относительная трудность
заданий зависит, по крайней мере отчасти, от абсолютного уровня раз-
вития измеряемой тестом способности. Возможно, например, что лица
с разными уровнями способностей пользуются при выполнении одного
и того же задания различными методами решения задач или когни-
тивными навыками. Поэтому задания, оказавшиеся относительно
трудными при решении их методом А, могут оказаться намного легче,
если их решать методом В, и наоборот.
Следует добавить, что все методы исследования взаимодействия
между заданием и группой в тестах способностей применимы также
к личностным тестам. В последнем случае, правда, измеряется не труд-
ность заданий, а относительная частота выбора конкретных ответов
в тестах типа шкал способностей или личностных опросников.
Отбор заданий для минимизации или максимизации груп-
повых различий. При построении определенных тестов взаимодей-
ствие между заданием и группой используется в качестве признака для
отбора заданий. В ходе разработки, например, тестов Станфорд-Вине
составители стремились исключить задания, ставящие представителей
того или иного пола в более выгодное положение. При этом предполага-
лось, что такие задания отражают чисто случайные и несущественные
различия в опыте двух полов (Q. McNemar, 1942, гл. 5). Однако ввиду
ограниченного числа заданий для каждого возрастного уровня было не-
возможно изъять все задания, выполняемые по-разному представителя-
ми полов. Поэтому чтобы исключить фактор пола из суммарного ре-
зультата теста, оставшиеся задания такого рода были сбалансированы
так, чтобы мальчики имели преимущество в таком же числе заданий, что
и девочки.
Описанный подход, однако, нельзя применить ко всем случаям груп-
повых различий. В то время как одни тесты, такие, как Станфорд-Бине,
сглаживают различия в выполнении теста испытуемыми мужского
и женского пола, в других тестах такие различия сохраняются, но для
каждого пола приводятся отдельные нормы. Это чаще практикуется
в тестах специальных способностей, в которых, как правило, системати-
чески обнаруживается значительная разница в пользу одного или друго-
го пола.
Более того, при определенных обстоятельствах задания выбираются
с целью не сократить, а довести до максимума различия между резуль-
татами мужчин и женщин. Примером здесь служат шкалы мужественно-
сти и женственности, разработанные для использования в некоторых
личностных опросниках (см. гл. 17). Поскольку цель этих шкал-опреде-
лить, в какой степени ответы индивида согласуются со свойственной на-
шей культуре характеристиками мужественности и женственности, то
203 АНАЛИЗ ЗАДАНИЙ
в них сохраняются только те задания, которые обеспечивают значимое
различение полов.
Подобное разнообразие методик можно обнаружить и применитель-
но к другим групповым различиям в выполнении заданий. При разра-
ботке шкалы социоэкономического статуса многостадийного личностно-
го опросника штата Миннесота (ММР1) сохранялись только те вопросы,
которые значимо дифференцировали ответы старшеклассников, принад-
лежащих к двум контрастным социоэкономическим группам (H.G.Ga-
ugh, 1948). Перекрестная валидация этой шкалы на новой выборке стар-
шеклассников обнаружила корреляцию 0,5 с объективными показателя-
ми социоэкономического статуса. Цель этого теста-определить, в какой
степени индивидуальные эмоциональные и социальные реакции испытуе-
мого сходны с реакциями, характерными для людей высшего или низше-
го социоэкономического уровня. Поэтому задания, подчеркивающие раз-
личия между социальными слоями, включались в тест, а те, которые
обладали низкой или нулевой разрешающей способностью, отбрасыва-
лись. Эта процедура напоминает ту, которая была использована при раз-
работке шкал мужественности и женственности. Очевидно, что в тестах
обоих типов дифференциация групп является критерием, по которому
проводится валидация теста. В подобных случаях социоэкономический
уровень и пол являются соответственно наиболее существенными пере-
менными, на основе которых выбираются задания.
Можно также привести примеры противоположного подхода к со-
циоэкономическим и культурным различиям в тесте. Широкое исследова-
ние культурных различий в заданиях тестов интеллекта было предприня-
то в Чикагском университете (К. Eells et а1., 1951). Исследователи
полагали, что большая часть таких тестов ставит в невыгодные условия
детей из семей низших социоэкономических слоев, поскольку многие за-
дания предполагают наличие у испытуемых информации, навыков и ин-
тересов, типичных для детей из семей среднего достатка. Чтобы подтвер-
дить эту гипотезу фактическими данными, был проведен детальный
анализ заданий восьми весьма распространенных групповых тестов ин-
теллекта. По каждому заданию сравнивались частоты правильных отве-
тов детей из семей более высокого и более низкого социоэкономического
уровня. На основании полученных результатов двумя исследователями
был подготовлен специальный тест, как предполагалось, более <справед-
ливый> по отношению к американским детям из низших слоев городско-
го населения. При разработке этого теста составители стремились ис-
ключить из него задания, которые, как выяснилось, ставят в более
выгодное положение детей из семей среднего достатка.
Как и в случае различий пола, нельзя выработать при рассмотрении
заданий строгой линии поведения, ведущей к выявлению культурных
различий, но можно указать на некоторые основные положения соста-
вления и интерпретации тестов. Во-первых, вопрос о том, сохранить или
отбросить задание, значимо дифференцирующее те или иные группы, ре-
шается в зависимости от назначения теста. Если прогнозируемые крите-
Применение этого теста, известною под названием <Игры Дейвиса-Иилса>, было
впоследствии приостановлено, поскольку он оказался неудовлетворительным по ряду фак-
торов, включая низкую валидность в прогнозировании школьной успеваемости и других
практических критериев. Более того, ожидаемое преимущество в этом тесте для детей низ-
ших слоев населения не подтвердилось на других выборках.
204 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
рии существенно различаются для лиц разного пола, социоэкономиче-
ского уровня или иных категорий, то задания теста, по всей вероятности,
должны выявлять такие групповые различия. Устранить подобные зада-
ния из теста-значило бы понизить его валидность по прогнозированию
данных критериев (A. Anastasi, 1966). Во-вторых, если с помощью теста
предполагается измерять сходство индивида с той или иной группой, то
задания должны, очевидно, усиливать различия между такими группами.
Для тестов этого типа выбираются задания с наибольшими групповыми
различиями в ответах как в случае уже упоминавшихся шкал мужествен-
ности и женственности или шкал социального статуса. В-третьих, эти
проблемы касаются не столько составителя, сколько пользователя теста
и изучающих психологию, желающих правильно интерпретировать ре-
зультаты теста.
Тесты, задания которых прошли отбор согласно их выполнению
членами каких-либо конкретных групп, нельзя использовать для сравне-
ния таких групп. Например, утверждение, что мальчики и девочки не от-
личаются значимо по IQ шкал Станфорд-Вине, не дает никакой инфор-
мации о различиях между ними. Эти различия были сознательно
устранены в процессе отбора заданий для теста, и их отсутствие в окон-
чательных результатах просто указывает на то, что данный аспект по-
строения теста был успешно реализован. Точно так же отсутствие со-
циоэкономических различий в результатах теста, построенного с целью
устранить такие различия, не даст нам никакой информации об относи-
тельном выполнении этого теста группами разного социоэкономическо-
го статуса.
Тесты, в которых групповые различия доводятся до максимума (на-
пример, шкалы мужского и женского начала или шкалы социального
статуса), по тем же причинам не годятся для групповых сравнений.
В этих случаях дифференциация по признаку пола или социоэкономиче-
ского уровня искусственно преувеличена. Для получения несмещенной
оценки существующих групповых различий необходимо отбирать зада-
ния безотносительно к результатам таких групп. Главный вывод, ко-
торый следует сделать из настоящего обсуждения, состоит в том, что
для правильной интерпретации результатов любого теста необходимо
знать, по какому признаку отбирались составляющие его задания.
Часть 3
ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО
РАЗВИТИЯ
ГЛАВА 9. ИНДИВИДУАЛЬНЫЕ ТЕСТЫ
Во второй части мы познакомились с основными принципами психоло-
гического тестирования и теперь можем применить их для оценки кон-
кретных тестов. Третья, четвертая и пятая части книги преследуют двоя-
кую цель. Во-первых, проследить за применением принципов тестирова-
ния к разнообразным типам тестов. Во-вторых, познакомить читателя
с некоторыми из наиболее характерных тестов в каждой из основных
областей их применения, не пытаясь при этом дать их исчерпывающий
обзор. Такой обзор не составляет цели данной работы и скорее всего
устарел бы еще до выхода книги в свет из-за той быстроты, с какой по-
являются новые тесты. По этим причинам в каждой разновидности те-
стов обсуждаются лишь несколько наиболее типичных, выбранных либо
из-за их общеупотребительности, либо из-за того, что они иллюстри-
руют важные достижения в процедуре тестирования. При этом тесты об-
щего интеллектуального развития рассматриваются в части 3, тесты от-
дельных способностей-в части 4 и личностные тесты-в части 5.Тсли не
оговорено особо, следует иметь в виду, что все данные об обсуждаемых
в книге тестах берутся из руководства по применению тестов или мето-
дических приложений, которыми издатели снабжают тест.
Обсуждаемые в части 3 виды тестов, традиционно называемые те-
стами интеллекта, берут свое начало от шкал Вине. Эти тесты исполь-
зуются в достаточно разнообразных ситуациях и валидны относительно
широких критериев. Этим тестам свойственно применение единственно-,
го показателя, такого, как IQ, свидетельствующего об общем уровне ин-
теллектуального развития индивида. Обычный способ получить столь
общую оценку выполнения теста интеллекта-<проникновение в критиче-
ские точки> (L. М. Terman, М. A. Merrill, 1937, р. 4). Другими словами,
индивиду предъявляется обширное множество задач в предположении,
что таким образом будет обеспечена адекватная выборка всех важней-
ших интеллектуальных функций. На практике же тесты обычно перегру-
жены заданиями на измерение некоторых качеств, таких, как вербальные
способности, и совершенно не затрагивают измерения других.
Из-за того, что многие интеллектуальные тесты валидны по отноше-
нию к академической успеваемости, они часто разрабатываются как
тесты способности к обучению. Тесты интеллекта часто используются
как отсеивающая процедура, предваряющая применение тестов спе-
циальных способностей. Особенно часто они применяются в тестирова-
нии нормальных детей в подростковом и юношеском возрасте или
взрослых при консультировании по вопросам обучения, выбора профес-
сии, профессионального отбора и для других схожих целей. Еще одним
довольно распространенным применением тестов общего интеллекта
является клиническое тестирование, особенно при определении умствен-
ной отсталости. Для этих целей обычно .используются индивидуальные
тесты. Среди наиболее употребительных индивидуальных тестов интел-
лекта можно назвать обсуждаемые в этой главе шкалы Станфорд-Бине
и Векслера.
206 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ
ШКАЛА СТАНФОРД-ВИНЕ
Развитие шкал. Первые шкалы Бине-Симона вкратце уже были опи-
саны в гл. 1. Напомним только, что шкала 1905 г. содержала всего лишь
30 расположенных по степени трудности небольших заданий. Шкала
1908 г. была первой возрастной шкалой, а шкала 1911 г. отличалась от
нее незначительными улучшениями и добавлениями. Возрастной диапа-
зон шкалы 1911 г. охватывал период от 3 лет до взрослого состояния.
Среди многочисленных переводов и адаптаций ранних тестов Бине были
несколько американских вариантов, среди которых самым жизнеспо-
собным оказался тест Станфорд-Бине. Первый станфордский вариант
шкал Бине-Симона, подготовленный Л.М.Терменом и его коллегами
в Станфордском университете, был опубликован в 1916 г. (L.M. Terman,
1916). В него было введено так много изменений и дополнений, что фак-
тически он уже представлял собой новый тест. В этот тест было введено
более одной трети новых заданий, а ряд старых или переделан, или пере-
адресован к другим возрастным уровням, или отброшен. Вся шкала бы-
ла заново стандартизована на национальной выборке, состоявшей при-
близительно из 1000 детей и 400 взрослых. Были подготовлены
подробные инструкции по применению и обработке показателей каждого
теста, а коэффициент IQ первое время применялся в любом психологи-
ческом тесте.
Вторая станфордская редакция теста, появившаяся в 1937 г., состоя-
ла из двух эквивалентных форм LH М (L.M. Terman, М.А. Merill, 1937).
В этом варианте шкала была значительно увеличена в объеме и пол-
ностью рестандартизована на новой и тщательно отобранной выборке
из населения США. Для этой цели были привлечены 3184 испытуемых,
среди которых на каждую возрастную группу от 1,5 до 5,5 лет (группы
отличались полугодовым интервалом) приходилось приблизительно по
100 детей, по 200 индивидов приходилось на каждую возрастную группу
от 6 до 14 лет и по 100 на каждую группу от 15 до 18 лет. У всех испы-
туемых день рождения приходился на один и тот же месяц или по край-
ней мере на одно и то же полугодие; в каждую возрастную группу вхо-
дило равное количество мальчиков и девочек. Испытуемые от 6 лет
и старше тестировались в школе, хотя для групп из более взрослых де-
тей, с тем чтобы заполнить выборку, привлекались и не учащиеся
школы. Детей дошкольного возраста набирали разными путями, многие
из них были просто родственниками включенных в выборку школьников.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование