Анастази А.

T. Lennon,
1966й).
Смещенной (огностельно данной популяции) называется выборка, в которой те.
или иные подгруппы популяции представлены непропорционально своей численности
87
НОРМЫ И ИНТЕРПРЕТАЦИЯ РГ-ЗУЛЬТАТОВ ТЕСТА
Время от времени выдвигаются обширные проекты, предусматри-
вающие калибровку каждого нового теста относительно единого эталон-
ного теста, стандартизованного на весьма репрезентативной норматив-
ной выборке в масштабе всей страны (R.T.Lennon, l966b). Конечно,
никакой единый тест не может использоваться для обоснования норм
всех тестов, независимо от их содержания. Необходима батарея эта-
лонных тестов, стандартизованных на одной и той же общеамериканской
выборке. Любой новый тест мог бы после этого быть выверен -с по-
мощью наиболее близкого к нему эталонного теста из этой батареи.
Пока что ближе всего к реализации этого замысла (применительно
к популяции старшеклассников средних школ) удалось подойти в рамках
осуществления программы TALENT (J.C. Flanagan et а1, 1964). Исполь-
зуя случайную выборку, примерно 5Їо средних школ страны, исследова-
тели применили рассчитанную на два дня батарею особым образом со-
ставленных тестов способностей и достижений, интересов и темперамен-
та приблизительно к 400000 учеников 1Х-Х11 классов. Нужно признать,
что даже при наличии таких согласованных данных разработанные неза-
висимо друг от друга тесты нельзя рассматривать как абсолютно взаи-
мозаменяемые. В лучшем случае использование единых для всей страны
норм сможет лишь заметно снизить несопоставимость тестов, но никак
не устранить ее.
Батарея TALENT были использована для калибровки некоторых ба-
тарей тестов, применяемых в морских и военно-воздушных силах США.
Процедура состоит в следующем. Вначале одной и той же выборке
предъявляются как батарея TALENT, так и тест, подлежащий калибров-
ке. Далее с помощью корреляционного анализа из всей батареи TALENT
выделяется набор тестов, наиболее близкий к калибруемому тесту. Нако-
нец, эквипроцентильным методом составляется таблица, устанавливаю-
щая соответствие между показателями выделенного набора из батареи
TALENTn данным тестом.
Были также получены данные, необходимые для выделения из бата-
реи TALENT набора, соответствующего каждому из тестов таких бата-
рей, как дифференцированные тесты способностей, классификационные
тесты профессиональной пригодности Дж. Фланагана и тесты общей
профессиональной пригодности Службы занятости США.
Особый интерес представляет исследование эталонных тестов, про-
веденное Службой тестирования в образовании при содействии Амери-
канского управления образования (R.M. Jaeger, 1973). Столь обстоятель-
ное исследование было предпринято для разработки сопоставимых
и действительно репрезентативных общенациональных норм по 7 наибо-
лее употребительным тестам навыков чтения, предназначенным для уче-
ников средних классов. В соответствии с необычайно тщательно разра-
ботанным экспериментальным замыслом в 50 штатах было обследовано
свыше 300 000 учеников IV-VI классов. Эталонный тест состоял из субте-
стов понимания текста и словарного запаса, входящих в национальный
тест школьных достижений, и для них в ходе исследования были уста-
новлены новые нормы. При установлении эквивалентности норм каждо-
му ребенку предъявлялись субтесты понимания текста и словарного за-
В. X. Ангоффом (W.H. Angoff, 1964, 1966, 1971 а) блестяще проанализированы техни-
ческие трудности, возникающие в связи с попытками добиться сопоставимости показате-
88 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
паса двух из семи батарей, каждая из которых составляла пару с любой
другой батареей. К некоторым группам применялись параллельные
формы двух субтестов из одной и той же батареи. В еще одних группах
предъявление пар тестов дублировалось в обратной последовательности,
что позволяло контролировать влияние порядка предъявления тестов.
Статистический анализ полученных данных эквипроцентильным мето-
дом позволил составить таблицы эквивалентности показателей для семи
тестов, было также составлено руководство по интерпретации результа-
тов тестов для их использования в школах заинтересованными лицами
(P.O. Loret, A. Seder, J.C. Bianchini, С. A. Vale, 1974).
Специфические нормы. Еще одним решением-и для большин-
ства тестов, вероятно, более реалистичным-проблемы неэквивалентно-
сти существующих норм является стандартизация тестов для более уз-
кой популяции, выбираемой сообразно специфическим целям каждого
теста. В таких случаях границы нормативной популяции должны быть
четко определены и приведены вместе с нормами. Так, можно указать,
что данные нормы относятся к управленческому персоналу крупных
фирм или к первокурсникам технических колледжей. Для многих целей
тестирования желательно иметь достаточно специализированные нормы.
Даже когда имеются репрезентативные нормы для широкой популяции,
часто оказываются полезными так называемые подгрутовые нормы. По-
требность в них возникает, когда показатели теста заметно меняются от
одной подгруппы к другой. Сами подгруппы могут формироваться по
признаку возраста, года обучения, типа школьной программы, пола, гео-
графического региона, проживания в городе или в сельской местности,
социоэкономического уровня и т.д. Характер использования теста опре-
деляет наиболее существенный признак, а также и предпочтительность
общих или специфических норм.
Следует также упомянуть о локальных нормах, которые нередко раз-
рабатываются пользователями тестов для конкретных социальных еди-
ниц (social setting). Группы, к которым относятся такие нормы, еще более
специфичны, чем даже обсуждавшиеся выше подгруппы. Так, наниматель
может выработать нормы, лучше отвечающие специфике предлагаемой
им работы; администрация колледжей-нормы, рассчитанные на обуче-
ние в данном колледже; а школа может оценивать выполнение тестов
своими учениками в соответствии с собственным распределением показа-
телей. Локальные нормы такого типа в большей степени, чем нацио-
нальные, отвечают таким задачам тестирования, как предсказание дости-
жений в труде или учебе, сравнение относительного уровня знаний детей
по различным предметам, исследование динамики их развития.
Фиксированная референтная группа. Хотя большинство
производных показателей ориентировано на непосредственную норма-
тивную интерпретацию выполнения теста, существуют и примеча-
тельные исключения. Одно из них состоит в использовании фиксирован-
ной референтной группы для обеспечения сопоставимости и преемствен-
ности показателей без обращения к нормативным оценкам выполнения
теста. В этом случае для нормативной интерпретации данных необходи-
мо сопоставить их с нормами, полученными для сходной популяции. Не-
редко для этой цели используются локальные или иные специфические
нормы.
Одним из наиболее очевидных примеров шкал, выработанных на
/пгТТТЛГТЭМиЙ тчгттгг ппгггтмгм r,>nrn -
89 НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА
способности к обучению (SAT) Совета колледжей (W.H.Angoff, 1962;
1971b). Между 1926 (когда SAT был применен впервые) и 1941 г. показа-
тели этого теста выражались в нормативной шкале, для которой среднее
значение и стандартное отклонение определялись по показателям абиту-
риентов, полученным при очередном применении теста. В связи с увели-
чением и качественным изменением числа колледжей, подчиненных Сове-
ту, изменилась и популяция абитуриентов, но было решено сохранить
преемственность шкалы SAT, ибо в противном случае индивидуальные
показатели зависели бы от особенностей контингента, проходящего об-
следование в том или ином году. Еще более серьезной причиной сохра-
нения преемственности шкалы было различное действие селективных
факторов на одних и тех же учащихся, в результате чего они выполняли
SAT лучше или хуже в зависимости от периода года. Поэтому после
1941 г. все показатели SA Г выражаются в шкале, построенной согласно
среднему значению и стандартному отклонению данных примерно 11000
абитуриентов, проходивших этот тест в 1941 г. Таким образом, эти аби-
туриенты составили фиксированную референтную группу, относительно
которой производится шкалирование всех последующих форм данного
теста. Например, результат 500 любой формы SAT соответствует средне-
му показателю для выборки 1941 г., показатель 600 приходится на 1ст
выше среднего значения и т.д.
Чтобы можно было переводить первичные показатели любой
формы SAT та показатели этой фиксированной референтной группы,
в каждую такую форму включается небольшой эталонный тест. С по-
мощью этого теста каждая новая форма соотносится с одной или двумя
более ранними формами, те, в свою очередь,-с другими, еще более ран-
ними, и т.д., по цепочке, с формой 1941 г. Такие ненормативные показа-
тели SAT затем можно интерпретировать, сопоставляя их с нужным рас-
пределением показателей конкретного колледжа, типа колледжей, регио-
на и т.д. Подобные специфические нормы более пригодны для принятия
решений о приеме, чем ежегодные нормы; основанные на данных всей
популяции абитуриентов. Более того, любые временные изменения попу-
ляции абитуриентов может обнаружить только шкала фиксированных
показателей.
В отличие от ранее обсуждавшихся шкал, основанных на примене-
нии национальных эталонных тестов, шкалы фиксированной референт-
ной группы не требуют формирования единой достаточно репрезента-
II тивной и адекватной вводимым нормам группы. Помимо практических
1 трудностей, связанных с подбором такой группы, и необходимости об-
1 новления норм оказывается, что многие задачи тестирования столь уни-
Н версальных норм и не требуют. Шкалы, основанные на данных фиксиро-
1 ванной референтной группы, в определенном отношении аналогичны
1 шкалам, применяемым в физическом измерении. В этой связи В. X. Ан-
1 гофф (W.H. Angoff, 1962, р. 32-33) пишет:
X-
<Вряд ли кто теперь точно знает первоначальное определение длины фута, которым
1 пользуются для измерения высоты и расстояния. Вряд ли кто назовет имя короля, чья
ступня была принята в качестве эталона. Вместе с тем мало таких, кто не смог бы оце-
нить длину или расстояние с помощью этой единицы измерения. Наше незнание букваль-
ного значения или происхождения фута ни в коей мере не делает его бесполезным, ведь,
сколько бы ни прошло времени, фут останется одним и тем же, и это позволяет нам ос-
воиться с ним. То же самое можно сказать и про другие единицы измерения-дюйм, ми-
90 ПРИНЦИПЫ rU:ИXOЛOrиЧF.CKOrO ТЕСТИРОВАНИЯ
должно следовать. Единственное следствие такого определения-установление постоян-
ства шкалы, что достигается в случае применения различных форм одного теста их стро-
гим взаимным уравниванием, а также получением дополнительных нормативных данных,
облегчающих интерпретацию и принятие конкретных решений, данных, подлежащих пере-
смотру, когда этого требуют обстоятельства>.
ИСПОЛЬЗОВАНИЕ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ
ПРИ ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ ТЕСТА
Компьютеры заметно изменили почти все этапы тестирования-от со-
здания теста до его применения, подсчета первичных показателей реги-
страции и интерпретации. Выигрыш, который дает использование
компьютеров, даже самых первых, связан с буквально небывалым увели-
чением скорости, с какой осуществляется анализ данных, подсчет показа-
телей. Однако гораздо важнее для психологического тестирования разра-
ботка новых процедур и изыскание новых методов, которые были бы
неосуществимы, не окажись такого гибкого и скоростного способа пере-
работки данных, как использование компьютеров.
Различные нововведения, явившиеся результатом применения элек-
тронных машин, рассматриваются в соответствующих разделах настоя-
щей книги. В этом разделе обсуждается применение вычислительной тех-
ники при интерпретации показателей тестов. На элементарном уровне
большинство современных тестов, особенно тех, что предназначены для
группового применения, теперь приспособлены к машинной обработке
тестовых показателей (F. В. Baker, 1971). Некоторые издатели тестов,
а также ряд организаций по обработке тестовых данных принимают за-
казы на машинную обработку результатов тестирования. Хотя при этом
обычно используются особые бланки ответов, в вычислительных центрах
имеется аппаратура оптического сканирования, позволяющая считывать
ответы непосредственно с тестовых тетрадей. Такие новшества, как диаг-
ностическая обработка данных и динамический анализ (фиксация дости-
жений учащихся на различных этапах обучения), еще только входят
в употребление.
Несколько более высокий уровень использования компьютеров свя-
зан с приспособлением тестов к машинной интерпретации их показате-
лей, которая теперь обеспечивается для ряда тестов. В подобных случаях
определенные серии ответов связываются машинной программой с теми
или иными словесными формулировками, хранящимися в памяти ма-
шины. Этот подход применяется как в личностных тестах, так и в тестах
способностей. Например, проводя обследование с помощью многоста-
дийного личностного опросника, разработанного в штате Миннесота,
ММР1 (см. гл. 17), применяющий тест наряду с числовыми данными мо-
жет получить распечатку диагностических и интерпретационных форму-
лировок о тенденциях личности испытуемого и его эмоциональном со-
стоянии. Таким же образом тест различных способностей (см. гл. 13)
снабжается сообщением о возможностях профессионального роста, со-
стоящим из профиля результатов по отдельным субтестам и словесного
заключения. Последнее основано не только на данных теста, но и на ин-
формации об интересах и намерениях учащихся, полученной из заполнен-
ной ими анкеты будущей профессии. Применяемые в заключении форму-
лировки похожи на то, что мог бы в индивидуальной беседе сказать
ИСПЫТуеМОМУ КОНСУЛЬТант. ОЧНЯК-пмивтпнйа с п?"зл7тт1--т-сп-а1лтт -гд-т-- <Т\ ~С
91
НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА
Еще более сложна индивидуальная интерпретация тестовых резуль-
татов, осуществляемая при помощи так называемых систем взаимодей-
ствия, обеспечивающих диалог <человек-машина> (J.A. Harris, 1973;
W.H. Holtzman, 1970; M.R. Katz, 1974; D.E. Super, 1970). Эффективность
систем взаимодействия исследовалась применительно к выбору дальней-
шего образования и работы. В подобной ситуации результаты тестов
обычно присоединяются к базе машинных данных наряду с другой ин-
формацией, поступающей от учащегося или консультирующего индиви-
да. Важно то, что машина обрабатывает всю доступную информацию об
индивиде с учетом хранящихся в ее памяти данных об учебных програм-
мах и профессиях, использует все относящиеся к делу сведения, отвечая
на вопросы испытуемого и помогая ему прийти к какому-то решению.
В качестве примеров таких систем, находящихся на разных стадиях раз-
работки, назовем системы образования и профориентации, разрабо-
танные фирмами IBM и ETS. Предварительная проверка этих систем по-
казала, что они были хорошо приняты старшеклассниками и их
родителями (J.A. Harris, 1973).
Тестовые результаты также составляют неотъемлемую часть
данных, используемых при обучении с помощью машин. Для того
чтобы предъявить учебный материал, соответствующий уровню разви-
тия ученика, компьютер должен каждый раз воспроизводить результаты
и оценивать его ответы по предыдущему материалу. На основе тенден-
ции ответов, поступивших от него во время сеансов машинного обуче-
ния, ученик либо переводится на изучение более сложного материала, ли-
бо продолжает упражняться на прежнем уровне, либо проходит обучение
на более элементарном подготовительном материале. Предусмотренный
программой диагностический анализ ошибок позволяет выявить и скор-
ректировать свойственные данному ученику трудности в обучении.
Менее дорогостоящим и технически более доступным является ис-
пользование компьютеров как вспомогательного средства (R. К. НатЫе-
ton, 1974). В таких системах обучающийся не взаимодействует
с машиной непосредственно. Ее назначение-помочь учителю в разработ-
ке плана индивидуального обучения, предусматривающего использова-
ние специальных пакетов с учебными материалами или более тради-
ционных пособий. Компьютер главным образом производит обработку
поступающего ежедневно громадного массива данных, касающихся ра-
боты учеников в классе, где каждый может быть занят выполнением ин-
дивидуального задания, и для каждого из них предписывает следующий
шаг обучения. Примером такого типа обучения может служить разрабо-
танная в Питтсбургском университете система индивидуального обучения
(W.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование