Клайн Пол

В общем, за двадцать лет, с тех пор, когда была разработана эта
модель, она не являлась широко используемой, несмотря на очевид-
ные значительные преимущества, которые она предоставляет по
сравнению с тестами, основанными на классической модели погреш-
ностей измерения. Конечно, небольшое количество энтузиастов -
например, Wright (1967) и Andrich (1978) - продолжают поддержи-
вать ее, но пока на замечания, которые будут обсуждаться ниже, не
будет дано удовлетворительного ответа, шкалирование по Рашу не
заменит классическую модель.
Являются ли статистические оценки заданий
независимыми от выборки?
С моей точки зрения утверждение, что статистические оценки
заданий, полученные в соответствии с моделью Раша, независимы от
выборки, не является полностью верным. Конечно, могут быть най-
дены задания, которые для испытуемых, имевших наилучшие и наи-
худшие показатели, давали одинаковые значения уровня трудности
по Рашу. Однако, подлежат обсуждению два момента: во-первых, те
задания, которые не дают одинаковых результатов и, во-вторых,
результаты на других выборках.
Во-первых, это означает, что если задания не дают одинакового
результата на двух выборках, то, вследствие этого, не удовлетворяют
данной модели и отбрасываются. В некоторых случаях параметры
могут быть искажены угадыванием ответов, и некоторые особенности
формулировки заданий (вероятно, необходимость их понимания)
могут повлиять на поведение в группе с высокими показателями по
сравнению с группами менее способных испытуемых. Часто, однако,
не существует очевидной причины тому, что задание не проходит
отбор.
Во-вторых, задания удаляются как не соответствующие модели,
если они работают по-разному в этих двух группах. Однако, такое
оценивание заданий могло бы продолжаться до бесконечности, если
бы мы и дальше пытались испытать их на новых группах. Chopin
(1976), имевший значительный опыт работы с банками заданий,
утверждает, что "ни одно задание не удовлетворяет модели в точно-
сти"; если проверять их достаточное количество раз, то все задания
должны быть удалены.
265
Wood (1976) также указывает, что оценивание (калибровка) за-
даний является основной проблемой метода шкалирования по Рашу
и нелегко найти задания, удовлетворяющие модели; то есть задания
действительно отличаются от выборки к выборке и, таким образом,
не являются независимыми от выборки.
Рассмотрим пример Andrich и Kline ( 1981), в котором личностные
тесты применялись на двух популяциях, австралийских и британ-
ских студентах. Утверждалось, что шкалирование по Рашу путем
получения независимых от заданий средств измерения личностных
качеств будет полезно для кросс-культурных исследований. Конеч-
но, были найдены задания, удовлетворявшие модели Раша как для
австралийских, так и для британских испытуемых. Однако, означает
ли это, что мы могли бы использовать их для сравнения, скажем,
эскимосов и китайцев? Очевидно, что должны быть предприняты
исследования для получения новых оценок (калибровок) заданий.
Следовательно, результаты не являются независимыми от выборок.
Чтобы по-настоящему продемонстрировать независимость шкал
Раша от выборок, явно различным популяциям должны быть даны
задания тестов из разнообразных банков, причем статистические
оценки заданий должны оставаться теми же самыми. Замечания Cho-
pin (1976) и Wood (1976) указывают на то, что это не может быть
сделано. Если же это не может быть сделано, то исчезает одно из
важнейших преимуществ метода Раша. Конечно, если независимое
от выборок измерение при помощи заданий - это химера, то таким
же является и производное от него, независимое от заданий измере-
ние индивидуальности, поскольку так как калибровки заданий не
вызывают доверия, то доверия не вызывают также и измерения сте-
пени выраженности черт, в которых эти калибровки учитываются.
Так что "независимоеотвыборок" неявляетсяточнымопределением
шкалирования по Рашу. Как утверждает Wood (1976), а за ним и Lord
(1980), калибровку (оценивание заданий) лучше всего выполнять на
соответствующим образом стратифицированных выборках.
Дальнейшие критические замечания по шкалам Раша
Nunnally (1978) резюмирует некоторые дальнейшие возражения
против модели Раша и других подобных моделей, основанных на
характеризующих задания показателях, как это обсуждалось в Lord
и Novick (1968). В целом, дело заключается в предположениях, по-
ложенных в основу этих моделей, которые являются, вероятно, не-
верными,- момент, всячески подчеркивавшийся Levy (1973), кото-
рый утверждает, что попытка сконструировать психологический тест
на основе любой из этих моделей приводит к противоречию с психо-
266
логической природой переменных, которые мы пытаемся измерить.
Например, в этих моделях предполагается, что все задания имеют
одну и ту же дискриминативность (заданную крутизной кривой). В
теории латентных черт также предполагается, что ответам на зада-
ния соответствует только один фактор, - предположение, ошибоч-
ность которого была показана при помощи факторного анализа даже
для тех тестов, которые наиболее очевидно нагружали только один
фактор, такой, как g . Кроме того, в простой двухпараметрической
модели остается неучтенным влияние угадывания ответов.
Как показывает работа с банками заданий, выполнявшаяся Wood
и Skurnick (1969), а также Chopin (1976), и описанная в последней
книге, большинство калиброванных по Рашу тестов имели дело с
факторно простыми тестами, в которых концепция наличия един-
ственной латентной черты не вносила большого искажения. Однако,
даже в этом случае, как уже говорилось, задания не всегда удовлет-
воряют требованиям модели; это единственное, что заставляет со-
мневаться в ее значении.
И последнее критическое замечание по тестам, основанным на
этих моделях, состоит в том, что когда испытуемым предъявляются
обычные тесты и затем те же самые задания подвергаются процедуре
анализа и оценивания по Рашу, корреляция между этими двумя
тестами является чрезвычайно высокой, часто выше 0,9. Это опреде-
ленно имело место в исследовании тестов оральных черт личности,
выполненном Andrich и Kline (1981), где между результатами по
этим двум шкалам были лишь небольшие различия.
Использование шкалирования по Рашу
Несмотря на эти критические замечания, шкалирование по Рашу
имеет, вероятно, значение при формировании больших наборов за-
даний, так как калибровка заданий этим методом проще, чем выпол-
нение ее путем постоянной стандартизации на больших выборках.
Как уже говорилось, шкалы Раша полезны при разработке тестов,
когда необходимо проведение повторного тестирования. Надеюсь,
что сейчас уже очевидно, что можно представлять шкалированные по
Рашу задания на компьютере. В этом случае вместо индивидуально-
ориентированного тестирования, основанного на уровнях трудности
заданий, можетбыть представлено произвольное подмножество шка-
лированных по Рашу заданий.
Кратко говоря, шкалирование по Рашу может быть полезным
методом конструирования тестов, когда существует явно определен-
ноемножествозаданий, какдлятестированияприобучении. Однако,
по уже полностью описанным причинам, я бы не рекомендовал ис-
267
пользование этой модели в общей процедуре конструирования тес-
тов.
Когнитивный
подход к изучению
способностей человека
И, наконец, существует еще один подход к пониманию и измере-
нию способностей человека, который следует обсудить. Это попытка
связать психометрические исследования с экспериментальной ко-
гнитивной психологией. Этот подход возникает из-за неудовлетво-
ренности факторной моделью, основанной на том, что фактор, сам по
себе, не может объяснить природу способностей. Даже если, напри-
мер, регулярно проявляется текучая способность, gf, то ее факторные
нагрузки не являются индикаторами когнитивных процессов, кото-
рые, по-видимому, протекают, когда испытуемые проявляют свои
текучие способности при решении задач.
Данный подход к изучению способностей человека сейчас доми-
нирует, что видно по любой публикации на тему "интеллект". Од-
нако, его влияние на тестирование ограничено, поскольку, как мы
увидим, он применим к тестированию только тогда, когда для пере-
менных в некоторой степени обозначены пределы.
Can-oil (1980) перечислил и классифицировал все эксперимен-
тальные задачи, которые использовались в когнитивной психологии
и которые могли бы оказаться полезными (и в некоторых случаях
было показано, что они являются полезными) при разъяснении пси-
хометрических факторов способностей. Сутью метода, предлагавше-
гося Кэрроллом, являлась попытка прогнозировать эффективность
деятельности (успешность) по факторам, из успешности выполнения
элементарных когнитивных задач (elementary cognitive tasks -
ECTs). Так как каждая из этих задач - ECTs - является индикато-
ром психических процессов, такая работа объясняет природу психо-
метрических факторов. Хант ( напр.. Hunt, 1982) и его сотрудники,
Сноу из Стэнфорда и Кэрролл из Чеппел Хил, являются ведущими
американскими представителями этого направления.
Прежде чем приступить к дальнейшему описанию, следует отме-
тить по существу аналогичный экспериментальный анализ способно-
стей человека, разработанный Стернбергом и его сотрудниками и
описанный в многочисленных публикациях, в первой из которых
(Sternberg, 1977) его основания излагаются наиболее подробно. Это
компонентный анализ способностей. В этой работе, которая первона-
чально была связана с решением задач на вербальные аналогии,
модель эффективности (успешности) деятельности строилась в тер-
минах составляющих ее "процессов-компонент", и при помощи изо-
268
бретательного экспериментального представления аналогий эти ком-
поненты (время на выполнение определенных процессов) измеря-
лись и модель вводилась в тест. Одна из моделей Стернберга позво-
ляет прогнозировать эффективность деятельности индивидуума на
основе задач по вербальным аналогиям с очень высокой степенью, и
Стернберг считает эти компоненты важными при решении и других
разнообразных задач.
Kline (1985) утверждал, что в конечном счете может произойти
так, что выявятся первичные факторы, являющиеся естественными
процессами, и что компоненты и процессы, измеряемые при помощи
ECTs, не должны рассматриваться как радикально отличные друг от
друга. Проблема с установлением этих связей заключается в линей-
ности факторной модели, поскольку представляется очевидным, что
из процессов не комбинируется непосредственно эффективность де-
ятельности (КуПопепидр., 1984); индивидуумы не обязательно ком-
бинируют когнитивные процессы одним и тем же образом при реше-
нии явно аналогичных задач.
Я не намерен обсуждать далее информационный подход к иссле-
дованию способностей человека, а хочу лишь показать несколько
типичных ECTs, они приводятся ниже. Большинство их этих задач
имеют компьютерное представление, а получаемое измерение -
латентное время ответа испытуемого или некоторое его преобразова-
ние.
Некоторые типичные ECTs
(1) Задачи на установление порога восприятия. Испытуемым не-
обходимо распознавать уменьшающиеся стимулы.
(2) Аудиальная форма визуального задания, описанного выше.
(3) Время реакции при выборе. Испытуемого обучают (инструк-
тируют) , как отвечать. Время его реакции сравнивается со временем
реакции в условиях, когда обучения (инструктирования) не было.
(4) Задача на лексическое решение. Является ли некоторая после-
довательность букв словом или нет? Является ли слово членом неко-
торого класса или нет?
(5) Задача на лексическое решение. Имеет ли предложение
смысл?
(6) Идентичность наименований и физическая идентичность.
Стимулы считаются одинаковыми или различными. Предъявляются
вариации из фигур и их наименований.
Надеюсь, что этого описания достаточно для читателей, чтобы
понять суть когнитивного похода к изучению способностей человека.
269
А сейчас мы обратимся к вопросу о том, как эти методы могут влиять
на конструирование тестов.
Применение для конструирования тестов
Одним из следствий когнитивного подхода является, как утверж-
дает Carroll (1980), то, что можно было бы использовать ECTs в
качестве тестов, если бы была показана их надежность и валидность.
Если, например, для вербальных способностей важендоступ к долго-
временной памяти, то для ее измерения полезно будет использовать
надежную и дискриминативную ЕСТ. Однако использование в каче-
стве тестов не является наиболее важным аспектом ECTs, хотя у нас
в Эксетере мы зашли настолько далеко, что продемонстрировали
надежность ряда ECTs (Cooper и др., в печати).
Гораздо более важным, с точки зрения конструирования тестов,
является тот факт, что хорошее понимание когнитивных процессов,
имеющих место при выявлении способностей, позволяет разработчи-
кам тестов формулировать задания с точно известными характерис-
тиками, почти по алгоритму. Я приведу пример способности к про-
странственной ориентации, так как он иллюстрирует как сильные,
так и слабые стороны этого метода.
Kyllonen и др. (1984), помимо прочего, исследовали влияние тре-
нинга и специальных способностей на решение задач, связанных с
пространственной ориентацией. Одним из исследовавшихся факто-
ров были некоторые аспекты или характеристики заданий - в дан-
ном случае заданий на складывание бумажных фигур, взятых из
соответствующего теста (French, Ekstrom и Price, 1963). Исследова-
ния успешности в этой задаче выявили, что существует три измере-
ния трудности заданий и они являются важными детерминантами
индивидуальных различий в успешности их решения. Этими тремя
аспектами являются: количество изгибов на задание, количество
краев изгибов, скрытых от взгляда последующими изгибами, и коли-
чество асимметричных изгибов (то есть таких, которые не разделяют
симметричную фигуру).
Основным в данном случае для конструирования тестов является
то, что знание об измерениях трудности заданий (и о стратегиях,
используемых испытуемыми для решения задач, так как эти два
явления связаны) позволяет разработчикам тестов формулировать
задания с точным уровнем трудности, изменяющимся в зависимости
от количества изгибов, их скрытости и симметрии. Таким способом
задания данного уровня трудности, действительно измеряющие дан-
Эксетер (Exeter) - город в Великобритании, в котором работает автор и находится
университет (Прим.перев.)
270
ную переменную, могут быть сконструированы более или менее ав-
томатически, по правилам. В данном случае нет необходимости при-
влекать искусство формулирования заданий.
Интересно заметить, что уровень трудности задания связан со
стратегиями, используемыми испытуемыми и со способностью испы-
туемых к пространственной ориентации (как специальной способно-
стью) . Следует отметить, что трудность в этом смысле не является
нормативной, как уровень трудности заданий, устанавливаемый в
процедуре анализа заданий. Она объективно зависит от сложности
отдельных аспектов задания.
Преимущества этого метода формулирования заданий, его объек-
тивность и алгоритмическое качество очевидны. Обычно, однако,
такие отдельные аспекты заданий могут быть выделены только для
относительно узких и специфических переменных. Более общие или
широкие факторы, такие как, скажем, гибкость (flexibility), будет
трудно анализировать подобным образом.
Работа Стернберга с невербальными аналогиями подобна той,
которая уже обсуждалась выше. Сходство в том, что в его тесте People
Pieces Test использовались такие задания на аналогии, для которых,
опять-таки, исходя из знания о модели, лежащей в основе решения
таких заданий, может быть точно задан их уровень трудности. Так,
Стернберг представляет схематические человеческие фигуры, кото-
рые могут различаться по четырем двузначным параметрам: высоте,
толщине, полу и цвету одежды. В соответствии с моделью Стернберга
уровнем трудности заданий на аналогии можно точно управлять при
помощи варьирования количества изменяемых параметров у пар эле-
ментов, между которыми должны устанавливаться аналогии. Как и
выше, прианализеотдельныхаспектов, уровеньтрудностьобъектив-
но определяется характеристиками задания и не является норматив-
ным понятием.
Этот раздел будет закончен утверждением, что в случаях, когда
существуют хорошие модели способностей (и если это не весьма
"узкие" задачи, такие как невербальные или геометрические анало-
гии и задания на пространственную ориентацию) анализ отдельных
аспектов заданий может позволить формулировать задания с точно
заданным уровнем трудности.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

А-П

П-Я

Введение в психометрическое проектирование