Так, легкое, среднее, весь-
ма трудное и очень сложное задания, каждое из которых измеряет
что-то свое, вероятно, могут образовать шкалу Гутмена. Однако по
какому свойству или скрытой черте будут в таком случае построены
кривые зависимости "задание-ответ"?
И последним возражением, приведенным Nunnally (1978), явля-
ется то, что шкала Гутмена - это в лучшем случае только лишь
порядковая шкала.
158
Эти критические замечания с нашей точки зрения не могут быть
опровергнуты, и представляется, что попытка сконструировать та-
кую шкалу не будет иметь большого значения.
Шкалы Лайкерта
Шкалы Лайкерта состоят из утверждений, за которыми следуют
пяти- или семибалльные рейтинговые шкалы, указывающие степень
согласия испытуемого с этими утверждениями. Поскольку при шка-
лировании такого типа предполагается только то, что отдельные за-
дания монотонно связаны с измеряемым аттитюдом, а сумма показа-
телей по заданиям линейно связана с ним, очевидно, что в шкалиро-
вании по Лайкерту нет никаких недопустимых предположений.
Однако, я не намерен уделять много внимания конструированию
шкал Лайкерта, поскольку этот тип шкал аттитюдов ничем сущест-
венно не отличается от стандартного личностного опросника, пол-
учаемого путем коррелирования каждого задания с общим показате-
лем. Другими словами, модель, основанная на шкалах Лайкерта,
описывается классической теорией измерения, а тесты лучше всего
конструировать при помощи методик анализа заданий, обсуждав-
шихся ранее. Их дискриминативность является следствием самой
сути заданий - утверждений, относящихся к аттитюдам - и формы
заданий; шкала, указывает степень согласия испытуемого с утверж-
дением.
ШАГИ КОНСТРУИРОВАНИЯ
Здесь будут обсуждены только те моменты, в которых есть какие-
либо существенные различия с процедурами, описанными ранее.
Задания. При шкалировании аттитюдов важно точно указать объ-
ект. В нашем примере мы возьмем аттитюд к евреям (автор надеется
на то, что поскольку он сам является евреем, это позволит избежать
любых обвинений в антисемитизме: никакого умышленного антисе-
митизма в этом примере нет). Вначале соберем все утверждения,
относящиеся к евреям. Крайних утверждений, как положительных,
так и отрицательных, следует избегать, так как в нормальной попу-
ляции (категории обследуемых) многие такие задания покажут сла-
бый разброс и будут в этом случае подвержены влиянию установки
на социально желательные ответы. Аналогично, нейтральные зада-
ния также покажут небольшой разброс. Следовательно, целью будет
найти утверждения, которые являются умеренно положительными
или умеренно отрицательными. Тест должен будет содержать, чтобы
он выглядел более реалистично и его цель была не так очевидна,
примерно половину положительных и половину отрицательных ут-
159
верждений. Этот баланс будет полезен для преодоления установки на
согласие. Приведем несколько заданий в качестве примера;
(1) Евреи внесли значительный вклада современную науку (уме-
ренно положительное)
(2) Без евреев современная наука отстала бы на много лет (поло-
жительное, слишком крайнее)
(3) Евреи склонны держаться вместе как обособленный клан (от-
рицательное, умеренное)
(4) Евреи просочились почти во все важные организации (нега-
тивное, слишком крайнее)
(5) Евреи - это фактически высшая, избранная раса (положи-
тельное, слишком крайнее)
(6) Евреи обычно связаны с деньгами и материальными ценностя-
ми (негативное, слишком крайнее)
Форма задания. Как было описано, для шкалы Лайкерта необхо-
димы пяти- или семибалльные рейтинговые шкалы, указывающие
степень согласия с каждым утверждением. У Nunnally (1978) можно
найти полное обсуждение того, как правильно использовать рейтин-
говые шкалы. В кратком изложении можно сказать, что:
(а) Задания с графическими шкалами легче выполнять и они
приводят к меньшему количеству ошибок, чем задания с числовыми
шкалами.
Пример графической шкалы:
Полностью
Полностью
несогласен
В случае числовой шкалы слова-комментарии указываются рядом
с числами.
(б) Надежность возрастает с увеличением количества градаций
шкалы, и это возрастание резко обрывается после 7. Это говорит в
пользу семибалльной шкалы.
(в) При нечетном количестве градаций результаты несколько от-
личаются от результатов для шкал с четным количеством градаций.
Однако, нечетное количество градаций позволяет использовать ней-
тральный (средний) ответ, который в шкалах аттитюдов представля-
ется полезным (хотя он может породить уже известную установку на
ответ).
Таким образом, имея задания, основанные на утверждениях о
евреях, и семибалльные рейтинговые шкалы степени согласия с эти-
ми утверждениями, мы уже готовы испытать наши задания и подвер-
гнуть их процедуре анализа.
160
Анализ заданий. Для анализа заданий должна использоваться
большая и репрезентативная выборка, отражающая ту часть населе-
ния, для которой разрабатывается этот тест. Идеальным было бы
обследовать в десять раз больше испытуемых, чем есть заданий в
тесте, однако можно использовать и две большие выборки (в каждой
более 100 испытуемых).
Как и при анализе заданий для личностных опросников, каждый
вопрос должен коррелировать с общим показателем по тесту. Чтобы
добиться этого, для отрицательных утверждений оценка показателей
должна быть подвергнута так называемому обращению. Покажем это
на примере.
( 1 ) Евреи склонны держаться вместе замкнутым кланом (отрица-
тельный аттитюд)
(2) Евреи - высококультурная группа в европейском сообществе
(положительный аттитюд)
Для задания 1 показатель равен 8 (количество градаций шкалы
плюс 1) минус реальное значение, отмеченное испытуемым; а для
задания 2 показатель равен реальному значению, отмеченному на
шкале. Общий показатель для каждого испытуемого, отражающий
его позицию по переменной "положительный аттитюд к евреям",
состоит из суммы показателей, полученных по заданиям.
Шаги по обработке результатов следующие:
(1) Подсчитайте показатели для каждого задания, принимая во
внимание обращение для негативных заданий, как описано для зада-
ний 1 и 2 выше.
(2) На основе показателей по заданиям вычислите общий показа-
тель для каждого испытуемого.
(3) Вычислите коэффициента (см. гл.5, стр. 173).
(4) Вычислите корреляцию каждого задания с общим показате-
лем, используя формулу произведения моментов Пирсона.
(5) Отберите задания, для которых выполняется критерий корре-
ляции (в обоих случаях, если используются две формулы).
(6) Если возможно, используйте равное количество положитель-
ных и отрицательных заданий.
(7) Вычислите коэффициент а. для нового теста из отобранных
заданий.
(8) Следует стремиться к шкалам из 20 заданий, как указано в
главе 6 (см. стр. 197), со значением коэффициента а 0.60 или выше.
(9) Если необходимо, переформулируйте некоторые задания и
подвергните их вновь анализу.
4-196
(10) Апробируйте и подвергните анализу заданий окончательно
отобранную шкалу.
(II) Заданиям следует приписать весовые коэффициенты в соот-
ветствии с их корреляцией с общим показателем. Однако, как указы-
вает Nunnally, корреляция шкал, в которых используются весовые
коэффициенты, и шкал без них так велика, что, как оказывается, не
стоит утруждать себя вычислением этих весовых коэффициентов.
(12) Валидизируйте переменную теста при помощи соответству-
ющих экспериментальных приемов.
Вероятно, нет никаких сомнений в том, что в результате этих
процедур будет получено однородное и с признаками очевидной ва-
лидности средство измерения аттитюда к евреям, для которого про-
цедурами шага 12 будет продемонстрировано, валидно оно или нет.
Заслуживает внимания еще один момент. Когда используются
многобалльные шкалы, разброс заданий всегда больше, чем в случае
с дихотомическими заданиями. Следовательно, факторный анализ
заданий шкалы Лайкерта с гораздо большей вероятностью может
привести к четкой факторной структуре чем для личностных опрос-
ников, в которых используется дихотомический подсчет показате-
лей. Следовательно, имеет смысл подвергать корреляции между за-
даниями факторному анализу и выбирать те задания, которые насы-
щают факторы. Процедуры и логические основания для факторного
анализа заданий при конструировании тестов уже полностью обсуж-
далось, поэтому здесь будут только кратко указаны необходимые
шаги.
(1) Как для анализа заданий.
(2) Как для анализа заданий.
(3) Как для анализа заданий.
(4) Вычислите корреляционную матрицу для всех заданий (по
формуле произведения моментов Пирсона).
(5) Подвергните корреляционную матрицу факторному анализу
с вращением.
(б) Отберите задания, нагруженные генеральным фактором или
другими факторами (см. пункт "Замечания" ниже).
(7) Проведите тестирование с отобранными заданиями и проверь-
те результаты.
(8) Валидизируйтетесттакже, каквшаге 12анализазаданий (см.
выше).
ЗАМЕЧАНИЯ
Для факторного анализа желательна настолько большая выборка,
насколько возможно. Если размер выборки не больше утроенного
162
числа заданий теста, то обязательно необходимы повторные испыта-
ния.
В шкалах аттитюдов может присутствовать генеральный фактор:
в нашем примере это аттитюд к евреям. Однако, можно возразить,
что этот аттитюд сам зависит от таких факторов, как догматизм
(Rokeach, 1960), авторитарные черты личности (АсЗогпоидр., 1950),
или от личностных факторов, таких как фактор Кэттелла L - подо-
зрительность. Если это так, тогда факторная структура шкалы атти-
тюдов не будет явно выраженной, и любой генеральный фактор мог
бы проявляться только в факторах второго или даже более высокого
порядка. По этой причине факторный анализ как метод конструиро-
вания тестов должен использоваться только тогда, когда есть веские
основания a priori предположить наличие явно выраженного гене-
рального фактора или другой подобной структуры.
Краткий обзор и заключение
(1) Определены объективные тесты и указаны их преимущества.
(2) Предложена таксономия тестов, основывающаяся на двух па-
раметрах: стимульно-инструктивной ситуации и особенностях оце-
нивания ответов. Это позволяет разработчику тестов конструировать
разнообразные формы заданий.
(3) Проведено различие между объективными тестами способно-
стей, темперамента и динамики.
(4) Сформулированы некоторые практические советы по констру-
ированию объективных тестов, прежде всего тестов личности и моти-
вов.
(5) Обсуждены пути преодоления трудностей при разработке тес-
тов.
(6) Обсуждены специфические проблемы объективных тестов ди-
намики.
(7) Приведен список основных принципов конструирования тес-
тов мотивов, основывающийся на психологических публикациях.
(8) Обсуждены различия между тестированием силы мотивов и
целей.
(9) Описано конструирование проективных тестов, после доказа-
тельства значимости разработки таких тестов.
(10) Кратко обсуждено конструирование других тестов мотивов.
(II) Описано конструирование шкал настроений.
(12) Обсуждено конструирование тестов Лайкерта.
Глава 5. Вычисление надежности тестов
В первой главе были кратко обсуждены два основных для психо-
метрических тестов понятия - надежность и валидность. В этой
главе будут описаны методы и процедуры установления надежности
теста. Как уже отмечалось, в смысле практического применения по-
нятие надежности имеет два значения: одно связано с внутренней
согласованностью теста, а другое - с воспроизводимостью результа-
тов. Оба они важны, хотя на практике второе существенно для раз-
работки эффективных тестов, тогда как первое, связанное с внутрен-
ней согласованностью, является значением надежности, учитывае-
мым в классической теории погрешностей тестов.
Однако, с точки зрения разработчика психологических тестов,
существуют различные практические вопросы, касающиеся надеж-
ности тестов, которые следовало бы обсудить: о преимуществах и
недостатках различных способов вычисления надежности, о важно-
сти надежности по внутренней согласованности на практике, в отли-
чие от теории, а также об источниках неудовлетворительной надеж-
ности. Эти вопросы и будут рассмотрены в данной главе.
Важность надежности по внутренней согласованности
при конструировании тестов
Понятие надежности по внутренней согласованности является
центральным для теории погрешностей измерения: чем выше надеж-
ность, тем меньше погрешность и тем ближе значение показателя по
тесту к истинному показателю (см. гл. 1). Из этого делается очевид-
ный вывод: высокая внутренняя согласованность должна быть основ-
ной целью разработчиков тестов, и это точка зрения многих специа-
листов по психометрии (напр., Cronbach, 1970), отражаемая и в
обзорах тестов во многих изданиях Mental Measurement Yearbook
(Buros).
Однако, Кэттелл и его коллеги, являющиеся авторами некоторых
из наиболее известных тестов во многих областях психологических
измерений - например , Культурно-свободного теста интеллекта
(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-
надцатифакторного личностного опросника (16 PF Personality Test;
Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;
Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя
согласованность может быть (а часто и является в таких ложных
областях, как темперамент и динамика) противоположностью высо-
кой валидности. Поскольку валидность определена как степень, в
которой тест измеряет то, для измерения чего он предназначен, то
164
достижение ее должно быть основной целью при разработке тестов.
Надежность важна лишь постольку, поскольку она может обеспечить
высокую валидность. Как же тогда могло оказаться, что Кэттелл
придерживается точки зрения, не только противоположной мнению
большинства специалистов в этой области, но и такой, которая про-
тиворечит статистическим основаниям разработки тестов?
Значение истинных показателей
В главе 1 большое внимание было уделено определению значения
истинных показателей - показателей для некоторой бесконечной
генеральной совокупности заданий - потому что это понятие явля-
ется определяющим.
Поскольку я буду утверждать здесь, что важность надежности по
внутренней согласованности была в психометрии излишне преувели-
чена (то есть я соглашаюсь с мнением Кэттелла) и что она может
быть антитезисом валидности, то существенно важно указать, что я
полностью принимаю статистические аргументы, выдвинутые ранее.
Однако то, что не было вынесено на рассмотрение при обсуждении
математических методов (и то, почему понятие истинного показате-
ля является определяющим) - это психологическая значимость ис-
тинных показателей в том виде, как они определены теоретически.
Эту точку зрения лучше всего пояснить на примерах.
Предположим, что мы пытаемся измерить такую переменную,
как вербальные способности. Весьма вероятно, что задания, которые
представляются затрагивающими вербальные способности, в дейст-
вительности их и затрагивают; например, словарный запас, опреде-
ления, синонимы, антонимы, конструирование искусственных язы-
ков с грамматикой, составление конспектов, понимание и способ-
ность к подведению итогов. То есть можно сказать, что переменная
"вербальные способности" является относительно однородным набо-
ром ясно определенных и очерченных навыков. Было бы очень уди-
вительно, если бы испытуемые, хорошо составляющие краткие кон-
спекты, были не очень понятливы и имели плохой словарный запас.
Это означает, что существуют веские психологические основания
для того, чтобы предполагать, что соответствующая выборка заданий
будет внутренне согласована, однородна и надежна, и что любые
задания, которые не могли быть определены таким образом, по всей
вероятности, измеряют некоторую другую переменную, а не вер-
бальные способности. Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
ма трудное и очень сложное задания, каждое из которых измеряет
что-то свое, вероятно, могут образовать шкалу Гутмена. Однако по
какому свойству или скрытой черте будут в таком случае построены
кривые зависимости "задание-ответ"?
И последним возражением, приведенным Nunnally (1978), явля-
ется то, что шкала Гутмена - это в лучшем случае только лишь
порядковая шкала.
158
Эти критические замечания с нашей точки зрения не могут быть
опровергнуты, и представляется, что попытка сконструировать та-
кую шкалу не будет иметь большого значения.
Шкалы Лайкерта
Шкалы Лайкерта состоят из утверждений, за которыми следуют
пяти- или семибалльные рейтинговые шкалы, указывающие степень
согласия испытуемого с этими утверждениями. Поскольку при шка-
лировании такого типа предполагается только то, что отдельные за-
дания монотонно связаны с измеряемым аттитюдом, а сумма показа-
телей по заданиям линейно связана с ним, очевидно, что в шкалиро-
вании по Лайкерту нет никаких недопустимых предположений.
Однако, я не намерен уделять много внимания конструированию
шкал Лайкерта, поскольку этот тип шкал аттитюдов ничем сущест-
венно не отличается от стандартного личностного опросника, пол-
учаемого путем коррелирования каждого задания с общим показате-
лем. Другими словами, модель, основанная на шкалах Лайкерта,
описывается классической теорией измерения, а тесты лучше всего
конструировать при помощи методик анализа заданий, обсуждав-
шихся ранее. Их дискриминативность является следствием самой
сути заданий - утверждений, относящихся к аттитюдам - и формы
заданий; шкала, указывает степень согласия испытуемого с утверж-
дением.
ШАГИ КОНСТРУИРОВАНИЯ
Здесь будут обсуждены только те моменты, в которых есть какие-
либо существенные различия с процедурами, описанными ранее.
Задания. При шкалировании аттитюдов важно точно указать объ-
ект. В нашем примере мы возьмем аттитюд к евреям (автор надеется
на то, что поскольку он сам является евреем, это позволит избежать
любых обвинений в антисемитизме: никакого умышленного антисе-
митизма в этом примере нет). Вначале соберем все утверждения,
относящиеся к евреям. Крайних утверждений, как положительных,
так и отрицательных, следует избегать, так как в нормальной попу-
ляции (категории обследуемых) многие такие задания покажут сла-
бый разброс и будут в этом случае подвержены влиянию установки
на социально желательные ответы. Аналогично, нейтральные зада-
ния также покажут небольшой разброс. Следовательно, целью будет
найти утверждения, которые являются умеренно положительными
или умеренно отрицательными. Тест должен будет содержать, чтобы
он выглядел более реалистично и его цель была не так очевидна,
примерно половину положительных и половину отрицательных ут-
159
верждений. Этот баланс будет полезен для преодоления установки на
согласие. Приведем несколько заданий в качестве примера;
(1) Евреи внесли значительный вклада современную науку (уме-
ренно положительное)
(2) Без евреев современная наука отстала бы на много лет (поло-
жительное, слишком крайнее)
(3) Евреи склонны держаться вместе как обособленный клан (от-
рицательное, умеренное)
(4) Евреи просочились почти во все важные организации (нега-
тивное, слишком крайнее)
(5) Евреи - это фактически высшая, избранная раса (положи-
тельное, слишком крайнее)
(6) Евреи обычно связаны с деньгами и материальными ценностя-
ми (негативное, слишком крайнее)
Форма задания. Как было описано, для шкалы Лайкерта необхо-
димы пяти- или семибалльные рейтинговые шкалы, указывающие
степень согласия с каждым утверждением. У Nunnally (1978) можно
найти полное обсуждение того, как правильно использовать рейтин-
говые шкалы. В кратком изложении можно сказать, что:
(а) Задания с графическими шкалами легче выполнять и они
приводят к меньшему количеству ошибок, чем задания с числовыми
шкалами.
Пример графической шкалы:
Полностью
Полностью
несогласен
В случае числовой шкалы слова-комментарии указываются рядом
с числами.
(б) Надежность возрастает с увеличением количества градаций
шкалы, и это возрастание резко обрывается после 7. Это говорит в
пользу семибалльной шкалы.
(в) При нечетном количестве градаций результаты несколько от-
личаются от результатов для шкал с четным количеством градаций.
Однако, нечетное количество градаций позволяет использовать ней-
тральный (средний) ответ, который в шкалах аттитюдов представля-
ется полезным (хотя он может породить уже известную установку на
ответ).
Таким образом, имея задания, основанные на утверждениях о
евреях, и семибалльные рейтинговые шкалы степени согласия с эти-
ми утверждениями, мы уже готовы испытать наши задания и подвер-
гнуть их процедуре анализа.
160
Анализ заданий. Для анализа заданий должна использоваться
большая и репрезентативная выборка, отражающая ту часть населе-
ния, для которой разрабатывается этот тест. Идеальным было бы
обследовать в десять раз больше испытуемых, чем есть заданий в
тесте, однако можно использовать и две большие выборки (в каждой
более 100 испытуемых).
Как и при анализе заданий для личностных опросников, каждый
вопрос должен коррелировать с общим показателем по тесту. Чтобы
добиться этого, для отрицательных утверждений оценка показателей
должна быть подвергнута так называемому обращению. Покажем это
на примере.
( 1 ) Евреи склонны держаться вместе замкнутым кланом (отрица-
тельный аттитюд)
(2) Евреи - высококультурная группа в европейском сообществе
(положительный аттитюд)
Для задания 1 показатель равен 8 (количество градаций шкалы
плюс 1) минус реальное значение, отмеченное испытуемым; а для
задания 2 показатель равен реальному значению, отмеченному на
шкале. Общий показатель для каждого испытуемого, отражающий
его позицию по переменной "положительный аттитюд к евреям",
состоит из суммы показателей, полученных по заданиям.
Шаги по обработке результатов следующие:
(1) Подсчитайте показатели для каждого задания, принимая во
внимание обращение для негативных заданий, как описано для зада-
ний 1 и 2 выше.
(2) На основе показателей по заданиям вычислите общий показа-
тель для каждого испытуемого.
(3) Вычислите коэффициента (см. гл.5, стр. 173).
(4) Вычислите корреляцию каждого задания с общим показате-
лем, используя формулу произведения моментов Пирсона.
(5) Отберите задания, для которых выполняется критерий корре-
ляции (в обоих случаях, если используются две формулы).
(6) Если возможно, используйте равное количество положитель-
ных и отрицательных заданий.
(7) Вычислите коэффициент а. для нового теста из отобранных
заданий.
(8) Следует стремиться к шкалам из 20 заданий, как указано в
главе 6 (см. стр. 197), со значением коэффициента а 0.60 или выше.
(9) Если необходимо, переформулируйте некоторые задания и
подвергните их вновь анализу.
4-196
(10) Апробируйте и подвергните анализу заданий окончательно
отобранную шкалу.
(II) Заданиям следует приписать весовые коэффициенты в соот-
ветствии с их корреляцией с общим показателем. Однако, как указы-
вает Nunnally, корреляция шкал, в которых используются весовые
коэффициенты, и шкал без них так велика, что, как оказывается, не
стоит утруждать себя вычислением этих весовых коэффициентов.
(12) Валидизируйте переменную теста при помощи соответству-
ющих экспериментальных приемов.
Вероятно, нет никаких сомнений в том, что в результате этих
процедур будет получено однородное и с признаками очевидной ва-
лидности средство измерения аттитюда к евреям, для которого про-
цедурами шага 12 будет продемонстрировано, валидно оно или нет.
Заслуживает внимания еще один момент. Когда используются
многобалльные шкалы, разброс заданий всегда больше, чем в случае
с дихотомическими заданиями. Следовательно, факторный анализ
заданий шкалы Лайкерта с гораздо большей вероятностью может
привести к четкой факторной структуре чем для личностных опрос-
ников, в которых используется дихотомический подсчет показате-
лей. Следовательно, имеет смысл подвергать корреляции между за-
даниями факторному анализу и выбирать те задания, которые насы-
щают факторы. Процедуры и логические основания для факторного
анализа заданий при конструировании тестов уже полностью обсуж-
далось, поэтому здесь будут только кратко указаны необходимые
шаги.
(1) Как для анализа заданий.
(2) Как для анализа заданий.
(3) Как для анализа заданий.
(4) Вычислите корреляционную матрицу для всех заданий (по
формуле произведения моментов Пирсона).
(5) Подвергните корреляционную матрицу факторному анализу
с вращением.
(б) Отберите задания, нагруженные генеральным фактором или
другими факторами (см. пункт "Замечания" ниже).
(7) Проведите тестирование с отобранными заданиями и проверь-
те результаты.
(8) Валидизируйтетесттакже, каквшаге 12анализазаданий (см.
выше).
ЗАМЕЧАНИЯ
Для факторного анализа желательна настолько большая выборка,
насколько возможно. Если размер выборки не больше утроенного
162
числа заданий теста, то обязательно необходимы повторные испыта-
ния.
В шкалах аттитюдов может присутствовать генеральный фактор:
в нашем примере это аттитюд к евреям. Однако, можно возразить,
что этот аттитюд сам зависит от таких факторов, как догматизм
(Rokeach, 1960), авторитарные черты личности (АсЗогпоидр., 1950),
или от личностных факторов, таких как фактор Кэттелла L - подо-
зрительность. Если это так, тогда факторная структура шкалы атти-
тюдов не будет явно выраженной, и любой генеральный фактор мог
бы проявляться только в факторах второго или даже более высокого
порядка. По этой причине факторный анализ как метод конструиро-
вания тестов должен использоваться только тогда, когда есть веские
основания a priori предположить наличие явно выраженного гене-
рального фактора или другой подобной структуры.
Краткий обзор и заключение
(1) Определены объективные тесты и указаны их преимущества.
(2) Предложена таксономия тестов, основывающаяся на двух па-
раметрах: стимульно-инструктивной ситуации и особенностях оце-
нивания ответов. Это позволяет разработчику тестов конструировать
разнообразные формы заданий.
(3) Проведено различие между объективными тестами способно-
стей, темперамента и динамики.
(4) Сформулированы некоторые практические советы по констру-
ированию объективных тестов, прежде всего тестов личности и моти-
вов.
(5) Обсуждены пути преодоления трудностей при разработке тес-
тов.
(6) Обсуждены специфические проблемы объективных тестов ди-
намики.
(7) Приведен список основных принципов конструирования тес-
тов мотивов, основывающийся на психологических публикациях.
(8) Обсуждены различия между тестированием силы мотивов и
целей.
(9) Описано конструирование проективных тестов, после доказа-
тельства значимости разработки таких тестов.
(10) Кратко обсуждено конструирование других тестов мотивов.
(II) Описано конструирование шкал настроений.
(12) Обсуждено конструирование тестов Лайкерта.
Глава 5. Вычисление надежности тестов
В первой главе были кратко обсуждены два основных для психо-
метрических тестов понятия - надежность и валидность. В этой
главе будут описаны методы и процедуры установления надежности
теста. Как уже отмечалось, в смысле практического применения по-
нятие надежности имеет два значения: одно связано с внутренней
согласованностью теста, а другое - с воспроизводимостью результа-
тов. Оба они важны, хотя на практике второе существенно для раз-
работки эффективных тестов, тогда как первое, связанное с внутрен-
ней согласованностью, является значением надежности, учитывае-
мым в классической теории погрешностей тестов.
Однако, с точки зрения разработчика психологических тестов,
существуют различные практические вопросы, касающиеся надеж-
ности тестов, которые следовало бы обсудить: о преимуществах и
недостатках различных способов вычисления надежности, о важно-
сти надежности по внутренней согласованности на практике, в отли-
чие от теории, а также об источниках неудовлетворительной надеж-
ности. Эти вопросы и будут рассмотрены в данной главе.
Важность надежности по внутренней согласованности
при конструировании тестов
Понятие надежности по внутренней согласованности является
центральным для теории погрешностей измерения: чем выше надеж-
ность, тем меньше погрешность и тем ближе значение показателя по
тесту к истинному показателю (см. гл. 1). Из этого делается очевид-
ный вывод: высокая внутренняя согласованность должна быть основ-
ной целью разработчиков тестов, и это точка зрения многих специа-
листов по психометрии (напр., Cronbach, 1970), отражаемая и в
обзорах тестов во многих изданиях Mental Measurement Yearbook
(Buros).
Однако, Кэттелл и его коллеги, являющиеся авторами некоторых
из наиболее известных тестов во многих областях психологических
измерений - например , Культурно-свободного теста интеллекта
(Culture-Fair Intelligence Test, CFIT; Cattell и Cattell, 1960), Шест-
надцатифакторного личностного опросника (16 PF Personality Test;
Cattell и др., 1970), Теста анализа мотивов (Motivation Analysis Test;
Cattell и др., 1970) -постоянно утверждали, что высокая внутренняя
согласованность может быть (а часто и является в таких ложных
областях, как темперамент и динамика) противоположностью высо-
кой валидности. Поскольку валидность определена как степень, в
которой тест измеряет то, для измерения чего он предназначен, то
164
достижение ее должно быть основной целью при разработке тестов.
Надежность важна лишь постольку, поскольку она может обеспечить
высокую валидность. Как же тогда могло оказаться, что Кэттелл
придерживается точки зрения, не только противоположной мнению
большинства специалистов в этой области, но и такой, которая про-
тиворечит статистическим основаниям разработки тестов?
Значение истинных показателей
В главе 1 большое внимание было уделено определению значения
истинных показателей - показателей для некоторой бесконечной
генеральной совокупности заданий - потому что это понятие явля-
ется определяющим.
Поскольку я буду утверждать здесь, что важность надежности по
внутренней согласованности была в психометрии излишне преувели-
чена (то есть я соглашаюсь с мнением Кэттелла) и что она может
быть антитезисом валидности, то существенно важно указать, что я
полностью принимаю статистические аргументы, выдвинутые ранее.
Однако то, что не было вынесено на рассмотрение при обсуждении
математических методов (и то, почему понятие истинного показате-
ля является определяющим) - это психологическая значимость ис-
тинных показателей в том виде, как они определены теоретически.
Эту точку зрения лучше всего пояснить на примерах.
Предположим, что мы пытаемся измерить такую переменную,
как вербальные способности. Весьма вероятно, что задания, которые
представляются затрагивающими вербальные способности, в дейст-
вительности их и затрагивают; например, словарный запас, опреде-
ления, синонимы, антонимы, конструирование искусственных язы-
ков с грамматикой, составление конспектов, понимание и способ-
ность к подведению итогов. То есть можно сказать, что переменная
"вербальные способности" является относительно однородным набо-
ром ясно определенных и очерченных навыков. Было бы очень уди-
вительно, если бы испытуемые, хорошо составляющие краткие кон-
спекты, были не очень понятливы и имели плохой словарный запас.
Это означает, что существуют веские психологические основания
для того, чтобы предполагать, что соответствующая выборка заданий
будет внутренне согласована, однородна и надежна, и что любые
задания, которые не могли быть определены таким образом, по всей
вероятности, измеряют некоторую другую переменную, а не вер-
бальные способности. Следовательно, в этом случае можно было бы
ожидать, что выборочный тест будет высоко надежным, потому что
генеральная совокупность истинных заданий была сама однородна. В
самом деле, большинство эффективных тестов способностей дейст-
165
вительно имеют высокие значения коэффициента О., поскольку в
сфере способностей каждый фактор является обычно четко опреде-
ленным и дискретным. Если тест валиден - то есть если его задания
взяты из той генеральной совокупности заданий, которую мы имели
в виду - то в сфере способностей высокая надежность является,
вероятно; обязательным, условием.
Однако, этот пример также дает нам основания для аргумента
против слишком высокой надежности, то есть речь идет о том, что
высокая надежность является антитезой высокой валидности.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39