Анастази А.

Выполнение каждого теста группой с высокими результата-
ми сравнивается с выполнением группой с низкими результатами, и те
задания, с которыми первая группа не справляется значительно лучше,
чем вторая, признаются невалидными и либо отбрасываются, либо пере-
сматриваются. Можно также воспользоваться бисериальной корреляцией
между исходами (<справился-не справился>) каждого задания и сум-
марным результатом теста, и тогда сохраняются только те задания, для
которых отмечена значимая корреляция с тестом в целом. Если тест со-
стоит из заданий, прошедших такого рода отбор, то говорят, что тест
обладает внутренней согласованностью, поскольку все его задания под-
чинены основному направлению теста как целого.
Критерий внутренней согласованности означает также корреляцию
между результатами субтеста и суммарным результатом. Многие тесты
интеллекта, например, состоят из раздельно применяемых субтестов (та-
ких, как словарный, арифметический, завершение картинки и т.д.), из ре-
зультатов которых складывается общий результат теста. При построе-
нии таких тестов определяется корреляция между результатами каждого
субтеста с общим результатом и субтесты, плохо коррелирующие с те-
стом в целом, отбрасываются. Коэффициенты корреляции для оставших-
ся субтестов приводятся затем как свидетельство внутренней согласован-
ности всего теста.
Очевидно, что корреляции внутренней согласованности теста-суще-
ственная мера его однородности. Поскольку это свойство помогает оха-
рактеризовать область поведения или свойство, выборочно представлен-
ное в тесте, то степень однородности теста имеет отношение
к конструктной валидности. Тем не менее роль внутренней согласованно-
сти в валидности теста весьма ограничена. При отсутствии информации,
внешней по отношению к тесту, мало что можно сказать о том, что он
измеряет.
.-_-".""" "др""" д результаты
144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯ
теста. Еще одним источником данных о конструктной валидности мо-
гут служить эксперименты, в которых исследуется влияние тех или иных
факторов на результаты теста. При проверке валидности критериально-
ориентированного теста, предназначенного, скажем, для использования
в индивидуальном обучении, один из подходов состоит в сравнении ре-
зультатов тестирования до и после экспериментального воздействия.
Предполагается, например, что результаты до обучения должны быть
низкими, а после обучения - высокими. То же соотношение можно прове-
рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеале
с каждым заданием до обучения должно справиться минимальное, а по-
сле обучения-максимальное число учеников. Задания, с которыми мало
кто справляется в обоих случаях, слишком трудны, а те, с которыми
справляются все и до и после обучения, слишком доступны с точки зре-
ния целей, преследуемых тестом. Если многие в первый раз справляются,
а во в горой раз не справляются с заданием, то что-то неладно или
с этим заданием, или с обучением, или с тем и другим.
Тест, предназначенный для измерения тревожности, можно испы-
тать, давая его испытуемым до и после того, как они были помещены
в обстановку, провоцирующую состояние тревоги (примером может слу-
жить проверка знаний в условиях, отвлекающих от проверки, и в стрес-
совой ситуации). Начальные тестовые показатели можно сопоставить
с физиологическими и иными показателями тревоги во время и после
экспериментального воздействия. Вместе с тем можно сравнить резуль-
таты тестирования до и после воздействия. Значимый прирост показате-
ля теста будет свидетельствовать о том, что он отражает текущий уро-
вень тревожности. Аналогичным образом можно построить эксперимент
на проверку теста относительно других измеряемых им свойств.
Конвергентная и дискриминантная валидности. В своем
глубоком анализе конструктной валидности Д.Т. Кэмпбелл
(D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави-
сит не только от того, насколько тесно он коррелирует с другими пере-
менными, с которыми теоретически должен коррелировать, но и от от-
сутствия значимой корреляции с переменными, с которыми он не должен
быть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске
(D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на-
званы конвергентной и дискриминантной валидацией. Например, значи-
мая корреляция теста технических способностей с последующими оцен-
ками но курсу производственною обучения относится к конвергентной
валидности, тогда как дискриминант ной валидности отвечала бы низкая
и незначимая корреляция с пониманием читаемою текста, поскольку это
умение безотносигельно к icciy. предназначенному измерять технические
способное т и.
Напомним. 410 требование низкой корреляции с безотносительными
к тесту переменными рассматривалось выше в связи с дополнительными
процедурами валидацни по содержанию. Дискриминантная валидация
также имеет прямое отпопгенпс к определению валидности личностных
тестов, в которых безотносшельные к гесту переменные, причем разны-
ми путями, могут влиять на результаты.
В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло-
жена схема эксперимента, позволяюгцею одновременно производить
конвергентную и дпскриминапгпую валидацию. названную ими много-
145
иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯ
гает оценку двух или более свойств двумя или более методами. Табл. 12,
взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра-
жены всевозможные корреляции показателей по трем свойствам, изме-
ряемым тремя методами. Эти свойства А, В и С могут обозначать со-
ответственно склонность к лидерству, общительность и мотивацию
достижений. В качестве методов могут выступать (1) опросник, который
испытуемый заполняет сам, (2) проективная методика и (3) оценки кол-
лег. Таким образом, А\ означает данные о стремлении к лидерству, по-
лученные с помощью онросника, л;-данные по тому же признаку, но на
основании проективного теста, а Сд-оценки мотивации достижений, да-
ваемые коллегами, и т.д.
Гипотетические коэффициенты корреляции, приведенные в табл. 12,
включают в себя коэффициенты надежности (они стоят в скобках вдоль
главной диагонали) и коэффициенты валидности (напечатаны полу-
жирным шрифтом но трем коротким диагоналям). Как показывают
коэффициенты валидности, результаты измерения каждого свойства раз-
личными методами коррелируют между собой. Здесь каждая мера сопо-
ставляется с другими независимыми мерами того же свойства, как и
в знакомой нам процедуре валидации. Таблица также содержит коэффи-
циенты корреляции между различными свойствами, измеренными одним
и тем же (сплошные треугольники) и разными (пунктирные треугольни-
Таблица 12
Гипотетическая миоюметодная матрица свойств (D.T.Campbell, D.W.Fiske, 1959, р. 82)
Мотод 1
Метод 2
Метод 3
свойства А B.i С.)
В, С, АЗ
0,89)
Метод 1 В<
.(0,76)
Ag 0,570,22 0,0910,93)
1
Метод 2 Bg 1 0,220,57 0,10
I -j
Ll -ЇU Ъ
0,22 0 1.0,670,42 0,33 1,94)
1 1
Метод 3 Вд 1 0,23 0,58 \ 0,12 \ \ 0,43" 0,660,34
1
0,11 0,110,45 [0,34 0,320,58
.(0,85)
146 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ки) методами. Конструктная валидность может считаться удовлетвори-
тельной, если коэффициенты валидности явно выше коэффициентов кор-
реляции между различными свойствами, измеренными различными
методами. Они также должны быть выше коэффициентов корреляции
между различными свойствами, измеренными одним и тем же методом.
Например, корреляция между стремлением к лидерству, определенным
путем самооценки и проективным методом, должна быть выше, чем кор-
реляция между стремлением к лидерству и общительностью, найденным
по опросникам, заполняемым самим испытуемым. Если последняя кор-
реляция, представляющая дисперсию при фиксированном методе, была
бы высокой, то это могло бы означать, например, что на индиви-
дуальные результаты данного опросника заметно влияет такой безотно-
сительный к тесту фактор, как способность понимать вопросы или жела-
ние предстать в выгодном свете по всем свойствам.
Д. В. Фиске (D. W. Fiske, 1973) считает желательным дополнительно
воспользоваться еще одним множеством корреляций, особенно при кон-
структной валидности личностных тестов. Эти корреляции относятся
к измерению одного и того же свойства одним и тем же методом, но по-
средством разных тестов. Например, два исследователя могут независи-
мо друг от друга составить опросники выносливости, а результаты обо-
их опросников могут по-разному коррелировать с другими свойствами
личности. Если это происходит, то нельзя считать, что оба опросника из-
меряют один и тот же личностный конструкт-выносливость.
Добавим, что описанная выше матрица надежности указывает на со-
гласованность двух мер одного и того же свойства, полученных предель-
но сходными методами, такими, как параллельные формы теста; на ва-
лидность между двумя мерами одного свойства, полученными предельно
различными методами, например с помощью теста и посредством опро-
са мнений коллег. Поскольку сходство и различие методов могут про-
являться в разной степени, теоретически надежность и валидность могут
рассматриваться как принадлежащие одному и тому же континууму. Од-
нако, как правило, методы, используемые для измерения надежности
и валидности, легко различимы.
итоги
Мы рассмотрели несколько способов задавать вопрос: <Насколько
валиден данный тест?> Чтобы четче выделить отличительные черты раз-
ных типов валидности, применим каждый из них к тесту, состоящему
из 50 различных арифметических задач. В табл. 13 отражены 4 способа
использования данного теста и соответствующие им процедуры валида-
ции. Из таблицы видно, что выбор процедуры валидации зависит от
последующего назначения результатов теста. Валидность одного и того
же теста в зависимости от цели его применения должна устанавли-
ваться по-разному. Если тест достижений используется для предска-
зания дальнейших успехов на более высоком уровне обучения, как в слу-
чае отбора старшеклассников при их приеме в колледж, то валидность
этого теста нужно устанавливать относительно оценок, получаемых
в колледже, а не относительно содержания данного школьного курса.
Примеры из табл. 13 поясняют различия между разного типа ва-
лидациями. Дальнейшее рассмотрение этих процедур, однако, показы-
вает, что валидности по содержанию, относительно критерия и конструкт-
ная ре являются строго различными или логически упорядоченными
147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия
Таблица 13
Валидность одного и того же арифметического теста применительно к разным целям
Цель тестирования Вопрос) на который должен Тип валидности
ответить тест
Тестирование достижений по Что Дик усвоил на По содержанию
арифметике в средних классах сегодняшний день?
школы
Тестирование способностей для Как Джим будет Прогностическая
предсказания возможности освоения учиться в дальнейшем? относительно критерия
курса математики в старших
классах
Диагностирование трудностей Выявило ли выполнение Текущая относительно
в обучении теста Биллом какие-то критерия
трудности в обучении?
Тестирование логического Как можно охарактери- Конструктная
мышления зовать психическую
деятельность Генри?
категориями. Напротив, конструктная валидность-широкое понятие,
включающее другие типы валидности. Все обсуждавшиеся выше конкрет-
ные методы установления валидностей по содержанию или относитель-
но критерия можно было рассматривать в разделе конструктной валид-
ности. Сравнение показателей двух групп, скажем невротиков и здоро-
вых, является способом проверки конструктной валидности теста, на-
правленного на измерение эмоциональной устойчивости, тревожности и
других свойств личности. Сравнение показателей глубоко умственно от-
сталых и нормальных школьников-это способ исследования конструкт-
ной валидности теста интеллекта. Корреляция теста технических спо-
собностей с успешностью обучения на специализированных курсах и с
выполнением различного рода работ позволяет нам лучше понять
конструкт, измеряемый тестом. Валидность относительно разнообразных
практических критериев обычно приводится в руководствах к тесту с
тем, чтобы будущему его пользователю легче было узнать, что изме-
ряет тест. Даже не будучи заинтересован в предсказании использован-
ных критериев, он по их списку сможет составить себе представле-
ние об области поведения, выборочно представленной в тесте.
Точно так же валидность по содержанию играет важную роль как
при построении, так и при последующей оценке всех тестер. Подбирая
задания для любого нового теста, составитель руководствуется неко-
торыми гипотезами относительно соотношения между выбираемым ти-
пом содержания и поведением, которое он намерен измерять. Все спо-
собы валидации критерия, в том числе обсуждавшиеся в конструктной
валидности, служат инструментом проверки таких гипотез. Что касается
пользующегося.тестом, то при оценке теста ему не следует слишком по-
лагаться на валидностьпо содержанию. Например, при проверке словар-
ного состава опросника эмоциональной устойчивости с точки зрения до-
ступности его для тех, кого намечается тестировать, он может
обнаружить, что результаты определенного теста слишком зависят от
скорости работы испытуемого или что в тесте интеллекта, разработан-
ном 20 лет назад, слишком много устаревших заданий. Все такие нябтттп-
148 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ста. Собственно говоря, нет таких сведений, получаемых в ходе любой
процедуры валидации, которые бы ни имели отношения к конструктной
валидное ти.
Официально термин <конструктная валидность> был введен в психо-
метрию в 1954 г. в <Методических указаниях по психологическим тестам
и диагностике>, являющихся первым изданием ныне действующих
<Норм> Американской психологической ассоциации (Standards..., 1974).
Хотя процедуры, отнесенные к разряду конструктной валидации, в то
время были уже не новы, последовавшее затем обсуждение конструктной
валидности способствовало уточнению формулировок и систематическо-
му обоснованию данного подхода. Понятие конструктной валидности
позволило подчеркнуть роль психологической теории в разработке те-
стов и необходимость формулировать гипотезы, подлежащие подтвер-
ждению или опровержению в процессе валидации. Это особенно важно
при опенке тестов, предназначенных для научных изысканий.
В практическом плане это понятие оказалось полезным при изуче-
нии валидности критериальных мер, применяемых в традиционной вали-
дации по критерию (L.R.James. 1973). Анализируя корреляцию раз-
личных критериальных мер между собой и с другими относительными
переменными, проводя факторный анализ таких данных, можно больше
узнать о значении того или иного критерия. В некоторых случаях резуль-
таты такого исследования приводят к перестройке или замене критерия,
выбранною для валидации теста. Так или иначе они обогащают интер-
претацию данных о валидности теста.
Конструктная валидность находит также практическое применение
в ситуациях, когда валидация по критерию невозможна, например при
определении локальной валидности тестов для отбора персонала на про-
мышленные предприятия. Выше, при обсуждении синтетической валид-
ности, уже говорилось о возникающих в этом случае трудностях. Кон-
структная валидность подсказывает еще один способ преодоления этих
трудностей при оценке применимости существующих тестов к опреде-
ленному виду работ. Как и при построении синтетической валидности,
этот подход предусматривает проведение систематического анализа типа
работы, после чего квалификация выполняющего ее работника описы-
вается в терминах конструктов соответствующего поведения. Далее, если
тест до своей публикации прошел необходимые исследования, то сведе-
ния, пршюдпмые в руководстве к нему, позволяют очертить основные
коне) рук ii.i, измеряемые тестом. Если они явно совпадают с теми, ко-
торые 1п.1лс,к:<1 измерению, то указанные сведения дают возможность
пепосрсдч псине оценить соответствие теста функциям, осуществляемым
при данном циде работ. В противном случае с их помощью можно рас-
СЧ111.П1, ./конфициент или иной количественный показатель синтетиче-
ской палндноии.
Коне 1 рук тая валидность также стимулировала поиски новых путей
получения палидациоппых данных. Хотя основные методы исследования
коне 1 рук iiioii иалидностп уже давно известны, к ним присоединяются все
новые и HOIII.IC процедуры. Однако многочисленность методов сбора
данных lain в себе определенные опасности.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование