Клайн Пол

Это, однако, маловероятно, если на первом
этапе вы использовали хорошо сформированные выборки. На новой
выборке сравните средние значения для мужчин и для женщин: они,
конечно же, не должны сильно различаться.
196
(9) В этой процедуре производится только анализ заданий. В ней
мы не встречались с проблемами подбора дистракторов для заданий
с несколькими вариантами выбора или случайного угадывания отве-
тов, обсуждавшимися в главе 2, посвященной тестам способностей,
или с устранением влияния установок на ответы, с которыми мы
имели дело в главе 3 о личностных тестах.
Понятие надежности, возникающее на шаге 5 приведенной про-
цедуры, нуждается в некотором дополнении. Некоторые авторы от-
стаивают систематический подход к определению надежности, суть
которого в том, что лучшие задания (по критерию корреляции с
общим показателем) должны добавляться к тесту до тех пор, пока не
будет достигнуто настолько высокое значение коэффициента надеж-
ности, насколько это было желательно, и на этом шаге конструиро-
вание теста завершается. С нашей точки зрения, при таком подходе
игнорируются другие важные аспекты теста (как обсуждалось выше)
и слишком много внимания уделяется его внутренней согласованно-
сти.
До сих пор при обсуждении процедур анализа заданий и констру-
ирования тестов предполагалось, что для конструирования шкалы,
которую уже можно исследовать на валидность, было сформулирова-
но достаточное количество заданий. Однако, на различных этапах
процедуры отбора заданий часто возникает необходимость в пере-
формулировании заданий.
Переформулирование заданий
Если по некоторым аспектам исследуемой переменной нет удов-
летворительных заданий, или их недостаточно для создания надеж-
ного теста, как и в том случае, когда при повторном испытании
некоторые задания не удовлетворяют критериям, может возникнуть
необходимость в переформулировании заданий. При переформули-
ровании заданий может быть полезно знание того, отчего задание
было устранено в процедуре анализа, а также его статистические
оценки. Поясним это на примерах.
ПРИМЕР 1
Это задание 3 из таблицы 6.1, в которой показан удобный способ
представления результатов анализа заданий: "Объедались ли вы ког-
да-нибудь?" Статистические оценки задания указывают, что слиш-
ком много испытуемых ответили на этот вопрос утвердительно, а
поэтому он неэффективен. Хотя этот вопрос и предназначался для
выявления обжорства, он соответствует поведению, которое допу-
скал практически каждый. Необходим такой образец обжорства, ко-
197
торый встречается намного реже. Например, удачным приемом мо-
жет оказаться вопрос: "Съедали ли вы когда-нибудь шесть порций
мороженого за раз?" Это гипотетический пример. Все другие приме-
ры взяты из моей собственной работы над личностными тестами.
ПРИМЕР 2
"Воспользовались бы вы чьей-нибудь зубной щеткой?" На этот
вопрос ответили "нет" большинство испытуемых из эксперименталь-
ной выборки. Очевидно, что это была слишком суровая проверка на
безразличие к бактериям. Вместо него было использовано более уме-
ренное задание: "Воспользовались бы вы зубной щеткой своего дру-
га?"
ПРИМЕРЗ
"Ваши хобби и интересы такие же, как у большинства других
людей?" На этот вопрос многие испытуемые не дали утвердительного
ответа. Это были те, кто отметили этот вопрос (как им было позволе-
но при испытании заданий) как такой, для ответа на который им
понадобилась неопределенная категория ответа. Проблема заключа-
лась в словах "большинство людей". Действительно, кто знает, что
делают большинство людей? Вместо этого я подставил "у многих
людей", и задание успешно прошло повторные испытания.
ПРИМЕР 4
Является ли курение плохой привычкой? Это задание эффектив-
но работало в Великобритании, но оказалось непригодным в Амрит-
саре, штат Пенджаб, где почти все испытуемые из выборки ответили
"да". Однако невозможность использовать его в Амритсаре объясня-
ется тем фактом, что этот город является центром религии сикхов,
которая запрещает курение!
Эти примеры в достаточной степени показывают, что процедура
анализа заданий может дать нам ключ к тому, как они должны быть
переформулированы. Будучи переформулированными, новые зада-
ния вместе с отобранными ранее должны быть предъявлены вновь
соответствующим выборкам испытуемых и подвергнуты процедуре
анализа так, как описано выше. Это должно дать достаточное коли-
чество репрезентативных заданий для формирования приемлемого
теста.
Если тест сформировать не удалось
Однако, иногда, даже после переформулирования заданий, коли-
чества заданий все еще недостаточно для формирования теста или
даже для получения среднего значения надежности. Существует не-
198
сколько причин, по которым это могло произойти, и будут обсуждены
меры, которые могут быть приняты в каждом случае.
Такой переменной не существует
Возможна, особенно в сфере личности и мотивов, где даже среди
специалистов по психометрии мало согласия по поводу того, что
представляют собой конкретные переменные, (не говоря уже о почти
полном отсутствии согласия между психометрией и клинической тео-
рией) , ситуация, когда мы пытаемся измерить переменную или син-
дром, которые попросту не существуют.
Так, если мы попытаемся измерить фаллический характер
(Freud, 1905), гипотетический синдром личностных черт, появляю-
щийся, согласно теории Фрейда, в результате фиксации на фалличе-
ской фазе онтогенеза, впаяне может произойти такая неудача. Ни
одному исследователю не удалось сконструировать валидное средст-
во измерения этой переменной (см. Kline, 1972; Fisher и Greeaberg,
1977). Представляется, что в этом случае нет корреляции между
составляющими ее чертами. Следовательно, тест не может быть
сконструирован. Как я уже утверждал при обсуждении внутренней
согласованности, при измерении синдромов, включающих широкий
набор черт, допустимо, чтобы значение коэффициента надежности
было ниже, чем для других более однородных переменных, если же
нет корреляции, то даже это становится невозможным. Если это
имеет место, от данного теста лучше отказаться.
КАК ПОКАЗАТЬ, ЧТО ПЕРЕМЕННАЯ НЕ СУЩЕСТВУЕТ
Единственный обоснованный метод для проверки этой гипотезы,
отличный от выводов из природы той переменной, которую мы пыта-
емся измерить, - вычислить корреляцию между заданиями и, воз-
можно, подвергнуть их факторному анализу, хотя это и не всегда
необходимо.
Эта процедура не описывается подробно, так как она идентична
приводимой ниже процедуре конструирования факторизованных те-
стов. Приведем краткое описание. Вычисляются значения коэффи-
циента корреляции (р между заданиями. Если большинство из этих
значений низкие, меньше, чем 0,2 , или незначимые, то тогда ясно,
что черты, измеряемые данным тестом не образуют синдром. Если же
некоторые задания образуют кластеры, то должно быть изучено их
содержание. Если они все подобны - являются перефразированиями
друг друга или затрагивают явно одинаковые особенности поведения
- то это удовлетворительное объяснение их коррелированности. Ес-
ли же они охватывают по крайней мере часть синдрома, может ока-
199
заться, что они действительно формируют реально существующую
переменную, то есть синдром более узок, чем это описано в клиниче-
ской теории. В этом случае может оказаться полезным формулирова-
ние новых заданий такого же вида; эти новые задания будут затем
подвергнуты, вместе с исходными, процедуре анализа так, как было
описано.
При этом существует опасность, что при помощи этой процедуры
мы можем сконструировать специфический фактор - дутую, лож-
ную особенность (Cattell и Kline, 1977). Однако, это должно быть
выявлено при выполнении исследований валидности - этот фактор
не будет коррелировать ни с чем. Такой корреляционный анализ,
конечно, имеет смысл осуществлять в том случае, когда не удалось
сформировать тест и если мы пытаемся измерить переменную, суще-
ствование которой вызывает теоретические сомнения. Если бы мы
пытались измерить хорошо определенную переменную, такую как
вербальные способности, корреляционный анализ был бы бессмыс-
ленным, так как неудачу нельзя было бы приписать тому факту, что
такой переменной не существует.
Неудовлетворительные задания
Логично было бы в каждом случае неудачи при конструировании
теста предположить, что причиной этого является то, что подготов-
ленные задания просто не измеряют того, для измерения чего они
предназначались. Опять-таки, это более вероятно в случае личност-
ных и мотивационных тестов, чем для тестов способностей. Однако,
даже в последних противоречивые высказывания или плохо сформу-
лированные инструкции могут свести на нет их эффективность.
В том случае, когда мы следовали правилам формулирования
заданий (которые были описаны в главах 2 - 4, посвященных конст-
руированию тестов различных типов) и, что более важно, если мы
исправили слабые задания, исходя из требований процедуры их ана-
лиза для повторного испытания, как предлагалось выше, это малове-
роятно (за исключением обычно нескольких заданий, которые просто
отбрасываются).
Это объяснение может быть принято только тогда, когда мы убеж-
дены, что никакие другие причины не могут объяснить полученные
факты. В самом деле, единственный способ продемонстрировать это
- написать эффективные задания для последующих испытаний.
Задания нагружают (насыщают) несколько факторов
Одним из критических замечаний по процедуре анализа заданий
является то, что можно получить задания, нагружающие два корре-
200
пирующих фактора, для которых значение корреляции с общим по-
казателем все же будет высоким. Однако, если эти факторы не кор-
релируют, то значение корреляции с общим показателем может быть
только низким, и тест не может быть сконструирован.
Этот случай неудачного составления теста - по существу лишь
вариант первого случая: не существует переменной, положенной в
основу теста, - только в этом случае неудача нас постигает в резуль-
тате того, что существует несколько переменных, которые измеря-
ются нашими заданиями. Если это предположение исходит из приро-
ды самого теста, то должна быть принята следующая процедура.
Во-первых, должны быть вычислены коэффициенты корреляции
<р между заданиями теста. Эти корреляции затем должны быть под-
вергнуты факторному анализу. Это позволит выяснить, действитель-
но ли задания нагружают несколько факторов. Если да, это указыва-
ет на то, что у нас есть несколько тестов, составленных вместе. Когда
мы хотим разработать отдельные тесты для этих факторов, должны
быть изучены задания, нагружающие каждый из факторов, и должны
быть сформулированы другие, подобные им. Однако, при помощи
этой процедуры мы конструируем фактически факторизованные тес-
ты. Методология создания этих средств измерения описана в главе 9,
и здесь им не будет уделено внимания. Следует заметить, что если
задания вообще не нагружают ни один фактор, то мы приходим к
первому случаю, когда тест не измеряет вообще никакой переменной.
Недостаточное количество эффективных заданий
Nunnally (1978) упоминает один случай неудачного формирова-
ния теста, который легко устраним. Это происходит, когда существу-
ет ядро эффективных заданий с высокими значениями корреляции
заданий с общим показателем и, следовательно, взаимной корреля-
ции между заданиями, но количества этих заданий недостаточно,
чтобы сформировать надежный тест. Добавление других слабых за-
даний не улучшит надежность, поскольку они не коррелируют друг
с другом.
Причину такой неудачи можно быстро определить. Должно быть
несколько эффективных заданий (по критерию ГрЫл ), а для всех
остальных это значение будет низким. С целью устранения сложив-
шейся ситуации следует изучить содержание эффективных заданий
и должны быть сформулированы подобные им другие. Это, однако,
следует делать только тогда, когда видно, что составляющие ядро
эффективные задания охватывают все содержание теста. Если эф-
фективные задания сами очень похожи, то может случиться, что мы
201
опять конструируем тест для дутого, ложного специфического фак-
тора.
Этот случай идентичен первому случаю неудачного формирова-
ния теста - когда не существует переменная. Корреляционный ана-
лиз заданий может идентифицировать небольшой кластер заданий.
Однако, если это не проявилось в процедуре анализа заданий, таких
заданий будет мало.
В этой главе были указаны пошаговые процедуры для анализа
подготовленного множества заданий и отбора их для окончательного
теста. Было также показано, как результаты анализа заданий могут
помочь переформулированию заданий.
Следует подчеркнуть, что описанные методы гарантируют пол-
учение теста с удовлетворительной внутренней согласованностью и
дискриминативностью, который измеряет некоторую переменную.
Продемонстрировать, что это за переменная - задача исследований
валвдности.
Глава 7. Вычисление дискриминативности и
валидности тестов
В вводной главе, посвященной средствам измерения, было указа-
но, что у психометрических тестов есть три характеристики, благо-
даря которым они превосходят другие формы измерений: надеж-
ность, валидность и дискриминативность. Прежде чем переходить к
обсуждению методов достижения валидности, будут рассмотрены
приемы для измерения дискриминативности, поскольку, как и на-
дежность, она может быть получена с известной долей объективнос-
ти. При определении же валидности, хотя и существуют определен-
ные методики, все же присутствует некоторый элемент субъектив-
ности.
Дискриминативность
Как указывалось в главе 1, потенциально тест может быть гораздо
более дискриминативным, чем другие средства измерения, скажем,
интервью или рейтинги, в которых для обеспечения надежности мо-
жет использоваться не более девяти градаций.
Показатели дискриминативности, как указывает Guilford (1956),
связаны по существу с ранжированием исп-ытуемых. Основной пока-
затель коэффициента дискриминативности, ЙФергюсона (Ferguson,
1949), который был рекомендован для оценивания дискриминатив-
ности тестов, прост в вычислении. Его формула указана ниже. Вво-
дится отношение между показателями любых двух испытуемых: эти
показатели либо равны, либо различны. Общее количество возмож-
ных отношений между парами испытуемых в выборке из N испытуе-
мых равно N (N- 1 )/ 2 . Общее количество отношений равенства
среди этих пар:
2-2
(7.1)
где/; - частота встречаемости каждого показателя, следователь-
но, S=.
Общее количество отношений различия среди этих пар:
(2)-
(7.2)
и (7.1) + (7.2) = (YV +N)/2, поскольку это единственные воз-
можные отношения для этих пар. Очевидно, что наибольшее количе-
203
ство отношений различия - максимум дискриминативности - дос-
тигается тогда, когда все показатели имеют одинаковую частоту. Это
происходит, когда частота встречаемости каждого показателя равна
N/(n +!), где п - количество заданий теста.
Это основные сведения из статистики, на которых основана фор-
мула Фергюсона. Коэффициент д Ферпосона - это отношение меж-
ду показателем дискриминативности, полученным для некоторого
теста, и максимальным значением дискриминативности, которое мо-
жет обеспечить такой тест. Формула выглядит следующим образом:
л- -
- IN/(п +1)
Она может быть упрощена:
_ (п+1) -2/)
где N - количество испытуемых, п - количество заданий,// -
частота встречаемости каждого показателя.
д = 0, когда все испытуемые получили одинаковые показатели (то
есть когда нет дискриминативности), и равно 1 при равномерном
(прямоугольном) распределении.
ШАГИ ВЫЧИСЛЕНИЙ ДЛЯ и ФЕРГЮСОНА (ВЫЧИСЛЕНИЕ
7.1)
(1) Подсчитайте, как часто встречаются значения показателей
для данного теста.
(2) Возведите эти числа в квадрат и просуммируйте: S .
(3) Прибавьте 1 к количеству заданий: п + 1 .
(4) Возведите в квадрат количество испытуемых: N .
(5) Помножьте количество заданий на результат шага (4): п N .
(6) Это дает нам все элементы формулы. Теперь можно их подста-
вить в формулу:
д _ (3) x[(4j -(2)] _ (п +1) (-2/)
-( - nN
Разработчик тестов должен учитывать некоторые характеристики
этого коэффициента, обсуждавшиеся Ferguson (1949). Поскольку
для равномерного (прямоугольного) распределения (наиболее дис-
криминативного) необходимы задания, в которых бы наиболее полно
204
были реализованы все возможные проявления измеряемого свойства,
это означает, что дискриминативность до некоторой степени проти-
востоит надежности, так как использование заданий с широким пе-
речнем возможных проявлений измеряемого свойства уменьшает
взаимную корреляцию между заданиями.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39

А-П

П-Я

Введение в психометрическое проектирование