А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 

Формула для надежности при расщепле-
нии теста пополам гораздо более проста и удобна в вычислениях, чем
K-R20. Более того, судя по опыту разработки тестов автором данной
книги, различие между K-R20 и надежностью при расщеплении была
несущественной, не имевшей никакого значения для практического
конструирования тестов. Я оправдываю ее использование только
лишь когда у вас нет никакой компьютерной программы для вычис-
ления коэффициента О. , а в процессе конструирования теста требу-
ется быстрая оценка его надежности, чтобы убедиться, что все идет
хорошо. При наличии недорогих, эффективных средств для вычисле-
ний (имеются в виду компьютеры) не имеет смысла использовать
значение надежности при расщеплении теста пополам, кроме случая
быстрой оценки надежности теста.
173
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-
ПЛЕНИИ ТЕСТА ПОПОЛАМ. ПЕРВАЯ ПОЛОВИНА ПО СРАВНЕ-
НИЮ СО ВТОРОЙ ПОЛОВИНОЙ (ВЫЧИСЛЕНИЕ 5.3)
( 1 ) Для каждого испытуемого вычислите его показатель по первой
половине теста: Х.
(2) Для каждого испытуемого вычислите его показатель по второй
половине теста: Y.
(3) Вычислите корреляцию между Х и Y .
ПРИМЕЧАНИЕ. Корреляция между Х и Y вычисляется по формуле:
2ху-(2х)(2г)
" Nx-xf V/2y"-(Sy)
где N - количество испытуемых, Х - показатели по тесту 1, Y - показатели по
тесту 2.
(4) Пересчитайте результирующую корреляцию, значение на-
дежности, в зависимости от величины частей теста по формуле Спир-
мена-Брауна (1.6):
2 ry
"J , - __________________У
kk - ] _i_ -
I i Гху
Это дает нам значение надежности при расщеплении теста попо-
лам (скорректированное по величине полученных частей теста).
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ НАДЕЖНОСТИ ПРИ РАСЩЕ-
ПЛЕНИИ ТЕСТА ПОПОЛАМ. НАДЕЖНОСТЬ ДЛЯ ЧЕТНЫХ-
НЕЧЕТНЫХ ЗАДАНИЙ (ВЫЧИСЛЕНИЕ 5.4)
( 1 ) Для каждого испытуемого вычислите его показатель по зада-
ниям теста с четными номерами: Х .
(2) Для каждого испытуемого вычислите его показатель по зада-
ниям теста с нечетными номерами: Y.
(3) Вычислите корреляцию между Х и Y .
(4) Пересчитайте результирующую корреляцию, значение на-
дежности в зависимости от величины частей теста по формуле Спир-
мена-Брауна (1.6):
2rxy
Это дает нам значение надежности при расщеплении теста попо-
лам (скорректированное по величине полученных частей теста).
174
Метод дисперсионного анализа по Хойту
Hoyt (1941) использовал для оценки надежности дисперсионный
анализ. Как указывает Guilford (1956), Хойт рассматривает ответы
на задания как двухфакторный анализ дисперсии без репликации.
Гилфорд утверждает, что алгебраически это идентично формуле
K-R20. Следовательно, это означает, что такой метод идентичен
также применению коэффициента о. (частным случаем которого яв-
ляется формула K-R20). Метод дисперсионного анализа Хойта заслу-
живает рассмотрения как альтернативный для коэффициента О., если
важна простота вычислений.
ФОРМУЛА ХОЙТА
rft = 1
Ve-Vr
Ve
где Vr - это дисперсия остатка от суммы квадратов, а Ve - это
дисперсия для испытуемых.
ФОРМУЛА ДЛЯ СУММЫ КВАДРАТОВ
( 1 ) Сумма квадратов для испытуемых равна:
Su=
Xt
Xt)
nN
где Xt - общий показатель для каждого испытуемого, п - коли-
чество заданий теста, N - количество испытуемых.
(2) Сумма квадратов для заданий равна:
S )2
di

nN
где R{ - количество правильных ответов для задания i.
(3) Общая сумма квадратов:
у2 _ (Ri) (s Wi)
- )+\i)
где Wi - количество неправильных ответов на задание / .
(4) Остаток суммы квадратов S Хг равен (3) - (1) - (2).
СТЕПЕНИ СВОБОДЫ
Количество испытуемых N - 1 , количество заданий п - 1 ,
остаток Nn -N- п+1. Дисперсии равны суммам квадратов,
деленным на степени свободы.
ПРОЦЕДУРЫ ВЫЧИСЛЕНИЯ ПО ФОРМУЛЕ ХОЙТА ( ВЫ-
ЧИСЛЕНИЕ 5.5)
( 1 ) Возведитв квадрат и просуммируйте показатели для каждого
испытуемого: S Xi .
(2) Разделите полученное значение на количество заданий:
S
(3) Просуммируйте эти показатели для всех испытуемых и возве-
дите общую сумму в квадрат: (S Х() .
(4) Перемножьте количество испытуемых и количество заданий и
разделите на это число результат п. (3):
ГУ У
nN
(5) Вычтите (4) из (2):
S
S)
nN
(6) Разделите (5) на N-1 (степени свободы для испытуемых), то
есть на количество испытуемых минус 1. Это дает нам дисперсию для
испытуемых: Vg.
Дисперсия для заданий:
(7) Вычислите количество правильных ответов для каждого зада-
ния, возведите в квадрат и просуммируйте: S Ri .
(8) Разделите полученное значение на количество испытуемых:
iRi
(9) Из (8) вычтите (4):
Z
)
nN
(10) Разделите (9) на (п-1), то есть на количество заданий
минус 1. Это дает нам дисперсию для заданий (items): Vi .
Общая сумма квадратов:
(II) Просуммируйте количество правильных ответов для всех
заданий: (S Ri).
(12) Просуммируйте количество неправильных ответов для всех
заданий: (S Щ). W: N - R,
(13) Перемножьте (11)и(12).
(14) Сложите (II) и (12).
(15) Деление (13) на (14) дает общую сумму квадратов.
Сумма квадратов для остатка:
(16) Вычтите (5) плюс (9) из (15).
Остаток дисперсии:
(17) Разделите (16) на Nn-N-п + / (степени свободы):
Ретестовая надежность
Как уже говорилось, если нам нужно удостовериться в значении
некоторого показателя, то оно должно оставаться неизменным при
измерении переменной в двух случаях (предполагая, что сама пере-
менная со временем не изменилась).
Существует два метода измерения ретестовой надежности. Пер-
вый состоит в предъявлении двух взаимозаменяемых форм данного
теста одним и тем же испытуемым. Для этого метода существует
проблема в том, что чрезвычайно трудно подобрать два набора зада-
ний, которые были бы действительно эквивалентны. В идеале, каж-
дое задание одной формы должно было бы иметь некоторый эквива-
лент в другой форме, с идентичными характеристиками задания, а
следовательно, такой же должна быть доля испытуемых из популя-
ции, дающих ключевые ответы на это задание, и аналогичными дол-
жны быть корреляция с общим показателем и содержание заданий.
Это трудно достижимо, и корреляция между параллельными форма-
ми, предъявляемыми одновременно, редко превышает 0.9, а часто
она значительно меньше, так что правомочность использования тер-
мина "параллельный" вызываетсомнения. Темне менее, чембольше
известно о том, что же измеряется, тем проще сконструировать па-
раллельные формы теста.
Обычно ретестовая надежность отделяется от надежности параллельных форм (см.
А.Анастази, 1982; Л.Ф.Бурлачук, С.М.Морозов, 1989) (Прим.ред.)
177
Второй подход заключается в том, что испытуемым предъявляется
один и тот же тест при двух тестированиях. Nunnally (1978) утверж-
дает, что недостатком этого приема является то, что испытуемые
помнят свои ответы, а в случае тестов способностей это может значи-
тельно повлиять на результаты повторного выполнения теста. Одна-
ко, если между повторными тестированиями прошло много времени,
то это влияние незначительно, а когда после первого тестирования
прошел год, то им можно смело пренебречь. Nunnally также утверж-
дает, что ретестовая корреляция в случае с одной формой теста не
удовлетворяет требованиям классической модели погрешностей из-
мерения, поскольку если бы даже между заданиями была нулевая
корреляция, ретестовая надежность может быть высокой. Это, конеч-
но же, верно, но это не означает, что не стоит вычислять ретестовую
надежность. Напротив, она дает ответ на другой вопрос. При помощи
коэффициента а. и ему подобных оценивается согласованность теста.
А ретестовая надежность связана с другой характеристикой теста: с
надежностью его работы по истечении времени. Это является в рав-
ной степени, а в некоторых случаях и более важным, чем согласован-
ность. Идеально согласованное, но дающее необъяснимые колебания
во времени средство измерения не будет полезным. С нашей точки
зрения, для каждого теста существенно, чтобы его ретестовая надеж-
ность была высокой. Если это не так, то он не будет валидным.
ВЫЧИСЛИТЕЛЬНЫЕ ПРОЦЕДУРЫ ДЛЯ РЕТЕСТОВОЙ НА-
ДЕЖНОСТИ (ВЫЧИСЛЕНИЕ 5.6)
Параллельные формы данного теста, А и Б:
(1) Вычислите корреляцию между показателями по тесту А и по
тесту Б, где тесты предъявляются в отдельных процедурах тестиро-
вания.
Ретестовая надежность:
(2) Вычислите корреляцию между показателями теста при тести-
ровании А и при тестировании Б. Во избежание искусственно высо-
ких результатов между тестивованиями должен быть интервал по
крайней мере в шесть месяцев
Следует учитывать то, что ретестовая надежность может быть невысокой в силу
динамичности измеряемого конструкта. При этом тест остается высоко валидным
(Прим.ред.)
Р.КПпе, настаивая на интервале не менее чем в шесть месяцев, между повторными
тестированиями, выпускает из виду то, что это требование далеко не всегда может
быть удовлетворено. Столь значительного интервала может быть вполне достаточ-
но для того, чтобы произошли изменения в измеряемых поведенческих функциях.
Для изучения по методу ретеста пригодны только тесты, на которые повторное
применение неоказываетзаметного влияния. А.Анастази (1982) отмечает, что для
большинства психологических тестов этот метод неприменим (Прим.ред.)
Факторный подход к вычислению надежности
В классической модели погрешностей измерения предполагается,
как мы видели в главе 1, что величина надежности теста равна отно-
шению истинной дисперсии к реально полученной дисперсии, и что
дисперсия для теста состоит из истинной дисперсии плюс дисперсия
погрешности. Факторно-аналитический подход к определению на-
дежности основан на тех же предположениях, но, как указывает
Guilford (1956), в нем расчленяется понятие дисперсии истинного
показателя.
ФАКТОРНО-АНАЛИТИЧЕСКАЯ МОДЕЛЬ ДИСПЕРСИИ ИС-
ТИННОГО ПОКАЗАТЕЛЯ
Дисперсия истинного показателя состоит из дисперсии общего
фактора плюс дисперсия специфичного фактора. Например, диспер-
сия истинного показателя для группового теста вербального интел-
лекта (group verbal intelligence test) может состоять из дисперсий для
gt, gc и V (это три общих фактора) плюс дисперсия фактора, специ-
фичного для данного конкретного набора заданий. Это означает, что
полная дисперсия теста равна сумме дисперсий для общих факторов
плюс дисперсии специфичных факторов, плюс дисперсия погрешно-
сти. Следуя Guilford (1956), это может быть записано:
Of = Оа + Оь + ... + On + 0s + Ое
где Of - дисперсия теста, от Оа до 0ц - дисперсии для общих
факторов, Оц - дисперсия для специфичного фактора, и (Те-
дисперсия погрешности.
f)
Можно поделить это уравнение на 0( . Тогда мы получим:
,2
g? - gi , oj
о? о? о?
of
+ - = 1.00
of
Это может быть записано в виде:
\=а1 +bi +
+ni +sl +ei
f)
где a x - доля дисперсии теста, вносимая общим фактором а , и
Таким образом, надежность теста равна:
п=1 -е =а1 +bl + ..
179
+ni +sl
Следовательно, если мы произведем факторный анализ теста,
возведем в квадрат и просуммируем нагрузки его факторов, то мы
получим его надежность, поскольку нагрузки факторов представля-
ют корреляцию теста с общими или специфичными факторами. Из
сказанного ясно: факторный подход к пониманию дисперсии теста -
это просто расширение классической модели погрешностей измере-
ния, и из этого следует, что надежность (по внутренней согласован-
ности) может быть оценена по общности теста, хотя, строго говоря,
общность определяется как дисперсия общих факторов и не должна
включать в себя дисперсии специфичных факторов, как надежность.
ВЫЧИСЛЕНИЕ НАДЕЖНОСТИ ПРИ ПОМОЩИ ФАКТОР-
НОГО АНАЛИЗА (ВЫЧИСЛЕНИЕ 5.7)
( 1 ) Выполните факторный анализ данного теста с настолько боль-
шим количеством разнообразных переменных, насколько возможно.
(2) Возведите в квадрат и просуммируйте нагрузки факторов для
данного теста.
Этот метод установления надежности сильно зависит от других
переменных, с которыми факторизуется данный тест. Так, если бы у
нас был тест математических способностей, и мы факторизовали бы
его совместно с личностными и мотивационными переменными, то
почти не было бы факторов, которые данный тест мог бы нагрузить.
Оценка его надежности, основанная на этой выборке переменных,
была бы неадекватной. С другой стороны, если бы этот тест фактори-
зовался совместно с двумя или тремя тестами всех основных факто-
ров способностей, так чтобы каждый тест мог нагружать соответству-
ющие ему факторы, тогда этот метод был бы, по всей вероятности,
весьма точным. Понятно, что он больше подходит для оценки надеж-
ности уже факторизованного теста (который должен нагружать толь-
ко один или два общих фактора и специфичный фактор), чем для
тестов на основании критериально-ключевых признаков, которые
могут измерять широкий набор разнообразных факторов, некоторые
из которых могут и не входить в батарею исследуемых факторов.
Общность (communality) теста - сумма дисперсий для общих факторов а, Ь, . . .,
п; это та часть полной дисперсии данной переменной, которая обуславливается
общими для нескольких переменными факторами. Вторая часть полной дисперсии
(специфичная дисперсия и дисперсия, обусловленная погрешностью), связанная
с определенной переменной и свойственная только ей, называется характерно-
стью переменной (теста). См.: Я.Окунь (1974) (Прим.перев.)
180
Заключение
Выводы из нашего обсуждения и методики вычислений коэффи-
циентов надежности ясно очерчены и могут послужить кратким ре-
зюме для данной главы о надежности.
( 1 ) Все исследования надежности должны выполняться на боль-
ших (200 или более) и репрезентативных выборках.
(2) Должна быть установлена надежность по внутренней согласо-
ванности, хотя по оговоренным причинам она не обязательно должна
быть такой высокой, как это часто указывается в некоторых учебни-
ках.
(3) Очевидно, что для оценки надежности не существует единого
числового показателя. Для всех результатов должны указываться
объем и тип выборки, а также использовавшийся для вычислений
метод.
(4) Когда возможно, должен быть вычислен коэффициент (X или
его упрощенная версия, формула K-R20.
(5) Определение надежности путем расщепления теста должно
рассматриваться как прием для оценки реальной надежности только
в условиях, когда необходимо быстро получить результаты.
(6) Факторизованные оценки надежности должны использоваться
только с факторизованными тестами и тогда, когда есть широкий
набор других переменных.
(7) При слишком быстром проведении тестирования и для тестов,
оказавшихся трудными для испытуемых, коэффициенты внутренней
согласованности могут быть искусственно, необоснованно завышен-
ными.
(8) Должна быть оценена надежность параллельных форм (если
такие формы существуют).
(9) Должна быть вычислена ретестовая надежность. Интервал
времени между повторными тестированиями должен быть не менее
шести месяцев.
(10) Надежность - это важная характеристика теста, однако
следует помнить, что надежность сама по себе ценности не представ-
ляет. Ее ценность состоит в том, что часто она необходима для дости-
жения валидности. Однако, может случиться так, что тест будет
почти совершенно надежным, но почти полностью невалидным.
Глава 6. Отбор и оценивание заданий
В этой главе будут описаны процедуры, используемые для отбора
заданий с целью получения надежных, валидных и дискриминатив-
ных тестов. До сих пор изучение заданий в этой книге касалось
мастерства разработчика тестов - искусства приемов формулирова-
ния эффективных заданий. В этой главе предметом нашего рассмот-
рения являются научные методы.
Целью анализа заданий является отбор заданий, формирующих
однородную, дискриминативную шкалу. Наиболее часто используе-
мый метод состоит в определении корреляции каждого задания с
общим показателем и вычислении по полной выборке доли тех испы-
туемых, которые дали ключевые ответы. Однородный и дискримина-
тивный тест может быть получен путем отбора заданий, имеющих
высокую корреляцию с общим показателем и, помимо этого, долю
правильно ответивших (в соответствии с "ключом") испытуемых в
пределах 80%-20%.
Будучи сформулированными, задания теста должны быть испы-
таны на некоторой выборке испытуемых и подвергнуты процедуре
анализа. То, как это делается, описано ниже.
Проблемы анализа заданий
Первое критическое замечание касается порочного круга, кото-
рый вытекает из этой процедуры. Если все задания из нашей выбо-
рочной совокупности будут иметь широкий разброс показателей и не
будут измерять то, что мы хотели, то по данной процедуре задания
будут отбираться в соответствии с таким критерием, как их корреля-
ции с общим показателем, который никогда не будет адекватным.
Следует заметить, что те же самые аргументы применимы к проце-
дуре факторизации множества заданий. Возможно существование
генерального фактора для множества неэффективных заданий.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39