Не очень настойчивые читатели могут перейти прямо к чтению главы
2.
Теория погрешностей измерения, которая здесь описана, названа
классической, поскольку она была разработана исходя из наиболее
простых предположений, которые делались создателями тестов с са-
мого начала использования тестирования. И Guilford (1958), и Nun-
31
nally (1978) подчеркивают тот факт, что, хотя в последнее время
были разработаны более сложные и изощренные модели, основные
принципы классической теории остаются в силе. Более того, эти
принципы просты при реализации их в тестах, и, поэтому, имеют
особое значение в практике конструирования тестов.
Истинный показатель
В данной теории предполагается, что для любой черты (свойства)
(например, текучего интеллекта, экстраверсии, тревожности) каж-
дый индивидуум имеет истинный показатель. Любой показатель по
тесту для некоторого индивидуума в каждом отдельном случае отли-
чается от его истинного показателя на величину случайной погреш-
ности. Если бы мы тестировали индивидуума несколько раз, то пол-
учили бы распределение показателей вокруг его истинного показате-
ля. Среднее значение этого распределения, которое принимается в
качестве нормального, аппроксимирует истинный показатель.
Стандартная погрешность измерения
Истинный показатель - это основа для определения стандартной
погрешности измерения. Так, если мы обнаружим, что для некоторо-
го индивидуума полученные показатели значительно различаются,
то это явно можно рассматривать как погрешность измерения. По-
скольку резонно предположить, что погрешность будет аналогично
появляться у всех индивидуумов, стандартное отклонение погрешно-
стей становится стандартной погрешностью измерения. Поскольку
ретестовая надежность представляет собой корреляцию между пол-
ученными показателями в двух случаях, то, очевидно, чем выше
ретестовая надежность, тем меньше стандартная погрешность изме-
рения, - в рамках данной модели. Это показано в следующей фор-
муле для стандартной погрешности измерения (ffmeas)-
Omeas =0t /V l-rtt (I.I)
где Of - стандартное отклонение результатов данного теста, a r(f -
коэффициент ретестовой надежности.
Генеральная совокупность (universe), выборочная
совокупность (population) или конкретная область (domain)
заданий теста
В классической теории погрешностей измерения предполагается,
что каждый тест составляет случайная выборка заданий из генераль-
ной совокупности (universe), выборочной совокупности (population)
32
или области (domain) заданий, релевантных данной черте (свойст-
ву). Так, если мы разрабатываем тест для диагностики обсессивных
черт, то предполагается, что наши задания являются случайной вы-
боркой из всех возможных заданий, с помощью которых могут быть
обнаружены обсессивные черты. Конечно, эта генеральная совокуп-
ность заданий является гипотетической, в отличие от тестов письма
и чтения, для которых должен быть составлен полный словарь (гене-
ральная совокупность заданий), а если мы включаем и грамматиче-
ские варианты, - то выборочная совокупность.
В большинстве случаев задания выбираются не так произвольно.
Однако, как указывает Nunnally (1978), тотфакт, что разработчики
тестов преднамеренно нацелены на создание разнообразных зада-
ний, имеет тот же результат. Тест будет работать ошибочно, когда
задания не отражают удовлетворительно генеральную совокупность
заданий.
Отношение истинного показателя к генеральной
совокупности заданий
В данной модели истинный показатель - это показатель, который
бы получил индивидуум, если бы ему были предъявлены все возмож-
ные задания. Следовательно, погрешность тестов отражает степень,
в которой реальная выборка заданий охватывает их генеральную
совокупность. Следует отметить, что в этой модели, таким образом,
не учитываются другие источники погрешности измерений, такие,
например, как самочувствие испытуемого, температура воздуха в
помещении и адекватность лица, проводящего обследование.
Статистические основания классической модели
Статистические основы классической модели полностью описаны
у Nunnally (1978). Здесь же будут представлены основные положе-
ния . Как уже было оговорено, истинный показатель - это показатель
испытуемого в гипотетической генеральной совокупности заданий.
Эта генеральная совокупность заданий порождает корреляционную
матрицу (бесконечно большую) попарных корреляций между зада-
ниями. Среднее значение корреляции между заданиями для этой
матрицы, nj , указывает степень общих пересечений между задани-
ями. Так, если, например, мы вставили в тест одно задание из всего
множества несвязанных между собой заданий, то среднее значение
корреляции между заданиями должно быть равно 0,00 , указывая,
довольно правильно, что между заданиями не было ни одного пере-
сечения. Аналогично, разброс корреляций вокруг указывает меру
различия заданий по степени их вхождения в общие пересечения. В
2 4-196
данной модели предполагается, что все задания имеют одинаковое
значение вхождения в общее пересечение, что означает, что средняя
корреляция каждого задания с другими одна и та же для всех заданий.
Это и есть базовое предположение данной модели.
Исходя из классической модели, можно показать, что корреляция
некоторого задания с истинным показателем равна квадратному
корню от его средней корреляции с другими заданиями. У Nunnally
(1978) приведен полностью вывод следующей формулы:
гн=У7ц (1.2)
Строго говоря, это верно только тогда, когда количество заданий
приближается к бесконечности, но если даже используются только
100 заданий, изменение коэффициентов корреляции будет неболь-
шим.
С точки зрения конструктора тестов, формула (1.2) имеет боль-
шое значение, поскольку если он разработает большое количество
заданий и выберет из них те, для которых значение квадратного
корня из средних корреляций с другими заданиями является боль-
шим, тогда по определению его тест будет иметь более высокую
корреляцию с истинным показателем; то есть будет в высокой степе-
ни надежным и свободным от погрешностей измерения. Ясно, что
формула (1.2) является статистическим основанием для выбора за-
даний изо всей их совокупности. Это не применимо к тестам скорости
(speeded tests), в которых корреляция невыполненных заданий зада-
ется искусственно.
Аналогичные рассуждения, касающиеся взаимосвязи заданий,
применимы в точности к параллельным тестам для измерения одной
и той же переменной, когда каждый тест рассматривается как слу-
чайная выборка заданий из генеральной совокупности заданий. Сред
ние значения и дисперсии таких случайных выборок отличаются от
истинного показателя только случайным образом. Следовательно,
если во всех рассмотренных нами уравнениях стандартные показате-
ли для заданий будут заменены стандартными показателями для
тестов (т.е. наборов заданий), может быть опять использован процесс
редукции, и, таким образом, формула (1.2) может быть записана в
виде га = \п1, где гц - корреляция показателей по тесту 1 и истин-
ного показателя, и гц -средняя корреляция теста 1 со всеми тестами
из генеральной совокупности.
Коэффициент надежности (reliability coefficient)
Средняя величина корреляции одноготеста или задания со всеми
тестами или заданиями из генеральной совокупности называется
34
коэффициентом надежности. Квадратный корень из коэффициента
надежности является корреляцией данного теста или задания с ис-
тинным показателем (как указывает формула (1.2)). Однако, на
практике невозможно точно вычислить это теоретическое значение
надежности Гц, потому что количество разработанных нами заданий
и тестов не является бесконечным. Это означает, что надежность
(Гц) некоторого теста можно оценить лишь приблизительно.
Таким образом, на практике коэффициенты надежности основа-
ны на корреляции одного теста с другими, и эта оценка может быть
не очень точной. Это, означает, что имеющая более существенное
значение корреляция теста или задания с истинным показателем
также может быть оценена неточно.
Выборочные показатели
Это показатели любого теста, то есть показатели, состоящие из
истинных показателей и погрешностей измерения. Любой коэффи-
циент надежности, который мы получаем на практике, гц, для неко-
торого теста или задания, будет аппроксимировать Гц. Если предпо-
ложить, что гц = г-ii, то r-it (корреляция истинного и выборочного
показателей) = Гц. Таким образом может быть получена оценка для
гц. Исходя из этого, можно получить оценки истинных стандартных
показателей из выборочных показателей по следующей формуле:
Zt = ru zi = VT-II 21 (1.3)
где zf - оценки истинных стандартных показателей, z, - стандарт-
ные показатели для выборочного измерения, гц - корреляция выбо-
рочных показателей и истинных показателей, и г-н - это надежность
переменной.
Так как квадрат коэффициента корреляции равен дисперсии од-
ной переменной, выраженной в терминах другой, гц - относительная
доля дисперсии истинных показателей, выраженная величиной вы-
борочного измерения, а гц = /;; , следовательно, квадрат надежно-
сти равен относительной доле дисперсии истинных показателей,
выраженной через значения выборочных измерений.
Действительно, как показано у Nunnally (1978), если показатели
теста являются смещенными или ненормализованными ("сырыми")
показателями (в отличие от стандартных показателей), то:
_о?
/"II - -у
of
2 35
(1.4)
тле of- дисперсия переменной I ,nfff- дисперсия переменной
1, выраженная в истинных показателях, а гц - надежность.
Это удобная формула для оценивания О?, так как //; и fff легко
вычисляются. Очевидно, что исходя из классической модели погреш-
ностей, надежность - это чрезвычайно важный параметр.
Однородность теста и надежность
Надежность теста связана со средней корреляцией между задани-
ями, то есть с его однородностью. Однако, поскольку корреляции
между заданиями не являются с очевидностью идентичными, должно
быть некоторое их распределение вокруг среднего значения. В клас-
сической модели измерения предполагается, что такое распределе-
ние является нормальным. Исходя из этого предположения, как ука-
зывает Nunnally, можно оценить точность коэффициента надежно-
сти при помощи вычисления стандартной погрешности оценивания
средней взаимной корреляции заданий во всей генеральной совокуп-
ности заданий.
ОГц
О гц
Vl/2 (k-D-l
(1.5)
где 0~Fij - стандартная погрешность оценивания Гц в генеральной
совокупности, О гц - стандартное отклонение корреляции заданий
внутри теста, и k - количество заданий в тесте.
Формула (1.5) указывает, что стандартная погрешность оценки
получается путем деления стандартного отклонения корреляций за-
даний на квадратный корень из количества возможных корреляций
между k заданиями. Вычитание единицы дает соответствующие сте-
пени свободы. Из формулы (1.5) видно, что: (а) по мере возрастания
стандартной погрешности этой оценки возрастают различия между
корреляциями; и (Ь) по мере возрастания стандартная погрешность
уменьшается, то есть чем больше заданий, тем больше точность
оценки коэффициента надежности. Таким образом, эта формула
показывает, что надежность возрастает с однородностью теста и его
величиной, или, точнее говоря, надежность оценки возрастает с уве-
личением размера теста.
Следует отличать понятие надежности оценок теста в соответствии с моделью
Nunnally от концептуального содержания ретестовой надежности как свойства
измерительной процедуры. Так, при увеличении числа заданий растет вероят-
ность различных ответов на каждое из них, что, естественно, снижает надежность
в смысле меры повторяемости результатов (Прим.ред.)
36
Эти выводы из формулы (1.5) настолько полезны для практиче-
ских разработчиков тестов, что мы еще вернемся к их обсуждению.
Прежде всего я должен напомнить читателям значение стандартной
погрешности оценки корреляции заданий.
Она означает, что 68 % всех средних корреляций выборки попада-
ют в интервал между арифметическим средним плюс-минус одна
величина стандартной погрешности, и что 95% попадают в интервал
между арифметическим средним плюс-минус две величины стандар-
тной погрешности. Если предположить, что стандартное отклонение
корреляций для некоторого теста равно 0,15 (а это отнюдь не необыч-
ный случай) и применить формулу (1.5) к тестам, состоящим из 10,
20 и 30 заданий, мы получим следующие стандартные погрешности:
для теста из 10 заданий: 0,02
для теста из 20 заданий: 0,01
для теста из 30 заданий: 0,007
Из этих результатов становится видно, что даже при такой не-
большой величине теста, как 10 заданий, точность оценки надежно-
сти является удивительно большой. Это происходит благодаря тому
факту, что знаменатель формулы (1,5) быстро возрастает с увеличе-
нием количества заданий.
С точки зрения разработчика тестов, такая точность является
весьма воодушевляющей. На практике это означает, что в оценке
надежности присутствует небольшая погрешность из-за случайной
ошибки в выборе заданий. Другой важный вывод, как указывает
Nunnally (1978), состоит в том, что если явно параллельные тесты
имеют низкую взаимную корреляцию, это не может быть отнесено за
счет случайной ошибки при выборе заданий. Либо задания должны
представлять различные генеральные совокупности заданий (напри-
мер, они измеряют различные переменные), либо есть ошибка выбор-
ки, вносимая испытуемыми.
Таким образом, легко видеть, что формула ( 1.5) дает разработчи-
ку тестов уверенность в том, что случайные ошибки, похоже, не
смогут нарушить логику построения теста. Даже при наличии не-
большого количества заданий оценки надежности могут быть точны-
ми.
Nunnally (1978) выводит из этой классической модели ряд прин-
ципов, которые имеют значение при практическом конструировании
тестов. Методическая мощь этой классической модели заключается
в том, что из нее можно сделать много полезных выводов. Фактиче-
ски, охватываются три важных области : соотношение величины
теста и его надежности, надежность любой выборки заданий и оцени-
37
вание истинных показателей по полученным или выборочным пока-
зателям.
Надежность и величина теста
Представляется очевидным, что надежность возрастает с величи-
ной теста. Поскольку истинные показатели определены как показа-
тели генеральной совокупности заданий, должно выполняться пред-
положение, что чем больше величина теста, тем выше корреляция с
истинным показателем; в предельном случае рассматривается гипо-
тетическая ситуация, когда тест состоит из всех заданий генеральной
совокупности, за исключением одного.
С точки зрения разработчика тестов важной является быстрота
возрастания надежности с возрастанием количества заданий. Всегда
трудно разработать большое количество валидных заданий (напри-
мер, таких, которые принадлежат именно нужной генеральной сово-
купности); следовательно, если мы хотим продемонстрировать, что,
скажем, надежность двадцати пяти заданий (с заданной средней кор-
реляцией) является высокой, то достижение этой цели будет иметь
смысл. Nunnally (1978) показал, как это может быть сделано.
В результате получена формула Спирмена-Брауна (Spearman-
Brown Prophecy formula) (используемая в вычислении надежности
теста при его расщеплении на части):
= . + {k-l)T,
(1.6)
где rkk - надежность теста после расщепления, k - количество
заданий, и гц - средняя взаимная корреляция между заданиями.
Как было показано, формула Спирмена-Брауна является чрезвы-
чайно полезной при конструировании тестов. Предположим, что у
нас есть три набора заданий: (а) десять заданий, (Ь) двадцать зада-
ний, (с) тридцать заданий. Пусть средняя корреляция между задани-
ями равна 0,20. Тогда:
= 1 О) =
Set В = rkk
20х0.20
1+(19 X 0.20)
=L)=
rkk является надежностью теста, и квадратный корень из нее дает
нам оценочные корреляции заданий с истинным показателем. Даже
38
для теста из десяти заданий удается получить удовлетворительное
значение надежности, тогда как при тридцати достигается очень
большое ее значение. Причем эти цифры были получены для зада-
ний, взаимная корреляция которых была низкой, всего 0,20. Для
болееоднородного теста из 30 заданий, гдесредняя корреляция выше,
например, 0,40, получаем:
Set D = rkk
30х0.40
1+(29х0.40)
Таким образом, разработчик тестов, который может сформулиро-
вать большой набор однородных заданий, уже готов создать надеж-
ный тест. Следует также заметить, что, если он разобьет эти тридцать
заданий на две параллельные формы по пятнадцать заданий, они обе
также будут иметь удовлетворительную надежность.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39