Анастази А.

В отличие от коэффициента надежности ошибка измерения не зависит от
разнородности группы, на которой она была определена. Будучи выра-
жена в индивидуальных результатах, она остается неизменной, независи-
мо от того, определена ли она на однородной или гетерогенной группе.
Вместе с тем приводимая в единицах показателя ошибка измерения бу-
дет несравнимой для различных тестов. Проблема сравнимости для
ошибки измерения возникает, когда она выражена в таких единицах, как
число арифметических задач, количество слов словарного теста и т.п.
Следовательно, если хотят сравнить надежность различных тестов, луч-
ше пользоваться коэффициентом надежности. Интерпретации же индиви-
дуальных результатов более соответствует стандартная ошибка измере-
ния.
Интерпретация различий между индивидуальными ре-
зультатами. Особенно важно рассмотреть надежность теста и ошибку
измерения применительно к оценке различий между двумя результатами.
Представление результатов теста в виде интервалов значений предотвра-
щает акцентирование внимания на незначительной разнице в результа-
тах, что нежелательно как при сравнении показателей теста у различных
испытуемых, так и при сравнении показателей различных способностей
одного испытуемого. Изменения результатов вследствие обучения или
других причин экспериментального воздействия также необходимо ин-
терпретировать с учетом ошибки измерения.
Часто возникает вопрос об относительном положении показателей
индивида в различных сферах деятельности. Действительно ли у Джейн
вербальные способности более выражены, чем математические? Есть ли
основания считать, что Том обладает большими данными в сфере техни-
ки, нежели в работе со словом? Если в батарее тестов различных способ-
ностей Джейн получила более высокий показатель по вербальному, чем
OT>TJTTr.CT ЛЛUtяa\ЛЛ Tf>Y-
122 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
утверждать, что они могли бы иметь те же показатели при повторном
тестировании с другой формой батареи? Иными словами, были ли полу-
ченные различия в показателях просто результатом случайного отбора
конкретных заданий в данных субтестах-вербальном, математическом
и механическом?
В связи с растущим интересом к интерпретации профилей показате-
лей издатели тестов разработали формы представления данных, позво-
ляющие оценивать показатели в соответствии с ошибками измерения.
На рис. 13 в качестве примера воспроизведена форма регистрации инди-
видуальных показателей, используемая в тестах различных способностей.
На приведенной форме процентильные показатели по каждому субтесту
батареи изображаются в виде полос длиной в один дюйм, центры ко-
торых находятся против соответствующих процентилей испытуемого.
Каждая такая процентильная полоса соответствует расстоянию приблизи-
тельно 1,5-2 стандартные ошибки по обе стороны от полученного пока-
зателя. Следовательно, предположение, что истинный показатель инди-
вида лежит внутри такой полосы, верно приблизительно в 90Їо случаев.
При интерпретации профилей пользователю теста рекомендуется не при-
давать значения различиям между показателями, чьи процентильные по-
лосы перекрывают друг друга, особенно если перекрытие превышает по-
ловину их длины. В профиле, приведенном на рис. 13, например,
различие между показателями словесного рассуждения и способности
к действию с числами, по-видимому, отражает подлинную разницу
в уровне способности, чего нельзя сказать о различии между технически-
ми рассуждениями и пространственными представлениями. Различие же
между абстрактными и техническими рассуждениями остается неясным.
Следует помнить, что стандартная ошибка различий двух показате-
лей больше, чем ошибка измерения каждого из них в отдельности. Это
вытекает из того, что на это различие влияют случайные ошибки измере-
ния обоих показателей. Зная величины стандартных ошибок для каждого
из двух результатов теста, стандартную ошибку разности различий мож-
но вычислить по следующей формуле:
= 1/1 + 2.
где стд-стандартная ошибка различий двух результатов, а с и
ст"2 -стандартные ошибки измерения каждого результата. Подставляя
<71/1- rii на место (71 и ст]/1-Гц на место (72, можно выразить о а
через коэффициенты надежности:
= ст/2- ri, - г" .
Здесь ку предполагается, что их показатели при сравнении были переведены
в одну и ту же шкалу.
Проиллюстрируем приведенную выше процедуру на примере вер-
бального IQ и IQ шкалы действия интеллекта взрослых Векслера. Най-
" Поскольку коэффициент надежности (и, следовательно, ет") несколько меняется
в зависимости от субтеста, класса и пола, действительные диапазоны дюймовых полос на
123
НАДЕЖНОСТЬ
денные методом расщепления коэффициенты надежности этих показате-
лей равны соответственно 0,96 и 0,93. Для этой шкалы стандартный IQ
имеет М -- 100 и о = 15. Таким образом, стандартная ошибка различия
двух результатов может быть найдена следующим образом:
Рис. 13. Профиль результатов теста различных
с использованием процентильных полос,
способностей (DAT), построенный
о Ugsgg g s 5 11 1 11 III ll 11 1 L
вч со + 1-. 3 i>o r3 uio s o
Первич-з u Suю з < ss i с 10 (u т i?" 5-5 з S и
ный ре-
зультат213051433844399640
Процен-тиль609580953080909985
124 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
о а == 152~0,96~0,93 - 4,95.
Чтобы определить, насколько велики такие различия результатов в слу-
чае уровня 0,05, умножим стандартную ошибку разности 4,95 на 1,96, что
даст 9,7, т.е. приблизительно 10 единиц шкалы. Следовательно, различия
выполнения индивидом вербального IQ и IQ действия по этой шкале
должны быть не меньше 10, чтобы их можно было считать значимыми
на уровне 0,05.
НАДЕЖНОСТЬ КРИТЕРИАЛЬНО-ОРИЕНТИРОВАННЫХ ТЕСТОВ
В гл. 4 говорилось, что критериальный тест обычно (хотя и не всегда)
оценивает выполнение скорее как овладение навыком, чем как уровнь до-
стижений. Основное статистическое следствие из тестирования владения
навыком-снижение вариативности результатов у испытуемых. Теорети-
чески, если обучение каждого индивида продолжать, пока тот не овла-
деет навыком, вариативность упадет до нуля. Низкая вариативность
объясняется не только спецификой процедуры критериально-ориентиро-
ванного тестирования, но, как будет видно из гл. 8, она привносится
в тесты через построение и отбор заданий.
В одном из предыдущих разделов этой главы объяснялось, что лю-
бая корреляция, и коэффициент надежности в том числе, зависит от раз-
нородности состава группы, на которой она определяется. С повыше-
нием однородности выборки коэффициент корреляции снижается. Следо-
вательно, было бы неправильно оценивать надежность большинства
критериально-ориентированных тестов обычными методами. При этих
условиях даже тесты с высокой стабильностью и внутренне согласо-
ванные могли бы иметь коэффициент надежности близкий к нулю.
При построении критериально-ориентированных тестов важно найти
ответы на следующие два вопроса: (1) какое число заданий следует счи-
тать достаточным для надежной оценки тех учебных задач, к которым
относится тест? и (2) какое количество заданий должно быть выполнено,
чтобы оценка овладения навыком была надежной? Ответы на эти два
вопроса в настоящее время даются большей частью на основе субъек-
тивных суждений. Однако предпринимаются усилия для разработки ста-
тистических методов, которые давали бы объективную эмпирическую
оценку (R.L.Ferguson, M.R.Novick, 1973; R.UIaser, A.J.Nitko, 1971;
R.K.Hambleton, M.R.Novick, 1973; S.A.Livingston, 1972; J.Millman,
1974). Несколько примеров послужат иллюстрацией характера и разно-
сторонности этих усилий.
Два вопроса о числе заданий и зачетных нормативах могут быть со-
единены в одной предпосылке, поддающейся проверке методами теории
решений и последовательного анализа (R.GIaser, A.J.Nitko, 1971;
B.W. Lindgren, G.W. McElrath, 1969; A. Wald, 1947). Собственно говоря,
" Более полное обсуждение специальных статистических процедур, необходимых для
построения и оценки критериально-ориентированных тестов, приводится в работах
Р. Гласера, А. Нитко, Р. Хамблетона, М. Новика, Дж. Миллмана, В. Попхама, Т. Гусека
(R. Glaser, A.J. Nitko, 1971; R.K. Hambleton, M.R. Novick, 1973; J. Millman, 1974; W.J. Po-
pham, T.R. Husek, 1969). В работах Дж. Миллмана (J. Millman, 1972, 1973) дается серия та-
блиц для определения минимального числа заданий, требуемого для установления овладе-
ния навыком на определенном уровне.
125 НАДЕЖНОСТЬ
требуется проверить гипотезу, что испытуемый достиг требуемого овла-
дения навыком в какой-то содержательной области или учебными зада-
чами, тестовыми заданиями. Последовательный анализ состоит в осу-
ществлении одного за другим серии наблюдений, после каждого из
которых принимается решение: (1) принять гипотезу, (2) отклонить гипо-
тезу, (3) провести дополнительное наблюдение. Таким образом, число на-
блюдений (в данном случае-число заданий), необходимых для получе-
ния надежного заключения, определяется в процессе тестирования.
Испытуемый выполняет не фиксированный, заранее определенный .набор
заданий, а продолжает выполнять задания, пока не принимается реше-
ние, владеет он навыком или нет. С этого момента тестирование прекра-
щается и учащийся либо переводится на следующий уровень обучения,
либо продолжается его подготовка по овладению навыком на уровне,
который предполагается тестом. При описанном в гл. 4 применении
компьютеров такая процедура последовательных решений вполне осуще-
ствима и позволяет сократить общее время тестирования, сохраняя при
этом необходимую надежность оценки уровня владения навыком
(R. Glaser, J. Nitko, 1971).
Некоторые исследователи применяют бейесовский метод оценки, ко-
торый сам по себе весьма приспособлен для принятия того типа реше-
ний, которые требуются при тестировании владения навыком. Ввиду
многочисленности тестируемых конкретных учебных задач в критериаль-
но-ориентированных тестах каждая задача обычно обеспечивается не-
большим числом заданий. Для восполнения связанного с этим недостат-
ка информации разработаны способы привлечения дополнительных
данных по тестам, проведенным ранее с тем же учащимся, а также ре-
зультатов тестирования других учеников (R. L. Ferguson, М. R. Novick,
1973; R.K.Hambleton, M.R. Novick, 1973).
Когда гибкие, адаптированные к индивиду процедуры оказываются
неприменимы, для оценки надежности теста можно использовать более
традиционные методы. Например, правильность решения об овладении
навыком может быть проверена выполнением учебных задач следующе-
го уровня. Значительна ли доля учащихся, достигших или превысивших
зачетный норматив теста владения навыком на более низком уровне, но
после, казалось бы, достаточного периода обучения не сумевших овла-
деть навыком на следующем уровне? Можно ли считать на основе ана-
лиза возникших затруднений, что они не достигли по-настоящему
и предыдущего уровня? Если да, то эти данные вполне бы могли озна-
чать недостаточную надежность теста. Может оказаться необходимым
включить в тест больше заданий или установить более высокий за-
четный норматив. Еще одним способом (R. К. Hambleton, М. R. Novick,
1973) определения надежности теста владения навыком является предъяв-
ление двух параллельных форм одним и тем же индивидам и регистра-
ция процента испытуемых, для которых по обеим формам принимается
одинаковое решение (овладение или неовладение навыком).
При разработке некоторых критериально-ориентированных тестов
Служба тестирования в образовании до сих пор эмпирическим путем
устанавливает стандарты овладения навыком. Применяемая процедура
предусматривает предъявление теста не только ученикам того класса, на
которых этот тест рассчитан, но также учащимся следующего и преды-
дущего класса. Чтобы выявить случаи мнимого овладения соответствую-
126 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
овладения ими в старшем классе, привлекается мнение учителя,
позволяющее осуществлять более дифференцированную оценку. За-
четный норматив выбирается затем так, чтобы число ошибочных реше-
ний, принимаемых с его помощью, было минимальным.
Все статистические процедуры, предназначенные для критериально-
ориентированных тестов, находятся в стадии разработки. Многое еще
предстоит сделать как в теоретическом, так и в экспериментальном пла-
не, прежде чем удастся получить наиболее эффективную методику, со-
ответствующую различным ситуациям тестирования.
ГЛАВА 6. ВАЛИДНОСТЬ.
ОСНОВНЫЕ ПОНЯТИЯ
Валидность теста-понятие, указывающее нам, что тест измеряет и на-
сколько хорошо он это делает. Следует иметь в виду, что название теста
не может служить указанием на то, что он измеряет. Оно лишь позво-
ляет опознать его. По большей части названия тестов слишком широки
и расплывчаты, чтобы по ним можно было установить, на какую сферу
поведения ориентирован тест. Правда, в последнее время наметилась
тенденция давать тестам более конкретные и операционально опреде-
ленные названия. Установить, какое свойство измеряет данный тест,
можно, лишь ознакомившись с объективными источниками информации
и эмпирическими процедурами, применявшимися для установления его
валидности (A. Anastasi, 1950). Более того, про валидность нельзя гово-
рить обобщенно, например, что тест имеет высокую или низкую валид-
ность. При ее определении всегда должно быть указано конкретное пред-
назначение теста.
Цель любой процедуры определения валидного теста-выяснить, как
выполнение теста соотносится с другими независимо наблюдаемыми
фактами исследуемых характеристик поведения. Конкретных методов ис-
следования подобных соотношений достаточно много. В <Стандартах
учебных и психологических тестов> (Standards for Educational, 1974) эти
методы распределяются по трем основным критериям: (1) валидность по
содержанию, (2) валидность по критерию и (3) конструктная валидность.
Каждый из этих типов валидности обсуждается в одном из последую-
щих разделов, а анализу их соотношения между собой посвящен заклю-
чительный раздел главы. Методика анализа и интерпретация данных
о валидности при выработке практических решений рассматриваются
в гл. 7.
ВАЛИДНОСТЬ ПО СОДЕРЖАНИЮ
Природа. Валидность по содержанию в сущности означает системати-
ческую проверку содержания теста с тем, чтобы установить, соответ-
ствует ли оно репрезентативной выборке измеряемой области поведения.
Такая процедура валидации обычно применяется при оценке тестов до-
стижений, предназначенных для измерения того, насколько индивид
овладел конкретными навыками или учебным предметом. Может со-
здаться впечатление, что для установления валидности любого такого
теста достаточно просто проверить его содержание. Например, тест на
127 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ
мог бы быть валидным, если бы состоял соответственно из заданий на
умножение, правописание и ведение бухгалтерских операций.
Решение, однако, не столь просто, как это может показаться. Сразу
же возникает проблема адекватности выборки всего множества заданий,
поэтому тестируемая область поведения должна систематически прове-
ряться с тем, чтобы существовала уверенность, что задания теста ох-
ватывают все ее главные аспекты и в правильной пропорции. Тест легко
перенасытить теми аспектами исследуемой области, по которым легче
составить объективные задания. Поэтому рассматриваемое содержание
следует фиксировать заранее, а не после того как тест уже составлен.
Правильно построенные тесты достижений должны соответствовать не
только предмету обучения, но и его задачам. Содержание, следователь-
но, необходимо определять достаточно широко, включая в него помимо
знания фактического материала такие важнейшие цели обучения, как
применение изученных принципов и интерпретацию данных. Более того,
валидность содержания больше зависит от релевантности тестовых отве-
тов индивида, рассматриваемой в сфере поведения, чем от очевидной ре-
левантности содержания тестовых заданий. Простая проверка теста
может и не выявить те процессы, которые действительно обеспечивают
выполнение теста испытуемым.
Важно также избежать неоправданного обобщения выбранной темы
тестирования. Если, например, орфографический тест с множественным
выбором ответов измеряет способность распознавать правильно и не-
правильно написанные слова, то из этого не следует, что он также изме-
ряет способность правильно написать диктант, количество орфографиче-
ских ошибок в сочинении и другие аспекты грамотности письма
(K.G.Ahlstrom, 1964; D.M.Knoell, C.W.Harris, 1952). Еще одна труд-
ность возникает в связи с возможным влиянием посторонних факторов
на показатели теста.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование