Анастази А.

На дисперсию ошибки те-
стовых результатов обычно влияют случайные колебания с периодами
от нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-
товой надежности, стараются придерживаться небольших временных ин-
тервалов. При тестировании маленьких детей этот период должен быть
еще короче, чем у испытуемых старшего возраста, поскольку в раннем
детстве возрастные изменения происходят в течение месяца и даже
быстрее.
В целом для любого типа испытуемых интервал между двумя после-
довательными применениями теста обычно не должен превышать 6 мес.
Изменения относительного выполнения теста индивидами, происходя-
щие в более длительные промежутки времени, уместнее отнести к куму-
лятивным и постепенным, а не к чисто случайным. Более того, они, ско-
рее всего, характеризуют более широкую сферу поведения, чем та,
которая проявляется при выполнении данного теста. Общий уровень
развития индивида, его способность к обучению, к пониманию техниче-
ских устройств, его суждения об искусстве могут за 10 лет существенно
измениться. Его личностный статус с годами может заметно возрасти
или упасть вследствие обстоятельств жизни дома, в школе или условий
социального окружения, а также по таким причинам, как болезнь или
эмоциональное расстройство.
Степень влияния таких факторов на психическое развитие индивида
является важной исследовательской проблемой. Однако этот вопрос не
следует смешивать с вопросом надежности конкретного теста. Напри-
мер, при измерении надежности тестов Станфорд-Бине, как правило, со-
относят показатели, полученные с интервалом не в десять лет или даже
в один год, а в несколько недель. Конечно, с этими тестами проводились
и долгосрочные ретестовые испытания, но их результаты обычно обсу-
ждаются с точки зрения предсказуемости уровня интеллекта взрослого
на основе выполнения теста в детском возрасте, а не с точки зрения на-
дежности конкретного теста. Понятие надежности в основном ограничи-
вается краткосрочными случайными изменениями, характеризующими
выполнение теста самого по себе, а не тестируемую область поведения.
Следует отметить, что в различных поведенческих функциях обыч-
ные . колебания проявляются неодинаково. Например, на отточенности
движений пальцев могут сказаться самые незначительные изменения
в состоянии индивида, никак не влияющие на его понимание речи. Если
хотят получить общую оценку характера движений пальцев индивида,
106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
то, по всей видимости, нужно провести повторные тесты в течение не-
скольких дней; для выяснения же понимания им речи достаточно одного
сеанса тестирования. Но всякий раз необходимо обращаться к анализу
цели теста, основывая его на понимании того поведения, которое пред-
назначен предсказать тест.
Несмотря на кажущуюся простоту и очевидность, методика ретеста
при распространении на большинство психологических тестов наталки-
вается на трудности. Улучшение показателей ретеста как результат тре-
нировки будет, вероятно, различным у разных испытуемых. Более того,
если промежуток времени между начальным и повторным тестирова-
нием достаточно мал, обследуемые могут припомнить многие из своих
прежних ответов. Иными словами, при повторном тестировании память
способствует воспроизведению первоначальной картины правильных
и ошибочных ответов. Следовательно, результаты двух предъявлений
теста не будут независимыми, и корреляция между ними окажется об-
манчиво высокой. Проведение теста второй раз может также привести
к изменению его природы. В первую очередь это относится к задачам,
при решении которых нужно проявить изобретательность. Испытуемый,
однажды ухватив принцип решения, в дальнейшем может воспроизво-
дить правильный ответ, минуя промежуточные ступени. Только тесты, на
которые повторное применение не оказывает заметного влияния, при-
годны для их исследования по методу ретеста. К этой категории принад-
лежит ряд моторных тестов и тестов сенсорного различения. Для боль-
шинства психологических тестов этот метод неприменим.
Надежность взаимозаменяемых форм. Один из способов из-
бежать трудностей, присущих ретестовой надежности,-применение взаи-
мозаменяемых форм теста. Те же самые испытуемые могут тестиро-
ваться в первый раз с помощью одной формы, а второй раз-с помощью
другой, сравнимой формы. Корреляция между показателями, полученны-
ми по двум формам, служит коэффициентом надежности теста. Заметим,
что такой коэффициент надежности измеряет как временную стабиль-
ность теста, так и согласованность ответов по двум выборкам заданий
(или тестовым формам), т. е. этот коэффициент объединяет два типа на-
дежности. Поскольку оба типа существенны для большинства целей те-
стирования, надежность взаимозаменяемых форм оказывается полезной
мерой для оценки многих тестов.
Понятие выборки заданий, или выборки содержания, лежит в основе
не только данного, но и других типов надежности, о которых речь пой-
дет дальше. Поэтому рассмотрим данную концепцию подробнее. Ве-
роятно, каждому когда-то доставались на экзамене вопросы именно по
той теме, к которой он был особенно хорошо подготовлен или, напро-
тив, знал этот материал особенно плохо. Столь знакомая всем ситуация
Под параллельными (parallel), или взаимозаменяемыми (alternate) формами теста
понимаются серии заданий, не обязательно дающие первичные результаты с одинаковы-
ми М ист, но снабженные таблицами эквивалентности. Параллельные формы следует от-
личать от уравненных (matched) форм, состоявших из заданий, попарно уравненных по
структуре и содержанию, и эквивалентных (equivalent) форм, не уравненных, но тем не ме-
нее дающих результаты, обладающие весьма близкими статистическими характеристика-
"" nfiiiiee наименование упомянутых серий-сопоставимые (comparable) формы. В амери-
~"""""Ї и иные, неканонизированные названия отдельных
""- ""tud). дублированные
107
НАДЕЖНОСТЬ
поясняет дисперсию ошибки, связанную с выборочным представлением
содержания. В какой степени показатели данного теста зависят от факто-
ров, проявляющих себя именно в данном наборе заданий? И если другой
исследователь, работая независимо от нас, подготовил бы другой тест
в соответствии с теми же требованиями, то насколько бы результаты
этих тестов отличались друг от друга? Предположим, что для теста сло-
варного запаса был составлен список из 40 слов. Предположим делее,
что с той же целью был составлен второй список из 40 других слов, при-
чем были соблюдены все предосторожности, чтобы трудность теста
осталась той же самой. Различия в показателях, полученных в двух те-
стах одними и теми же испытуемыми, иллюстрирует рассматриваемый
тип дисперсии ошибки. Под действием факторов, связанных с прошлым
опытом различных испытуемых, относительная трудность двух списков
будет несколько меняться от одного индивида к другому. Например,
первый список может содержать большее число слов, незнакомых испы-
туемому А, чем второй, в котором, в свою очередь, могло оказаться не-
пропорционально много слов, незнакомых испытуемому В. Если сло-
варный запас (т.е. истинные показатели) обоих испытуемых приблизи-
тельно одинаков, то В тем не менее превзойдет А по первому списку,
тогда как А превзойдет В по второму. Относительное положение испы-
туемых А и В по данным двум спискам окажется взаимно противопо-
ложным из-за случайных различий в подборе слов.
Как и при ретестовой надежности, надежность взаимозаменяемых
форм всегда должна дополняться указанием длительности временного
интервала, разделяющего два предъявления теста, а также описанием
происшедших за это время событий. Если обе формы применяются не-
посредственно одна за другой, то корреляция отражает надежность, отно-
сящуюся к замене форм, а не к временному фактору. Дисперсия ошибки
в этом случае вызывается колебаниями в выполнении двух наборов зада-
ний, а не временным фактором.
При разработке взаимозаменяемых форм, безусловно, следует поза-
ботиться о том, чтобы они были действительно таковыми. Важно, чтобы
параллельные формы были бы независимо построенными тестами, отве-
чающими одним и тем же требованиям. Такие тесты должны содержать
одинаковое число заданий, представленных в одной и той же форме и
с однотипным содержанием. Диапазон и уровни трудности заданий так-
же должны быть одинаковыми. Инструкции, временные рамки, поясняю-
щие примеры, формат бланков и другие аспекты тестирования также не-
обходимо проверить на сопоставимость.
Следует добавить, что наличие пареллельных форм желательно и по
другим соображениям, независимо от определения надежности теста.
Взаимозаменяемые формы полезны при катамнестических исследованиях
и при изучении влияния определенных экспериментальных факторов на
выполнение теста. Применение нескольких взаимозаменяемых форм
уменьшает действие искушенности в тестировании и вероятность обма-
на.
Хотя по сравнению с ретестовой надежностью надежность взаимоза-
меняемых форм применяется достаточно широко, она также имеет свои
недостатки. Прежде всего, если изучаемые функции поведения подвер-
жены значительному влиянию фактора тренировки, использование па-
раллельных форм ослабит, но не устранит его полностью. Конечно, если
" -----""", "е:т,,пт,пг,пт. nnun in тп -лее-, уттучтпение оезультатов
108 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
при повторном проведении теста, то это не повлияло бы на корреляцию
показателей, поскольку добавление постоянной величины к каждому ре-
зультату не меняет коэффициента корреляции. Однако, скорее всего.
улучшение результатов для разных испытуемых будет неодинаковым
вследствие индивидуальных различий в опыте работы с подобным мате-
риалом, в мотивации участия в тесте и по других причинам. В этих усло-
виях эффект тренировки является дополнительным источником диспер-
сии, снижающим корреляцию между двумя формами. Но если влияние
тренированности невелико, то снижение будет ничтожным.
Другая проблема связана с возможным изменением природы теста
при повторном его проведении. Например, если в параллельных задачах
на сообразительность применен один и тот же принцип, то испытуемый,
однажды найдя решение, и во второй раз применит его. В подобных слу-
чаях одной замены содержания задания явно недостаточно для того,
чтобы избежать эффекта переноса. Наконец, следует добавить, что для
многих тестов взаимозаменяемые формы отсутствуют ввиду трудностей,
связанных с их составлением. В силу этих причин часто приходится
обращаться к другим методам оценки надежности.
Метод расщепления. Меру надежности можно определить и на
основании однократного применения единственной формы теста, поль-
зуясь для этого процедурой расщепления. При таком способе каждый ис-
пытуемый получает два результата благодаря разбиению теста на две
сопоставимые части. Очевидно, что надежность, найденная методом рас-
щепления, является мерой согласованности выборок содержания. Вре-
менная стабильность показателей в ней не представлена, поскольку при-
меняется только один сеанс тестирования. Этот тип коэффициента
надежности иногда называют коэффициентом внутренней согласованно-
сти, ибо для его определения требуется лишь единственное применение
одной формы теста.
Первая проблема, с которой мы сталкиваемся, применяя метод рас-
щепления, связана с тем, как разделить тест надвое, чтобы при этом по-
лучились наиболее сопоставимые части. Всякий тест можно членить мно-
гими способами. Для большинства из них первая и вторая половины, как
правило, несопоставимы вследствие различий в природе и уровнях труд-
ности заданий, а также в связи с увеличивающейся вовлеченностью
в тест практики, утомления, скуки и т. д. Адекватная основным целям те-
стирования процедура разбивает результаты по четным и нечетным за-
даниям теста. Если задания теста расположены в порядке возрастания
трудности, то такое разбиение обеспечивает достаточную эквивалент-
ность показателей обеих половин. Одна предосторожность, которую тре-
буется при этом соблюдать, относится к случаю, когда тест содержит
группу взаимосвязанных заданий-например, когда несколько вопросов
касаются какой-то конкретной диаграммы или одного и того же фраг-
мента текста. В подобном случае каждая такая группа заданий должна
быть целиком отнесена либо к одной, либо к другой половине. Если за-
дания таких групп разделить на две части, то возникнет обманчивое
сходство сравниваемых показателей, так как любая ошибка в понимании
задачи скажется на выполнении заданий из обеих половин.
Полученные показатели по двум частям теста коррелируются обыч-
ным методом. Нужно иметь в виду, однако, что эта корреляция в дей-
ствительности отражает надежность лишь половины теста. Например,
--.-.. "". rnn- nnn-r.n,,rr т,о iru norroiilitt тп i-rTT109 НАДЕЖНОСТЬ
для двух серий результатов, каждая из которых содержит только 50 за-
даний. В отличие от надежности этого типа, в ретестовой надежности,
и надежности взаимозаменяемых форм каждый показатель вычисляется
на основе общего числа заданий теста.
При прочих равных условиях, чем больше заданий содержит тест,
тем выше его надежность. Вполне оправданно ожидать, что чем обшир-
нее выборка поведения, тем адекватнее и согласованнее получаемые еди-
ницы измерения. Влияние увеличения или же сокращения теста на его
коэффициент надежности можно оценить посредством формулы Спирма-
на - Брауна:
l+(n-l)rii
где rii-исходное значение коэффициента надежности, Гц-его значение
после расширения или сокращения теста, а п -отношение нового числа
заданий к первоначальному. Так, если число заданий теста возросло с 25
до 100, топ равно 4, а если оно сократилось с 60 до 30, топ равно 1/2.
Формула Спирмана-Брауна широко используется для пересчета надеж-
ности, определенной по методу расщепления, и во многих руководствах
к тестам приводится уже пересчитанное значение. Поскольку переход от
расщепленного теста к его полной форме всегда означает удвоение числа
заданий, то эта формула принимает вид:
21
"~Ti
П.Ж. Рюлон (P.J. Rulon, 1939) предложил другой способ определе-
ния надежности методом расщепления. Для расчетов требуется знать
только дисперсию разностей между результатами каждого испытуемого
по обеим половинам теста (ст) и дисперсию суммарных результатов (ст).
Значения этих величин подставляются в формулу, определяющую надеж-
ность теста в целом:
.--
Интересно отметить связь между этой формулой и определением
дисперсии ошибки. Любая разность между результатами испытуемого
по двум половинам теста представляет собой случайную ошибку. Дис-
персия таких разностей, поделенная на дисперсию результатов, дает
долю дисперсии ошибки. Вычитая долю дисперсии ошибки из единицы,
мы получаем долю <истинной> дисперсии, которая и равна коэффициен-
ту надежности.
Метод Кьюдера-Ричардсона. Четвертый метод определения
надежности, также основайный на однократном предъявлении единствен-
ной формы теста, использует согласованность ответов по всем заданиям
теста. На согласованность этого рода влияют два источника дисперсии
ошибки: (1) выборка содержания на надежность взаимозаменяемых
форм и расщепления и (2) неоднородность исследуемой области поведе-
ния. Чем однороднее эта область, тем выше согласованность результа-
Увеличение числа заданий теста не повлияет, однако, на его временную стабиль-
110 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
тов заданий теста. Например, если в одном тесте приведены задания
только на умножение, а в другом представлено сложение, вычитание, ум-
ножение и деление, то в первом тесте согласованность выполнения от-
дельных заданий будет, вероятно, большей, чем во втором. Во втором
более разнородном тесте один испытуемый может лучше справиться
с вычитанием, чем с другими действиями, другой покажет относительно
высокий результат в делении, но хуже проявит себя в сложении, вычита-
нии и умножении и т.д. Более контрастным примером однородности
и разнородности мог бы служить тест, состоящий из 40 заданий на пони-
мание слов, и тест, содержащий 10 словарных заданий, 10 заданий на
пространственные отношения, 10 на арифметическое мышление и 10 на
скорость восприятия. В последнем тесте связь между индивидуальным
выполнением различных типов заданий может быть незначительной или
полностью отсутствовать.
Очевидно, что чем однороднее тест, тем однозначнее его резуль-
таты.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование