А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 

е. равна 1. Но такая корреляция, однако, явно завышена и не
дает никакой информации о надежности теста.
Проверка процедур, используемых при определении надежности ме-
тодом расщепления и по формуле Кьюдера-Ричардсона, показала, что
обе они основаны на согласованности числа ошибок. Если же различия
индивидуальных тестовых результатов определяются не ошибками,
а скоростью, то и мера их надежности должна, очевидно, основываться
на согласованности заданий на скорость. Когда же выполнение теста за-
nwru-г пгтнпнпомйннп пт скоппсти и возможностей выполнения, то коэ(Ь-
116 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
вления теста, окажутся ниже 1,00, но все еще будут завышенными. Такие
коэффициенты надежности не поддаются адекватной интерпретации, по-
скольку на индивидуальные различия в тестовых результатах заметное
влияние оказывает скорость выполнения заданий.
Какие же процедуры определения надежности пригодны для тестов
с выраженным скоростным компонентом? Такими процедурами могли
бы быть метод ретеста (если его удается применить) и метод взаимоза-
меняемых форм. Можно воспользоваться и методом расщепления при
условии, что задания теста расчленяются по временным характеристи-
кам, а не по порядковым номерам. Иными словами, сравниваемые ре-
зультаты должны быть получены временным разделением частей теста.
Одним из способов такого разделения является применение двух эквива-
лентных частей теста с разделенным временным ограничением. Напри-
мер, четные и нечетные задания распечатываются на разных листах, и по
каждому набору заданий устанавливается временной лимит, равный по-
ловине лимита для всего теста. Такая процедура равносильна проведе-
нию следующих друг за другом двух эквивалентных форм теста. Каждая
форма, однако, вдвое короче целого теста, тогда как результаты испы-
туемого определяются по всему тесту. Поэтому необходимо воспользо-
ваться формулой Спирмана-Брауна или какой-либо другой формулой
этого типа для определения надежности всего теста.
Если раздельное применение двух половин теста недопустимо, то
вместо него можно воспользоваться разделением полного времени теста
на четыре части с регистрацией результатов отдельно для каждой че-
тверти. Это легко осуществить, прося испытуемого по сигналу экспери-
ментатора отметить крестиком выполняемое в этот момент задание.
Число заданий, выполненных за первую и четвертую части полного вре-
менного лимита, составит результат по одной из сравниваемых половин
теста. Показатель другой половины теста будет равен числу заданий,
с которыми испытуемый справился за вторую и третью четверти. Такая
комбинация четвертей способствует нейтрализации кумулятивных эффек-
тов тренировки, утомления и других факторов. Этот метод лучше всего
подходит для тестов, задания которых не особенно отличаются друг от
друга по степени трудности.
В каких случаях временной компонент следует считать суще-
ственным? При каких условиях нужно соблюдать рассмотренные выше
меры предосторожности? Очевидно, само по себе использование лими-
тов времени еще не означает, что мы имеем дело с тестом на скорость.
Если все испытуемые укладываются в отведенное время, то скорость ра-
боты не сказывается на показателях. В качестве приблизительной меры
существенности скоростного компонента, казалось бы, можно взять про-
цент испытуемых, не успевающих закончить тест. Однако даже если ник-
то не укладывается в отведенные временные рамки, скорость выполне-
ния может оказаться тут ни при чем. Например, если все испытуемые
выполнят 40 заданий из 50, то индивидуальные различия в скорости от-
сутствуют, хотя никто не успевает выполнить весь тест.
Существенным здесь оказывается следующий вопрос: <В какой сте-
пени индивидуальные различия в тестовых результатах определяются
скоростью?> Или более специальным языком: <Какую долю в суммар-
ной дисперсии тестовых показателей составляет дисперсия скорости?>
Эту долю можно приблизительно оценить, определяя диспеосию числа
117
НАДЕЖНОСТЬ
Таблица II
Коэффициенты надежности четырех тестов элемен-
тарных умственных способностей для детей 11-17
лет (1-е издание) (A. Anastasi, J. Drake, 1954)
дисперсию тестовых результатов (ст/ст). Для только что приводившего-
ся примера, когда все испытуемые выполнили 40 заданий, числитель
этой дроби равен нулю, поскольку отсутствуют индивидуальные разли-
чия в числе выполненных заданий (с = 0). Таким образом, в тесте воз-
можностей данный индекс будет равен нулю. Напротив, если суммарная
дисперсия теста (of) определяется индивидуальными различиями в ско-
рости, то обе дисперсии будут равны и их отношение обратится в 1. Для
определения этого отношения разработано несколько более совер-
шенных процедур, но их детальное обсуждение выходит за рамки на-
стоящей книги (L.J.Cronbah, W.G.Warrington, 1951; H.Gulliksen,
1950a,b; L. Guttaman, 1955; G.C. Helmstadter, D.H. Ortmeyer, 1953).
Примером влияния скоростного компонента на коэффициент надеж-
ности, определенный при одноразовом предъявлении теста, могут слу-
жить данные исследования первого издания теста элементарных ум-
ственных способностей (A. Anastasi, J. Drake, 1954). В этой работе
надежность каждого теста сначала определялась по методу расщепления
теста на четные и нечетные задания. Полученные значения (см. первую
строку табл. II) оказались весьма близкими к приведенным в руковод-
стве к тексту. Затем коэффи-
циенты надежности были вы-
числены корреляцией показа-
телей, полученных разделе-
нием теста на два субтеста,
для которых были установле-
ны отдельные лимиты време-
ни. Эти коэффициенты соста-
вили вторую строку табл. II.
Вычисление <скоростных ин-
дексов> показало, что в тесте
на понимании слов преобла-
дает компонент возможнос-
тей, тогда как тест на рас-
суждение в большей мере
подвержен влиянию скорос-
ти. Из табл. II видно, что
при учете скоростного ком-
понента надежность теста на
пространственное восприя-
тие составила 0,75, т. е. оказалась значительно ниже значения 0,90, полу-
ченного методом обычного расщепления. Надежность теста на рассужде-
ние упала с 0,96 до 0,87, а числового теста-с 0,92 до 0,83. В то же время
надежность теста на понимание слов, содержавшего лишь минимальный
скоростной компонент, почти не отличалась для обоих методов расчета.
К соображениям самой А. Анастази следует добавить, что в этих случаях решение
о введении <скоростного фактора> принимается чисто эмпирически. Так, в детских тестах
Векслера (WISC, WISC-R) время выполнения вербальных субтестов не ограничивается,
в то время как для субтестов действия указаны временные лимиты. Нельзя не отметить,
что в интеллектуальной деятельности скорость решения задач не говорит еще о пре-
дельных (максимальных) возможностях, о глубине интеллекта. Учет скорости может приве-
сти к тому, что ребенок, который способен справиться со всеми заданиями субтеста, не су-
меет сделать и половину из них в отведенное время и получит более низкий балл, чем его
сверстник, который за это время выполнит на одно задание больше, но это задание
является для него вообще пределом сложности, далее которого он двигаться не может.
(Прим. ред.)
Определение коэффициента надежностиё 1s: я ?18м
Is>.u z ft с,ай
Я
с: аа.С о Вч. U
Методом разделения за-
даний теста по четным
и нечетным номерам 0,94 0,96 0,9 0,92
Методом разделения за-
даний теста по вре-
менным лимитам 0,9
0,87 0,75 0,83
118 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ЗАВИСИМОСТЬ КОЭФФИЦИЕНТА НАДЕЖНОСТИ
ОТ ТЕСТИРУЕМОЙ ВЫБОРКИ
Гетерогенность. На величину коэффициента надежности серьезное
влияние оказывает состав группы, используемой для определения этого
коэффициента. В первую очередь на любой коэффициент корреляции
влияет диапазон индивидуальных различий в группе. Если, допустим,
грамотность всех членов группы находится примерно на одном уровне,
то для этой группы корреляция грамотности с любыми другими способ-
ностями будет нулевой. Иначе говоря, по показателю грамотности нель-
зя предсказать положение индивида в группе по какому-либо иному
показателю.
Другим, менее контрастным примером может служить корреляция
между двумя тестами способностей-словарного запаса и арифметиче-
ского мышления. Если эти тесты предъявляются в достаточно однород-
ной группе, скажем 300 студентам второго курса, то корреляция между
соответствующими показателями, видимо, окажется близкой к нулю.
Внутри отобранной группы студентов колледжа вряд ли удастся обнару-
жить какую-либо связь между вербальными способностями и способ-
ностью действовать с числами. Но проводя те же тесты на гетерогенной
выборке из 300 испытуемых-от тяжелых олигофренов до выпускников
колледжей, мы, несомненно, получим высокую корреляцию между рас-
сматриваемыми показателями. Умственно отсталые по обоим тестам
получат более низкие показатели, чем лица с высшим образованием.
Связь между обоими показателями будет отмечена и для других под-
групп внутри столь гетерогенной выборки.
На рис. 12 приведена гипотетическая диаграмма рассеяния, являю-
щаяся иллюстрацией зависимости коэффициентов корреляции от диапа-
зона индивидуальных различий внутри группы. Диаграмма отражает вы-
сокую положительную корреляцию по всей гетерогенной группе:
показатели тесно сгруппированы вдоль диагонали, идущей от левого
нижнего к правому верхнему углу. Если теперь рассмотреть только под-
группу, попадающую в небольшой прямоугольник в правой части диа-
граммы, то становится очевидным, что корреляция между двумя пере-
менными в этой подгруппе близка к нулю. Индивиды, попадающие
в выделенную ограниченную область значений обеих переменных, пред-
ставляют собой весьма гомогенную группу, наподобие упомянутой выше
группы второкурсников. Как и все коэффициенты корреляции, коэффи-
циенты надежности зависят от однородности выборки, на которой они
определяются. Следовательно, если коэффициент надежности, приво-
димый в руководстве к тесту, был определен на группе учеников IV-XII
классов, то нельзя считать, что коэффициент надежности будет столь же
высоким, скажем, в выборке восьмиклассников. При использовании теста
для выявления индивидуальных различий в пределах более однородной
выборки, чем нормативная группа, коэффициент надежности для этой
выборки должен быть определен заново. В элементарных учебниках по
статистике приводятся формулы расчета изменения коэффициента на-
дежности при увеличении или уменьшении стандартной групповой дис-
персии. Однако предпочтительней пользоваться коэффициентами надеж-
ности, вычисленными эмпирически на группе, сравнимой с той,
к которой применяется тест. Для тестов с широким возрастным диапазо-
ном и измеряющим различные способности в руководстве должны при-
119
НАДЕЖНОСТЬ
водиться отдельные коэффициенты надежности для относительно одно-
родных подгрупп внутри выборки стандартизации.
Уровень способностей. Коэффициент надежности зависит не
только от степени индивидуальных различий в выборке, но и от среднего
уровня способностей данной группы. Влияние последнего фактора обыч-
но нельзя предсказать или оценить, пользуясь статистическими метода-
ми. Это влияние может быть определено лишь эмпирическим путем,
проведением теста на группах, отличающихся друг от друга по возрасту
или уровню способностей. Разницу в надежности единичного теста мож-
но объяснить тем, что слегка различающиеся сочетания способностей из-
меряются степенью трудности теста, или же тем, что она есть результат
статистических свойств самой шкалы, как это имеет место в случае те-
стов Станфорд-Бине (S.R.Pinneau, 1961, гл. 5). Для различных возра-
стов и уровней IQ, коэффициент надежности тестов Станфорд-Бине ме-
няется от 0,83 до 0,98. Надежность других тестов может быть
относительно низкой для младших и менее способных групп, поскольку
Рис. 12. Влияние ограничения диапазона на коэффициент корреляции
см 1 а> 1 а) //
/////
/////
/////////
///////////
///////////////
//////////////
///////////////
////////////////
////////////////
//////////////////
//////////////
/////////////////
///////////////
////////////
////////////////
////////////
///////
/////////
///////
//////
///////////
//////////
/////
//////
/////
////
///
/
120 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
на их показателях сильно сказывается склонность испытуемых к угады-
ванию, в таком случае данный тест вообще не следует применять.
Очевидно, что каждый коэффициент надежности должен дополнять-
ся полным описанием типа группы, на которой он определялся. Особое
внимание следует уделять индивидуальным различиям и уровню способ-
ностей членов выборки. Приводимый коэффициент надежности приме-
ним только к группам, подобным тем, на которых он был определен.
В настоящее время при разработке тестов все чаще применяется разбие-
ние стандартизованной выборки на более однородные подгруппы по
признаку возраста, пола, года обучения, рода занятий и т. п., причем для
каждой такой подгруппы приводятся свои коэффициенты надежности.
В этом случае коэффициент надежности более соответствует тем выбор-
кам, на которых тест применяется на практике.
СТАНДАРТНАЯ ОШИБКА ИЗМЕРЕНИЯ
Интерпретация индивидуальных результатов. Надежность теста
можно выразить в виде стандартной ошибки измерения (ст"), называемой
также стандартной ошибкой показателя. Эта мера особенно удобна для
интерпретации индивидуальных результатов. Следовательно, для целей
тестирования эта мера более полезна, чем коэффициент надежности. Зная
коэффициент надежности теста, стандартную ошибку измерения легко
вычислить по следующей формуле:
0т= i 1/1 -"ii,
где (71- стандартное отклонение результатов теста, а гц-коэффициент
надежности, и оба вычислены для одной и той же группы. Например, ес-
IQ данного теста интеллекта имеет стандартное отклонение 15
;рэффициент надежности 0,89, то (7 для IQ в этом тесте равно
/1 - 0,89 = 151/0,11 х 15 x 0,33 X 5,0.
Чтобы уяснить себе смысл показателя ст, предположим, что в упомя-
нутом тесте интеллекта для мальчика Джима получено 100 значений IQ.
В силу действия различных источников случайных ошибок, уже рассмо-
тренных в данной главе, эти результаты будут весьма различными, обра-
зуя нормальное распределение вокруг истинного показателя Джима.
Среднее значение этого распределения-100 результатов можно принять
за истинный результат, а стандартное отклонение распределения-за ст.
Как и любое стандартное отклонение, стандартную ошибку можно ин-
терпретировать на нормальной кривой распределения частот (см. ри?. 3,
гл. 4). Напомним, что при нормальном распределении на интервал + 1ст
приходится приблизительно 68Їо wex случаев. Следовательно, имеется
примерно два шанса против одного (точнее 68:32), что IQ Джима по
этому тесту будут колебаться между +1 с, или выше, или ниже его ис-
тинного IQ на 5 единиц. Например, при истинном IQ, равным 110, мож-
но ожидать, что 2/3 его результатов распределятся между 105 и 115.
Если хотят сделать более точное предсказание, то выбирают более
высокое соотношение, чем 2:1. Из рис. 3 (гл. 4) видно, что интервал
+ Зст охватывает 99,7Їо случаев. Для нормальной кривой интервалу
+ 2,58(7 соответствует 99Ї() слушев. Иными словами, имеется 99 шансов
против 1 за то, что IQ Джима расположится в пределах 2,58(7, или на
121 НАДЕЖНОСТЬ
2,58 x 5 = 13 единиц по обе стороны от истинного IQ. Таким образом,
можно утверждать с 99Їо-ной уверенностью (один шанс ошибиться про-
тив ста), что IQ Джима при однократном применении теста окажется
в пределах от 97 до 123. Иначе говоря, если бы Джиму предъявили 100
тестов, эквивалентных данному, то его IQ могло бы выйти за пределы
лишь один раз.
На практике, конечно, имеются не истинные результаты, а. резуль-
таты, полученные при единичном предъявлении теста. В этих обстоятель-
ствах мы могли бы воспроизвести приведенные рассуждения в обратном
порядке. Если полученный индивидом результат отклонится от истинно-
го показателя более чем на 2,58ст",, то его истинный показатель должен
находиться в пределах 2,58ст", от полученного результата. Хотя нельзя
установить вероятность справедливости этого утверждения для любого
полученного результата, можно сказать, что оно будет верным в 99Їо
случаев. Следуя этой логике, X. Галликсен (Н. Gulliksen, 1950b, р. 17-20)
предложил использовать стандартную ошибку измерения для того,
чтобы по результату теста определять <разумные пределы> истинного
показателя. Подобные <разумные пределы> принято называть в психоло-
гическом тестировании и в данной книге тоже интерпретацией ошибки
измерения.
Очевидно, что стандартная ошибка измерения и коэффициент надеж-
ности-это взаимозаменяемые способы выражения надежности теста.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58