А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 

Предположим, что в последнем из только что упомянутых тестов
Смит и Джонс получили по 20 очков. Можем ли мы заключить, что
с этим тестом они справились одинаково? Совсем нет. Смит мог пра-
вильно ответить на 10 словарных вопросов, получить по очку за каждое
из заданий на скорость восприятия и не выполнить ни одного задания на
арифметическое рассуждение и пространственные отношения. Напротив,
20 очков Джонса могли распределиться таким образом: 5 за скорость
восприятия, 5 за пространственные отношения, 10 за арифметическое
рассуждение и 0 за словарь.
Суммарный показатель в 20 очков мог бы, конечно, означать и мно-
жество других сочетаний в выполнении заданий. Вместе с тем в более
однородном словарном тесте показатель 20 будет, вероятно, означать,
что испытуемый правильно указал значение примерно 20 первых слов,
если слова расположены в порядке возрастания трудности. Он мог оши-
биться в отношении двух-трех сравнительно легких слов, дать пра-
вильный ответ по более трудным словам, расположенным под номера-
ми, большими 20, но такие индивидуальные колебания ничтожны по
сравнению с теми, которые присущи разнородному тесту.
Весьма существенным в этой связи является вопрос: насколько
однороден сам критерий, на предсказание которого направлен тест? Хо-
тя однородные тесты могут предпочитаться, поскольку их показатели
допускают довольно однозначную интерпретацию, но однородный тест
сам по себе, очевидно, непригоден для предсказания весьма неоднород-
ного критерия. Более того, при предсказании неоднородного критерия
разнородность заданий теста не обязательно означала бы дисперсию
ошибки. Хорошим примером разнородных тестов, предназначенных для
предсказания неоднородного критерия, являются традиционные тесты
интеллекта. В подобных случаях весьма желательно составить несколько
относительно однородных тестов, каждый из которых измерял бы раз-
личные фазы неоднородного критерия. Тем самым однозначная интер-
претация результатов теста могла бы сочетаться с адекватным охватом
критерия.
Самая распространенная процедура определения согласованности
выполнения заданий теста была разработана Г. Ф. Кьюдером и М. В. Ри-
чардсоном (G.F. Kuder, M.W. Richardson, 1937). Как и в методе расще-
Ill НАДЕЖНОСТЬ
двух половин теста для анализа используются данные о выполнении ис-
пытуемыми каждого задания. Из различных формул, приведенных в ука-
занной статье, широко применяется так называемая формула 20:
п(о} - ?то)
"=-т).г
В этой формуле Гц - коэффициент надежности всего теста, п -число
заданий, <-стандартное отклонение суммарных показателей теста.
Единственным новым элементом в этой формуле является сумма Е д, где
р и q -доля испытуемых, соответственно справившихся и не справивших-
ся с каждым заданием. Чтобы вычислить ? , нужно для каждого зада-
ния определить произведение р х q, а затем сложить эти произведения
по всем заданиям. Поскольку в процессе составления теста величина
р часто фиксируется для определения уровня трудности каждого задания,
этот метод определения надежности требует лишь незначительных доба-
вочных вычислений.
Можно математически доказать, что коэффициент надежности по
Кьюдеру-Ричардсону представляет собой при всех возможных разбие-
ниях теста надвое среднее значение коэффициентов, найденных методом
расщепления (L.J. Cronbach, 1951). Обычный же коэффициент надежно-
сти для расщепленного теста основан на разбиении, построенном в рас-
чете на получение эквивалентных половин. Поэтому в случае не вполне
однородного теста коэффициент Кьюдера-Ричардсона меньше получен-
ного методом расщепления. Следующий контрастный пример поясняет,
в чем причина такого расхождения. Пусть мы имеем тест из 50 заданий
25 различных видов (например, задания 1 и 2-на понимание слов, 3
и 4-на арифметическое рассуждение, 5 и 6-пространственную ориента-
цию и т.д.). Четные и нечетные задания этого теста теоретически могут
весьма тесно коррелировать друг с другом, что при использовании об-
щепринятой процедуры расщепления даст высокий коэффициент надеж-
ности. Но однородность этого теста, как и воспроизводимость успехов
и неудач по всем 50 заданиям, будет очень низкой. Поэтому в данном
примере следует ожидать, что коэффициент Кьюдера-Ричардсона ока-
жется намного ниже, чем в случае метода расщепления. Заметим, что
разность между этими двумя коэффициентами может служить для при-
близительной оценки однородности теста.
Формула Кьюдера-Ричардсона годится только для случаев, когда
выполнение заданий оценивается как правильное или ошибочное, т. е. по
принципу <все или ничего>. В некоторых тестах, однако, практикуется
более дифференцированная форма представления результатов отдельных
заданий. Например, в личностном опроснике респондент может получать
по отдельным заданиям различные числовые показатели в зависимости
от того, выбрал ли он в наборе ответов <обычно>, <иногда>, <редко>,
<никогда>. Для таких тестов выведена обобщенная формула, известная
как коэффициент альфа (L.J. Cronbach, 1951; M.R. Novick, C.Lewis, 1967).
В этой формуле вместо ? стоит So?-сумма дисперсий результатов от-
дельных заданий. Процедура состоит в нахождении дисперсии индиви-
Простой вывод этой формулы приведен в работе Р.Л.Ибела (R.L.Ebel, 1965,
р. 320-327).
И Строго говоря, это утверждение справедливо, лишь когда применяется формула
Рппня я нс. коппепяттия половин или (Ьопмула Спирмана-Брауна (M.R. Novick,
112 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
дуальных результатов по каждому заданию с последующим суммирова-
нием этих дисперсий по всем заданиям (R.L.Ebel, 1965, р. 326-330).
Формула коэффициента альфа выглядит следующим образом:
_ п( - ?о?)
" ("-1) , 1
Надежность субъективных оценок. Как мы видим, различные
типы надежности отличаются друг от друга тем, какие факторы взяты
в качестве источников дисперсии ошибки. В одном случае такая диспер-
сия означает временные колебания, в другом-различия в сериях парал-
лельных заданий, в третьем-несогласованность тестовых заданий. 1
В свою очередь, факторы, не учтенные при измерении дисперсии ошиб-
ки, в основном делятся на два типа: (а) факторы, чья дисперсия сохра-
няется в показателях, поскольку они входят в изучаемые различия, и (б)
посторонние факторы, поддающиеся экспериментальному контролю. На-
пример, в руководстве к тесту не принято сообщать об ошибках измере-
ния, которые могут появиться в результате проведения теста в отвле-
кающей обстановке или в более короткое или длительное, чем это
положено, время. Подобных отклонений можно избежать, и поэтому нет
нужды в отдельных коэффициентах надежности, соответствующих дис-
персии отвлечения или дисперсии временных лимитов.
Большинство тестов, особенно если они предназначены для массово-
го обследования с использованием компьютеров для вычисления показа-
телей, настолько стандартизированы, что их проведение и регистрация
результатов сводят на нет дисперсию ошибки, обусловленную этими
факторами. Пользуясь такими тестами, необходимо лишь внимательно
следить за выполнением соответствующих предписаний. Вместе с тем
имеются данные, свидетельствующие о том, что в клинических тестах,
применяемых при интенсивных индивидуальных обследованиях, важным
источником ошибки являются различия в способе проведения теста.
С помощью специальных экспериментов удается отделить соответствую-
щую дисперсию от той, которая обусловлена колебаниями в состоянии
испытуемого или использованием различных форм теста.
Сравнительно просто установить, насколько значителен другой ис-
точник ошибки, обусловленный дисперсией подсчета. Некоторые типы
тестов, особенно тесты творческих способностей и проективные лич-
ностные тесты, сильно зависят от оценки подсчитывающего показате-
ли теста. В таких тестах надежность подсчета столь же важно знать, как
и уже знакомые нам коэффициенты надежности. Такую надежность
субъективной оценки можно определить, сравнив два тестовых бланка
с оценками, заполненные двумя экспертами независимо друг от друга.
Коэффициент корреляции полученных таким образом результатов вы-
числяется обычным путем и служит искомой мерой надежности подсче-
та. Если результаты теста определяются на основе суждений эксперимен-
татора, то в руководстве к тесту необходимо также привести
и коэффициент надежности подсчета.
Итоги. Различные типы только что рассмотренных коэффициентов
надежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределены
по числу форм теста и сеансов тестирования, необходимых для их опре-
деления. В табл. 9 представлены источники дисперсии ошибки, учиты-
ваемые каждой из процедур определения коэффициента надежности.
-------- - -.>...,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-
113
НАДЕЖНОСТЬ
Таблица 8
Методы измерения надежности теста
в мвисимости от форм теста и сеансов
тестирования
Таблица 9
Источники дисперсии ошибки для раз-
личных коэффициентов надежности
Необходимое число сеансов тес-Необходимое число форм теста
тированияоднадве
расщеплен-
наявзаимозаменяе-
Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)
ных оце-
нок
Тип коэффициента
надежности
Дисперсия ошибки
ретестовый
временные колебания
состояния испытуемого
ретестовая
взаимозаменяе-
мые (проводимые
через определен-
ный промежуток
времени)
взаимозаме-
няемых формнеоднородность
(непосредст-содержания
венный)
взаимозаме-колебания в состоянии
няемых формиспытуемого и неодно-
(с временнымзначность содержания
интервалом)
расщеплениянеоднозначность
содержания
неоднородность и
Кьюдера-Ри-неоднозначность
чардсона,содержания
альфаиндивидуальные
субъективныхразличия у ставящих
оценокоценки
ственно в процентах дисперсии показателей, определяемой разными
источниками. Так, коэффициент надежности 0,85 показывает, что 85Їо
дисперсии результатов теста зависят от истинной дисперсии по измеряе-
мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-
му определению применяемой процедуры). Читателю, знакомому со ста-
тистикой, напомним, что долю общей дисперсии представляет квадрат
коэффициента корреляции. Действительно, доля <истинной> дисперсии
в результатах теста есть квадрат корреляции между результатами оди-
ночной формы теста и истинными результатами, свободными от слу-
чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-
на квадратному корню коэффициента надежности (1/гЦ). Квадрат индекса
надежности и дает коэффициент надежности (гц), который, следователь-
но, может интерпретироваться как процент <истинной> дисперсии.
Эксперименты, позволяющие получать разные типы коэффициентов
надежности для одной и той же группы, допускают разложение суммар-
ной дисперсии показателей на отдельные составляющие. Рассмотрим
следующий гипотетический пример. Предположим, 100 шестиклассников
с интервалом в два месяца прошли формы А и В теста творческих спо-
собностей, причем надежность взаимозаменяемых форм составила 0,7,
надежность, найденная методом расщепления и вычисленная по формуле
Спирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-
лученная благодаря привлечению еще одного эксперта, проставившего
новые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92.
" Выводы индекса надежности, основанные на двух различных сериях допущений,
приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3).
В целях более точной оценки коэффициента внутренней согласованности корреля-
ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-
п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значение
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 10
Анализ источников дисперсии ошибки в гипотетическом тесте
Надежность взаимозаменяемых
форм теста с временным интервалом
1-0 7= 0,3
Изменения состояния
испытуемого + неоднознач-
ность содержания
Надежность расщепленного теста по 1-0,8 = 0,2 Неоднозначность
формуле Спирмана-Брауна содержания
Разность = 0,1 Изменения состояния
испытуемого
Надежность субъективных оценок
1 - 0,92 = 0,08 Индивидуальные
различия у
ставящих оценки
Суммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38
<истинная> дисперсия = I - 0,38 = 0,62
Анализ этих трех коэффициентов надежности приводится в табл. 10 и на
рис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-
держания, из дисперсии ошибки, определяемой временный выборкой
и выборкой содержания, получаем, что дисперсия временных колебаний
равна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-
жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-
лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что
<истинная> дисперсия равна 0,62. Эти величины, выраженные в более
привычной процентной форме, графически изображены на рис. Ц.
НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬ
При составлении теста и интерпретации его результатов важно разли-
чать измерение скорости выполнения и возможности выполнения. В <чи-
стом> тесте на скорость индивидуальные различия определяются толь-
ко скоростью выполнения заданий. Трудность заданий такого теста
принудительно одинакова, невысока и вполне посильна испытуемым, на
которых рассчитан тест. Но лимит времени устанавливается так, что
никто не успевает выполнить всех заданий. В таких условиях результат
испытуемого отражает только скорость его работы. Вместе с тем в <чи-
стом> тесте возможностей испытуемому предоставляется достаточно
времени для выполнения всех заданий. Но их трудность постепенно воз-
растает от задания к заданию, так что никто не может справиться со все-
ми заданиями, а значит, не может получить высший результат.
Вообще как скоростные тесты, так и тесты возможностей строятся
с таким расчетом, чтобы нельзя было получить высшего результата.
Излагая на элементарном уровне общую идею одного из способов интерпретации
численных значений коэффициентов надежности, автор заведомо идет на ряд серьезных
чпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-
НАДЕЖНОСТЬ
"Истинная" дисперсия = 62%
_
Дисперсия ошибки = 38%
Стабильность во времени; согласованность форм;
независимость от особенностей лиц.оценивающих
выполнение теста
Различия у лиц, оценивающих выполнение теста
Рис. 11. Процентное распределение дисперсии результатов гипотетического теста
Объясняется это неопределенностью такого результата: остается не-
известным, насколько индивидуальный результат оказался бы выше, ес-
ли бы в тесте было использовано больше заданий или соответственно
более трудные задания. Чтобы каждый испытуемый мог полностью про-
демонстрировать, на что он способен, <потолок> теста должен быть за-
ведомо выше его возможностей либо по числу заданий, либо по степени
трудности. Исключение составляют тесты владения навыком, например
критериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-
кого тестирования не в том, чтобы установить границы возможностей
индивида, а в определении того, достиг ли он заранее установленного
уровня выполнения.
Практически большинство тестов являются одновременно и ско-
ростными, и тестами возможностей, однако пропорция, в которой пред-
ставлены оба эти компонента, может быть различной. Знание этой про-
порции необходимо не только для того, чтобы понять, что измеряет
тест, но и для выбора надлежащей процедуры оценки его надежности.
Коэффициенты надежности, получаемые при однократном предъявлении
теста, когда определяется корреляция данных по заданиям с четными
и нечетными номерами или используется формула Кьюдера-Ричардсо-
на, неприменимы к тестам на .скорость. Чем больше индивидуальные
различия в тестовых результатах зависят от скорости выполнения, тем
более завышенными оказываются коэффициенты надежности, опреде-
ленные этими методами. Это видно из следующего контрастного приме-
ра. Пусть некий тест, состоящий из 50 заданий, является чисто ско-
ростным тестом, т.е. индивидуальные различия в результатах опреде-
ляются лишь числом выполненных заданий, а не числом ошибок. Тогда
испытуемый А, набравший 44 очка, очевидно, получит по 22 очка за
четные и за нечетные задания. Точно так же испытуемый В, показавший
результат 34, справится с 17 четными и 17 нечетными заданиями. Следо-
вательно, если не считать нескольких случайных ошибок, допущенных по
небрежности, корреляция между четными и нечетными заданиями будет
полной, т.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58