А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 

19. Пользуясь те-
ми же исходными данными, можно оценить трудность каждого вопроса,
для чего требуется сложить числа, стоящие в соответствующей строке
таблицы {В+С+Н).
Анализ табл. 19 выявляет 4 задания, подлежащие дальнейшему рас-
смотрению или обсуждению в классе. Два вопроса, а именно 2-й и 7-й,
выделены, поскольку один из них слишком легок (56 из 60 учеников от-
ветили на него правильно), а другой слишком труден (всего 5 пра-
вильных ответов). Вопросы 4 и 5 приемлемы с точки зрения трудности.
но разность В - Н для одного из них равна нулю, а для другого отрица-
тельна. В ту же категорию были бы включены вопросы и с очень малы-
ми положительными значениями разности В - Я-примерно 3 и мень-
ше. Такая граничная цифра действительна для групп того же размера,
что и в нашем примере. Имея дело с большими группами, следует ожи-
дать больших различий вследствие случайного появления недискрими-
нантных заданий.
Анализ заданий теста, подготовленного учителем, направлен на
выявление дефектов либо в тесте, либо в преподавании. Обсуждая вы-
190
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 19
Таблица 20
Простая процедура анализа заданий: число Анализ ответов, предлагаемых на выбор по
лиц, давших правильный ответ, в группах отдельным вопросам
с высокими, средними и низкими значения-
ми критерия
Задание В (вопрос) (20)С (20)(20)Трудность (В+С+Н)Различение (Й-Н)
1159731
220201656
31918946
410111637
511131135
61614939
75005
10
-6
0
ВопросГруппаВыбранные ответы
12з45
2ВО о0200
н2 01161
4в0 10901
н2 16200
5в2 32112
н1 33112
7в5 3543
н0 5834
Задания, выбранные для последующего обсуждения. Данные по правильным ответам набраны курсивом.
причина их некорректности. Если вопрос сформулирован неудачно, его
можно перестроить или вовсе изъять при последующем тестировании.
.Обсуждение, однако, может обнаружить, что вопрос составлен правиль-
но, но у учеников нет надлежащего понимания данной темы. В этом слу-
чае тема может быть разобрана заново и пояснена подробнее. При оты-
скании менее заметного источника затруднений часто полезно провести
дополнительный анализ, типа изображенного на табл. 20, хотя бы части
вопросов, отобранных для обсуждения. В табл. 20 приводится число уче-
ников из групп В и Н, выбравших тот или иной из пяти приведенных
в заданиях ответов.
Хотя вопрос 2 и включен в табл. 20, но из приведенной в ней час-
тоты ошибочных ответов мало что можно узнать, поскольку непра-
вильный выбор сделали лишь 4 человека из группы Н и никто-из
группы В. Обсуждение этого вопроса с учениками, вероятно, выявит,
действительно ли вопрос слишком легок и не представляет особой цен-
ности, или какой-то недостаток формулировки позволяет сразу же нахо-
дить правильный ответ, или же, наконец, это полезный вопрос, но отно-
сился он к хорошо проработанной и усвоенной теме занятий. В первом
случае вопрос, видимо, следует изъять, во втором-пересмотреть, а
в третьем-оставить без изменения.
Данные по вопросу 4 показывают, что выбор третьего ответа связан
с тем, что сам ответ содержит в себе нечто такое, что заставляет 9 учени-
ков из группы В предпочесть его правильной альтернативе. В чем здесь
дело, нетрудно установить, попросив этих учеников обосновать свой вы-
бор. Недостаток задания 5, видимо, объясняется неудачностью формули-
ровки либо самого вопроса, либо правильного ответа, так как непра-
вильные ответы равномерно распределились по четырем ошибочным
альтернативам. Вопрос 7 необычно труден: 15 человек из группы В и вся
группа Н ответили на него неправильно. Несколько больший выбор от-
вета 3 указывает на его поверхностную привлекательность, особенно для
легче вводимых в заблуждения членов группы Н. Аналогично отсутствие
191
АНАЛИЗ ЗАДАНИЙ
ломленному ученику эта альтернатива на первый взгляд кажется оши-
бочной. Оба эти свойства желательны для хорошего тестового задания.
Обсуждение в классе может показать, что вопрос 7 просто относился
к плохо усвоенной теме учебной программы.
Индекс различения. Если число справившихся с заданием членов
группы с высоким {В) значением критерия выразить в процентах и из не-
го вычесть аналогичный процент, найденный для групп с низким (Н) зна-
чением критерия, то полученная разность представляет собой индекс ва-
лидности задания, интерпретируемый независимо от размера выборки,
на которой он был получен. Этот индекс неоднократно обсуждался
в психометрической литературе (R.L.Ebel, 1965; A.P.Johnson, 1951;
C.I. Mosier, J.M. McQuitty, 1940) и обозначался то как VLT, то как VLD,
то просто D. Несмотря на свою простоту, этот индекс, как было показа-
но, хорошо согласуется с другими, более сложными мерами валидности
задания (M.D. Engelhart, 1965). Поясним подсчет D на примере данных,
приведенных в табл. 19. Сначала число лиц, справившихся с каждым за-
данием в группах В и Н, переводится в проценты. Поскольку каждая из
этих групп состоит из 20 человек, нам нужно каждое число разделить на
20 и результат умножить на 100. Легче, однако, 100 разделить на 20, что
дает 5, а затем умножать каждое число на эту константу. Так, для зада-
ния 1 имеем: 15 х 5=75 (группа В), 7 х 5=35 (группа Н), и, следова-
тельно, D =73- 35 = 40. Значения D для оставшихся семи заданий при-
ведены в табл. 21.
D может принимать любое значение между + 100. Если все члены
группы В справились и никто из группы Н не справился с заданием, то
D = 100. И наоборот, если группа Н справилась, а группа В не справи-
лась с заданием, то D == -100. Если процент справившихся с заданием
в обеих группах одинаков, то D == 0. Индекс D обладает рядом инте-
ресных свойств. Было показано (R.L. Ebel, 1965; W.G. Findley, 1956), что
D прямо пропорционален разности между чис-
лом правильных и ошибочных различений,
выявляемых заданием. Правильные различения
определяются числом справившихся с зада- Таблица 21
нием в группе В в сравнении с числом не спра- Вычисление индекса различе-
вившихся в группе Н. Ошибочные различения """ ("Ї данным из табл. 19)
задаются числом не справившихся в группе ---
В в сравнении с числом справившихся в группе "яГ разность
Н. Р.Ибел (R.L.Ebel, 1967) также установил, с заданием (индекс
что между средним значением индекса заданий йопрос --различения)
D и коэффициентом надежности теста имеется грпя грша
тесная связь. Чем больше среднее D, тем выше ---
надежность, i 40
Заслуживает упоминания и другое свой- 2 10080 20
ство D, присущее и некоторым другим индек- 39545 50
сам валидности заданий. Показатель D небез-
различен к трудности и изменяется сильнее 68045 35
при среднем уровне трудности. В табл. 22 при- 7250 25
ведены максимальные значения D для заданий ____________________
Наблюдательный читатель, вероятно, заметил, что те же результаты можно полу-
192
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 22
Соотношеиме максимального
шачения D и трудности дада-
ПроцентМаксимальное
справившихсязначение
с заданиемВ
1000
9020
7060
50100
3060
1020
00
с различным процентом правильных ответов.
Если 100Їо или 0Їо всей выборки выполнили
задание, то результаты групп В и Н не разли-
чаются, так что D == 0. С другой стороны, если
с заданием справилось 50Їо членов выборки, не
исключено, что все они принадлежат к группе
В, и тогда D == 100. Если справилось 10Ї/о, то
максимальное значение D, отвечающее случаю,
когда все члены группы В справились с зада-
нием, а остальные 20"о приходятся на группу
Н, находится следующим образом: (В) 50/50 ==
= 100Їо; (Н) 20/50 = 40%; D = 100- 40 = 60.
Напомним, что для большинства тестов пред-
почтительней задания, уровень трудности ко-
торых близок к 0,50. Поэтому показатели ва-
лидности, принимающие максимальные значения при этом уровне
трудности, часто применяются для отбора заданий.
Коэффициент (р. Большинство индексов валидности заданий выра-
жают связь между ними и критерием в виде коэффициента корреляции.
Одним из них является коэффициент (р, вычисляемый по четырехпольной
таблице, содержащей число справившихся и не справившихся с заданием
в группах с высоким и низким значением критерия. Как и все коэффи-
циенты корреляции, показатель (р принимает значения между + 1,0
и предполагает наличие дихотомии как в результатах выполнения зада-
ния, так и в критериальных переменных. Следовательно, он применим
лишь к тем условиям дихотомии, для которых был найден и не может
быть перенесен на любые другие соотношения между свойствами, ко-
торые измеряет задание, и критерием. Как и индекс D, (р принимает наи-
большие значения для заданий средних уровней трудности, когда дихо-
томия близка к соотношению 50:50.
Существует ряд таблиц для определения коэффициента (р. При рав-
ном численном составе критериальных групп В и Н (р можно найти по
таблицам Иоргенсена (C.E.Jurgensen, 1947), составленным на основе
процентов выполнивших задание в каждой из этих групп. Поскольку при
анализе заданий обычно легко сделать группы В и Н численно равными,
эти таблицы находят широкое применение. Если же критериальные
группы неодинаковы по размеру, (р находят по серии таблиц Эдгертона
(H.A.Edgerton, 1960), хотя их применение требует больших затрат
времени.
Уровень значимости коэффициента (р нетрудно вычислить, исходя из
соотношения между ним, и соотношениями нормальной кривой. С по-
мощью последнего показателя можно найти минимальное (р, значимое
на уровне 0,05 или 0,01, по следующим формулам:
1,96
]//v
2,58
IV
В этих формулах N есть суммарное число испытуемых в обеих группах.
Так, если группы В и Н содержат по 50 человек, то N = 100, и минимум
(р, значимый на уровне 0,05, будет равен 1,96:1/100 = 0,196. Любое зна-
4fHWfffn ГЯ11ИМТТТДГТТТ1ТаП10 ff,r"-~---
193 АНАЛИЗ ЗАДАНИЙ
Бисериальная корреляция. В заключение рассмотрим весьма
распространенную меру валидности задания-коэффициент бисериальной
корреляции (rbis), отличающийся от (р в двух существенных моментах. Во-
первых, rjs предполагает существование непрерывного и нормального
распределения свойства, лежащего в основе ответов на дихотомические
задания. Во-вторых, г как мера отношений между заданием и крите-
рием не зависит от трудности задания. Для вычисления г нужно знать
среднее значение критериального показателя выполнивших и не выпол-
нивших задание, процент справившихся и не справившихся с заданием
по всей выборке и стандартное отклонение показателей критерия.
Подсчет всех необходимых параметров и применение для каждого за-
дания формулы бисериальной корреляции может оказаться весьма дли-
тельным процессом. Но существуют таблицы, с помощью которых мож-
но получить ?ь", зная процент справившихся с заданием в группах,
соответствующих верхним и нижним 1ЧЇ/о распределения значений крите-
рия (С. Т. Fan, 1952; 1954). С помощью этих таблиц по процентам спра-
вившихся с заданием в группах В и Н можно найти три величины: р, т. е.
процент справившихся с заданием по всей выборке; описанный ранее по-
казатель Д, являющийся мерой трудности задания в интервальной шка-
ле, и Гы" между заданием и критерием. Но таблицами можно пользовать-
ся при условии, что В и Н содержат каждая в точности 27Їо всей
выборки.
Способа, который позволял бы точно рассчитать уровни значимости
для так оцениваемой бисериальной корреляции, не существует. Однако
было установлено, что их стандартные ошибки несколько больше, чем для
коэффициентов бисериальной корреляции, подсчитанных обычным пу-
тем. Это значит, что коэффициент г, полученный по таблицам Фана,
сильнее колеблется от выборки к выборке, чем г, вычисленный по фор-
муле. Принимая это во внимание, можно использовать стандартную
ошибку г, чтобы приблизительно оценить, насколько большой должна
быть статистически значимая корреляция. И в этом случае вычисли-
тельная техника позволяет легко определить значение бисериальной кор-
реляции, основываясь на более адекватной процедуре, т. е. по ответам ис-
пытуемых из всей выборки.
ВНУТРЕННЯЯ СОГЛАСОВАННОСТЬ
Анализ заданий нередко проводится относительно суммарного результа-
та теста. Этот метод находит свое применение в тестах достижений
и особенно при составлении учителем контрольных работ, когда трудно
получить внешние критериальные данные. Как отмечалось в главе 6,
этот подход позволяет получить меру внутренней согласованности, а не
внешней валидности. Он годится для уточнения валидации по содержа-
нию и некоторых аспектов конструктной валидации.
Однако если тест должен быть валидным относительно критерия,
использование суммарного результата для анализа заданий нуждается
в тщательном изучении. При определенных условиях эти два подхода
могут привести к противоположным выводам: задания, выбираемые по
Формулу для ет можно найти в любом учебнике статистики (J. P. Guilford,
194 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
признаку внешней валидности, могут оказаться неудовлетворительными
с точки зрения внутренней согласованности. Предположим, что предва-
рительная форма теста способности к обучению состоит из 100 арифме-
тических и 50 словарных заданий. Для отбора заданий из первоначаль-
ной их совокупности методом внутренней согласованности можно
воспользоваться бисериальной корреляцией между выполнением каждо-
го задания и суммарными результатами по всем 150 заданиям. Очевид-
но, что такая бисериальная корреляция будет выше для арифметических,
а не для лексических заданий, потому что суммарный результат основан
на вдвое большем числе арифметических заданий. Если в окончательной
форме теста предполагается сохранить лучшие 75 заданий, то вполне ве-
роятно, что в большинстве своем они будут состоять из арифметических
заданий. Но с точки зрения достижений в учении словарные задания мо-
гут оказаться по сравнению с арифметическими более валидными
предикторами. В этом случае анализ заданий будет служить не повыше-
нию, а понижению валидности теста.
Изъятие заданий, имеющих низкую корреляцию с суммарным ре-
зультатом, является средством повышения однородности, или <очище-
ния>, теста. Благодаря применению этой процедуры сохраняются зада-
ния с наибольшими средними взаимокорреляциями. Данный метод
отбора заданий повышает валидность теста, только когда первоначаль-
ная совокупность заданий измеряет одно и то же свойство и когда это
свойство присутствует и в критерии. Однако некоторые типы тестов из-
меряют комбинацию свойств, отвечающих сложному критерию. В таком
случае очищение теста от инородных элементов может сузить охват та-
кого критерия и тем самым понизить валидность.
Отбор заданий с целью довести до максимума валидность теста
аналогичен отбору тестов, с тем чтобы получить батарею тестов с на-
иболее высокой валидностью. Напомним (гл. 7), что вклад теста в ва-
лидность батареи тем больше, чем выше его корреляция с критерием
и чем ниже корреляция с другими тестами батареи. Если этот принцип
применить к отбору заданий, то наилучшими окажутся задания, имею-
щие наибольшие значения валидности и наименьшие коэффициенты вну-
тренней согласованности. На этой основе можно определить чистую эф-
фективность задания, т.е. чистый прирост валидности теста при
добавлении к нему конкретного задания. Так, если задание тесно корре-
лирует с внешним критерием, но относительно слабо коррелирует с сум-
марным показателем теста, то оно предпочтительнее такого задания, ко-
торое имеет высокую корреляцию и с критерием, и с тестом в целом,
ибо первое задание, по-видимому, измеряет некоторый аспект критерия,
не учитываемый должным образом остальными заданиями.
Может показаться, что к отбору заданий применимы те же методы,
что и при комплектовании батареи тестов. В частности, можно было бы
ориентироваться на корреляцию задания с критерием и с другими зада-
ниями. Лучшим заданиям, отобранным таким путем, можно было бы за-
тем приписать веса и представить в уравнении регрессии. Такая процеду-
ра, однако, неосуществима и теоретически несостоятельна. Дело не
Такая корреляция части и целого будет несколько завышенной в силу присутствия
общей специфической дисперсии и дисперсии ошибки в задании и в тесте, частью которо-
го оно является. Существуют формулы, вносящие необходимую поправку в коэффициент
195 АНАЛИЗ ЗАДАНИЙ
только в усилиях, которые потребовались бы для проведения необхо-
димых вычислений. Более существенно то обстоятельство, что корреля-
ция между заданиями подвержена зависящим от выборки колебаниям
и найденные параметры регрессии слишком неустойчивы, чтобы на них
можно было основывать отбор заданий, не прибегая к чрезвычайно
большим выборкам. По этой причине для отбора заданий по их чистому
вкладу в валидность теста было разработано несколько методов апрок-
симации. Некоторые из этих методов основаны на эмпирическом процес-
се построения теста, при котором набор заданий растет постепенно,
а при добавлении задания валидность всего набора каждый раз под-
считывается заново.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58