Анастази А.

Таким образом, один и тот же тестовый результат для этих групп
имеет разное прогнозирующее значение. В этих обстоятельствах средний
показатель большинства, как и в случае 1, превышает средний показа-
тель меньшинства как по тесту, так и по критерию. Но ввиду различия
интерцептов применение линии регрессии большинства привело бы к за
амшснию кпитепиальных показателей членов группы меньшинства. Если
178 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
его применение поставит группу меньшинства в более благоприятные ус-
ловия. Систематическая ошибка интерцептаозначает, что группа с более
высоким интерцептом находится в менее выгодных условиях.
Психологи, которые озабочены возможной неблагоприятностью те-
стов для меньшинств, имеют в виду случай 4 из рис. 21. Заметим, что
здесь большинство показывает более высокие результаты в тесте, но
и большинство, и меньшинства равны по критерию. Теперь уже у мень-
шйнств более высокий интерцепт. Отбор всех претендентов с помощью
проходного минимума, установленного для большинства, будет озна-
чать, что меньшинство попадает в неблагоприятные условия. В этих ус-
ловиях использование линии регрессии большинства для обеих групп
приводит к недооценке критериальных показателей членов группы мень-
шинства. Такая ситуация, по-видимому, может возникнуть, когда значи-
тельная часть дисперсии теста безотносительна к прогнозируемому кри-
терию и определяется функциями, в которых большинство превосходит
меньшинство. Полный анализ выполняемой работы и удовлетворитель-
ная валидность теста являются гарантией против такого рода явлений.
Математические расчеты показывают (R.R. Reilly, 1973), что случай
3 имеет место, если обе группы отличаются по третьей переменной (на-
пример, по социокультурным традициям), которая положительно корре-
лирует как с тестом, так и с критерием. В этих условиях тест дает завы-
шенный прогноз для группы меньшинства и использование одного
и того же нормативного результата для обеих групп ставит меньшин-
ство в привилегированное положение. Этот теоретический результат
подтвердился эмпирически. Пользуясь преимущественно статистической
процедурой, разработанной X. Гулликсеном и С. С. Уилксом
(Н. Gulliksen, S.S. Wilks, 1950), ряд исследователей выявили наличие си-
стематической ошибки интерцепта при предсказании успеваемости в кол-
ледже (Т. A. Cleary, 1968; G. Temp, 1971), на юридическом факультете
(R.L. Linn, 1975), успешности выполнения программы подготовки армей-
ских и военно-воздушных сил (М.А. Gordon, 1953; М.Н. Maier,
C.W. Shore, R. Marion, 1972) и многочисленных производственных обя-
занностей (J.T.Campbell et aJ" 1973; D.L. Grant, D.W. Bray, 1970;
W. W. Ruch, 1972).
Интересно отметить, что те же результаты были получены при срав-
нении групп, распределенных по образовательному или социоэкономиче-
скому уровню. Армейская классификационная батарея завышала прогно-
зируемое выполнение программы обучения военной специальности для
тех, кто был отсеян из старших классов школы, и занижала его для вы-
пускников колледжей (М.Н. Maier, 1972). Заниженный прогноз по резуль-
татам тестов способности к обучению имел место для студентов, у ко-
торых профессиональное положение отцов было достаточно высоко,
и завышенный прогноз-для студентов, чьи отцы занимали более низкое
профессиональное положение (V. Н. Hewer, 1965). Во всех этих работах
сравнение групп с высокими и низкими результатами теста либо вообще
не обнаруживало разницы в интерцептах, либо выявляло в них неболь-
шую систематическую ошибку, ставившую группу с более низкими пока-
зателями в несколько лучшие условия.
Проблема систематической ошибки теста сложнее, чем она может
показаться при столь упрощенном изложении. Это область, в которую,
не имея серьезных статистических знаний, следует вторгаться с осторож-
ностью. Некоторые специалисты предложили птг"" -
179 АНАЛИЗ ЗАДАНИЙ
ния систематической ошибки теста, основанные не на прогнозируемых
критериальных показателях, а на проценте лиц в группах меньшинств
и большинства, превосходящих нормативные показатели теста и крите-
рия (N.S. Cole, 1972; R.L. Linn, 1973; F.L.Schmidt, J.E. Hunter, 1974;
R.L. Thorndike, 1971). Но другие исследователи, проводя сравнительную
оценку нескольких моделей систематической ошибки теста и поставив
под сомнение концептуальную и методическую обоснованность этих
процедур, сформулировали общую математическую модель отбора пер-
сонала, инвариантного относительно культуры (A. L. Gross, W.H.Su,
1975; N.S.Petersen, 1974; N.S.Petersen, M.R.Novick, 1976). На основе
теории решений в модели объединяются данные вероятности различных
исходов и субъективные оценки относительной полезности каждого из
них (принятие ненужного работника, непринятие нужного работника
и т.д.). Кроме того, доказывается, что не существует единой оптималь-
ной модели беспристрастного отбора, а предлагаемая модель лишь поз-
воляет применительно к определенным условиям сформулировать сгра-
тегию решений, максимизирующую ожидаемую общую полезность
сообразно конкретным целям тестирования и оценкам полезности раз-
личных исходов.
Исследования в области систематической ошибки теста как стати-
стическими методами, так и экспериментально показали, что на совре-
менном уровне знаний введение различных нормативных результатов
для разных подгрупп популяции не вполне оправдано. Статистические
поправки к показателям тестов, нормативным результатам или прогно-
стическим формулам вряд ли много дадут для устранения социальной
несправедливости. Более конструктивны другие подходы, уже обсуждав-
шиеся в этой главе. Среди них можно назвать комплексные тесты спо-
собностей и стратегии распределения, позволяющие полнее использовать
разные структуры способностей, формируемые несходными культурами.
То же можно сказать и об адаптивных программах типа индивидуализи-
рованного обучения. Чтобы такие программы максимально соответство-
вали индивидуальным особенностям личности, тест должен как можно
точнее определять уровень развития необходимых способностей.
ГЛАВА 8. АНАЛИЗ ЗАДАНИЙ
Знакомство с основными понятиями и методами анализа заданий, а так-
же с другими фазами построения теста может оказаться полезным при
оценке опубликованных тестов. Помимо этого анализ заданий имеет
прямое отношение к составлению неформальных локальных тестов типа
подготовленных учителем для работы в классе опросов или конт-
рольных работ. Некоторые из рассматриваемых ниже общих принципов
подготовки эффективных заданий, а также простые статистические при-
емы их анализа послужат совершенствованию предъявляемых в классе
тестов и могут быть применены даже к небольшим группам.
В заданиях может анализироваться как их качественная сторона, т. е.
их содержание и форма, так и количественная, т.е. их статистические
свойства. Качественный анализ включает рассмотрение валидности по
содержанию (см. гл. 6) и оценку эффективности письменных заданий,
п кптппой пойдет оечь в гл. 14. Количественный анализ означает
180 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ность и надежность теста в конечном счете зависят от свойств заданий,
и их предварительный анализ позволяет повысить эти свойства теста.
Устраняя, добавляя, заменяя или пересматривая отдельные задания,
можно усовершенствовать тест в целом.
Анализ заданий позволяет сократить тест, повышая в то же время
его валидность и надежность. При прочих равных условиях более
длинный тест валиднее и надежнее, чем более короткий. Влияние увели-
чения и сокращения теста на коэффициент надежности обсуждалось
в гл. 5, где также была приведена формула Спирмана-Брауна для оцен-
ки этого влияния. Согласно этой формуле, надежность теста меняется,
когда изъятые задания эквивалентны оставшимся, а вновь вводимые-
уже имеющимся. Аналогичные изменения валидности имеют место, когда
отбрасываются или добавляются задания, обладающие эквивалентной
валидностью. Однако такие оценки влияния увеличения или сокращения
теста на его надежность и валидность действительны только для случай-
ного отбора заданий, проводимого без их анализа. Когда же сокращение
теста идет за счет устранения наименее удачных заданий, результатом
может быть повышение его валидности и надежности.
ТРУДНОСТЬ ЗАДАНИЙ
Процент справившихся с заданием. Чаще всего трудность задания
определяется процентом испытуемых, давших правильный ответ. Чем
легче задание, тем выше этот процент. Слово, значение которого пра-
вильно указало 70Їо выборки стандартизации (р = 0,70), считается более
легким, чем слово, которое знают только 15Їо (р == 0,15). Обычно зада-
ния располагаются в порядке нарастания трудности, так, чтобы обсле-
дуемый начинал с относительно легких заданий и затем переходил ко
все более сложным. Такое расположение дает индивиду больше уверен-
ности и снижает вероятность того, что он, затратив слишком много
времени на задания, которые для него слишком трудны, упустит из вида
те, которые ему по силам.
В процессе составления теста задания подбираются так, чтобы они
соответствовали определенному уровню трудности. Большинство стан-
дартизованных тестов способностей предназначены для как можно более
точной оценки индивидуального уровня развития способности, и если
в таком тесте никто не может справиться с заданием, то оно оказывается
просто лишним грузом. То же можно сказать и о заданиях, с которыми
справляются все. Ни те, ни другие не несут никакой информации об ин-
дивидуальных различиях. А поскольку такие задания не влияют на ва-
риативность тестовых результатов, они ничего не прибавляют к надеж-
ности или валидности теста. Чем ближе трудность задания к 1,00 или
к 0, тем менее дифференцированную информацию можно получить с его
помощью. И наоборот, чем ближе уровень трудности к 0,50, тем выше
его разрешающая способность. Предположим, что из 100 испытуемых 50
справились и 50 не справились с заданием {р == 0,50). Это задание позво-
ляет нам провести попарное различие между каждым, кто справился
и кто не справился с заданием, что дает 50 х 50 = 2500 сравнений или
битов различительной информации. При р = 0,70 мы будем иметь 70 х
х 30 == 2100 битов информации, при р == 0,90-90 х 10 = 900 битов,
а ппи п == I Oh-inn у п-т- n To " .-..---- --- ----
181
АНАЛИЧ ЗАДАНИЙ
Таким образом выходит, что для максимальной дифференциации все
задания должны быть на уровне трудности 0,50. Решение, однако, ослож-
няется тем фактом, что в пределах одного теста задания могут коррели-
ровать друг с другом. Чем однороднее тест, тем выше эти корреляции.
В экстремальной ситуации, если все задания скоррелированы и имеют
уровень трудности 0,50, то одни и те же 50 испытуемых справятся
с каждым заданием. В итоге одна половина обследованных покажет
IOOo-ный результат, а результатом другой половины будет ноль. Ввиду
взаимокорреляции заданий лучше всего выбирать их так, чтобы уровень
трудности отдельных заданий имел некоторый умеренный разброс, но
в среднем составлял 0,50.
Интервальные шкалы. Процент испытуемых, справляющихся
с заданием, соответствует степени его трудности в порядковой шкале,
т.е. правильно указывает ранговый порядок, или относительную труд-
ность заданий. Если, к примеру, процент справившихся с заданием 1, 2
и 3 соответственно равен 30, 20 и 10, то мы можем заключить, что зада-
ние 1-самое легкое, а задание 3-самое трудное из них. Но мы не мо-
жем утверждать, что различие в трудности между заданиями 1 и 2 то же,
что и между заданиями 2 и 3. Равные разности процентов будут соответ-
ствовать равным различиям трудности только для прямоугольного рас-
пределения, т.е. для равномерного распределения случаев по всему диа-
пазону. Эта проблема аналогична той, с которой мы встретились в свя:чи
с процентилями, также основанными на процентах случаев. Напомним
(см. гл. 4), что процентили не являю юя равными единицами и меняклся
по величине от центра к краям распределения (рис. 4, гл. 4).
Если исходить из нормального распределения свойства, измеряемо-
го заданием, то уровень трудности можно чьи. .лить в иервальной
шкале с фиксированной единицей, пользуясь <аблицей частот нормаль-
ного распределения. В гл. 4 отмечалось, например, что примерно 34Їо
случаев при нормальном распределении приходится на интервал в 1ст
в обоих направлениях от среднего значения (рис. 3, гл. 4). Принимая это
во внимание, рассмотрим рис. 22, на котором представлен уровень труд-
ности задания, выполненного 84Ї испытуемых. Поскольку испытуемые,
84%
Рис. 22. Соотноше-
ние между процен-
-С.. :, i. аИВШИХСЯ С
;... .. г. и его
.,,.:". (1.о при
нормальном рас-
пределении
182 ПРИНЦИПЫ психологичг.ского ТЕСТИРОВАНИЯ
выполнившие задание, относятся к верхней части распределения, то эти
84Їо займут всю правую половину распределения (50%) и часть (34"д) ле-
вой половины (50 + 34 = 84).
Таким образом, как видно из рис. 22, трудность задания приходится
на 1ст слева от среднего значения. Задание, выполненное 16% группы, бу-
дет соответствовать 1ст справа от среднего, поскольку на область справа
от этой точки приходится 16% случаев (50 -34 = 16). Задание, выпол-
ненное половиной группы, соответствует среднему распределению, т.е.
нулю этой шкалы, положительные значения которой относятся к более
трудным, а отрицательные-к менее трудным заданиям. Уровень трудно-
сти, отвечающий любому проценту справившихся с заданием, можно
найти по таблице нормального распределения, имеющейся в любом
учебнике по статистике.
Поскольку представление трудности заданий в единицах стандартно-
го отклонения нормального распределения сопряжено с использованием
отрицательных чисел и десятичных дробей, такие значения обычно пере-
водят в более удобную шкалу. Одна из таких шкал Д, используемая
Службой тестирования в образовании при разработке тестов, связана со
шкалой (7 следующим соотношением:
Л = 13 + 4х,
где х-трудность задания, выраженная в единицах стандартного отклоне-
ния нормального распределения. Константы 13и4 выбраны произволь-
но с тем, чтобы избежать отрицательных значений и получить достаточ-
но широкий диапазон величин, позволяющий обходиться без десятичных
дробей. Задание, выполняемое почти всеми (точнее, в 99,8% случаев)
и приходящееся на - 3(7, имеет А, равное 13+ 4х(- 3) = 1. Это самое
низкое значение для большинства групп. В противоположность этому за-
дание, с которым справляется 0,13% испытуемых, соответствует 3(7,
и для него Д = 13+4 х 3 = 25. Среднее по трудности задание с ну-
левым значением в шкале ст будет иметь А = 13. Таким образом, шкала
устроена так, что практически все задания охватываются диапазоном
значений А от 1 до 25, причем заданию средней трудности для каждой
данной группы соответствует число 13.
Важным практическим преимуществом шкалы А перед другими ана-
логичными шкалами является то, что для нее составлена таблица
(С. Т. Fan, 1952), с помощью которой по значению р (т.е. по относитель-
ному количеству выполнивших задание) можно непосредственно найти А.
Эта таблица избавляет от необходимости отыскивать сначала место
задания в нормальном распределении и затем переходить к А. На прак-
тике чаще всего можно обойтись порядковой мерой трудности задания,
такой, как величина р. Если же намечается провести более точный стати-
стический анализ, требующий измерения трудности в интервальной шка-
ле, то определить значение А можно без особых усилий.
Распределение результатов теста. Трудность теста в целом,
разумеется, непосредственно зависит от трудности заданий, из которых
он состоит. Полная проверка трудности всего теста применительно к по-
пуляции, для которой он предназначен, осуществляется с помощью рас-
пределения суммарных результатов. Если выборка стандартизации ре-
презентативна срезу такой популяции, то можно ожидать, что эти
183 АНАЛИЗ ЗАДАНИЙ
Предположим, однако, что полученная кривая распределения не нор-
мальна, а явно скошена, так как это изображено на рис. 23. Первое из
этих распределений (часть А), у которого значительная часть результатов
сосредоточена на левом его конце, указывает на то, что для данной
группы тест содержит мало относительно легких заданий, достаточное
число которых необходимо для лучшего различения испытуемых, чьи ре-
зультаты находятся на нижнем конце диапазона значений. В силу этого
испытуемые, результаты которых обычно распределены в довольно ши-
роком диапазоне, получат в этом тесте результаты близкие или равные
О, отсюда и нахождение пика кривой вблизи нижнего края шкалы. Схема
такого искусственного сосредоточения результатов, когда нормальное
распределение показателей по какому-то тесту дает распределение, ско-
шенное влево, приведена на рис.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58

А-П

П-Я

Психологическое тестирование