Если бы работники
отбирались наугад, средний стандартный показатель в этой шкале был
бы равен нулю. Это имело бы место, если индекс отбора для каждой
специальности составлял бы 50Їо, так что все 100Їо подавших заявление
были бы приняты. Заметим, что даже в этих условиях, как видно из ниж-
--.-. "-,""" "д""", """"ддд д некоооелиоующих предикторов
172
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 18
Средние значения стандартного критериального
покагателя лиц, распределенных по двум спе-
циальностям с помощью стратегий отбора и рас-
пределения (N.E. Brogden, 1951, р. 182)
Индекс отбора для каждой специальности (в)Отбор по одномуКлассификация: два предиктора с коэффициентами взаимокорреляции
тору0 0,200,400,60 0,80
привело бы к повышению среднего уровня выполнения работы, он под-
нялся бы на 0,31 (почти на 1/Зст выше случайного уровня). С ростом кор-
реляции между предикторами эффективность отбора работников падает,
но все еще остается выше случайного уровня даже при корреляции 0,80.
При более низких значениях индекса отбора, разумеется, можно набрать
более квалифицированный персонал. Однако, как видно из табл. 18,
средний уровень выполнения работы при любом значении индекса отбо-
ра остается выше для принятых при помощи стратегии распределения,
чем методом отбора.
Практической иллюстрацией преимуществ стратегий распределения
служит использование при распределении персонала по военным спе-
циальностям в армии США показателей областей пригодности
(M.H.Maier, E.F.Fuchs, 1972). Каждая область пригодности соответ-
ствует группе армейских про-
фессий, для которых требуются
примерно сходные способно-
сти, знания и интересы. Клас-
сификационная батарея со-
стоит из 13 тестов, каждой
области пригодности отвечает
от трех до пяти из них. На
рис. 20 приведены результаты
исследования 7500 доброволь-
цев, зачисленных на военную
службу, в котором сравнива-
лась эффективность использо-
вания показателей области
пригодности и общего теста
отсеивания, так называемого
квалификационного теста во-
оруженных сил (AFQT). Отме-
тим, что только 56Їо этой группы достигли или превысили по AFQT 50-й
процентиль, тогда как 80Ї показали средний или более высокий стан-
дартный показатель соответствующей области пригодности. Таким
образом, когда индивиды отбираются на основе способностей, отвечаю-
щих той или иной деятельности, громадное большинство выполняет ее
не ниже среднего значения для всей выборки. Казалось бы, невозможно
почти каждому быть выше среднего. Однако это достигается благодаря
тому, что почти каждый хотя бы в чем-то превосходит средний уровень.
Аналогичное явление было продемонстрировано на совершенно
иной популяции-одаренных детях (D.H.FeIdman, J.C.Bratton, 1972).
В исследовательских целях 49 детей из двух пятых классов оценивались
по 19 показателям, до этого использовавшимися для отбора одаренных
учеников. Среди этих показателей были суммарные результаты группо-
вого теста интеллекта и батареи достижений в обучении, тесты от-
дельных способностей и конкретных учебных предметов, скажем чтения
и арифметики, тесты творческого мышления, оценки по музыке и рисова-
нию, отзывы учителей о наиболее <одаренных> и <творческих> детях
в классе. Когда по каждому критерию было выделено по пять лучших
учеников, они вместе составили 92"д группы. Тем самым еще раз было
показано, что применение многомерных критериев позволяет установить
50,881,031,021,011,000.96
100,700,870,860,840,820,79
200,480,680,670,650,620,59
300,320,550,530,500,460,43
400,180,420,410,370,340,29
500,000,310,280,250,220,17
173 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
Дифференциальная валидность. При оценке классификацион-
ной батареи большое значение придается ее дифференциальной валидно-
сти по отдельным критериям. Цель такой батареи-предсказать индиви-
дуальные различия в выполнении двух и более видов работ, в окончании
специализированных курсов подготовки и других критериальных ситуа-
циях. Тесты, из которых составляются классификационные батареи, дол-
жны для разных критериев обладать весьма различными коэффициента-
ми валидности. Применительно к проблеме распределения, скажем, по
двум критериям идеальный тест должен иметь высокую корреляцию
с одним критерием и нулевую (или, еще лучше, отрицательную)-с дру-
гим. Тесты общего интеллекта сравнительно мало пригодны для батарей
классификации, поскольку они примерно одинаково прогнозируют успех
в большинстве областей деятельности. Поэтому их корреляция с подле-
жащими дифференциации критериями будет более или менее одинако-
вой. Высокие показатели индивида, справившегося с таким тестом, озна-
чали бы его успех в любой области, и нельзя было бы сказать, где он
окажется большим. В классификационной батарее должно быть несколь-
ко тестов, являющихся хорошими предикторами критерия А и плохими
предикторами критерия В, а также тесты-хорошие предикторы для В,
но плохие для А.
Для отбора тестов с целью максимизации дифференциальной валид-
ности классификационной батареи разработаны специальные статистиче-
ские процедуры (H.E.Brogden, 1951; P.Horst, 1954; W.G.Mollenkopf,
1950e; R.L. Thomdike, 1949). Однако когда число критериев больше двух,
проблема сильно усложняется, и для таких случаев нет чисто аналитиче-
ского решения. На практике применяются различные эмпирические под-
ходы, чтобы приблизиться к нужной цели.
Множественные дискриминантные функции. Проблема рас-
пределения может решаться также при помощи множественной
Рис, 20. Процент получивших результаты выше среднего в тесте AFQT и в соот-
ветствующих областях пригодности по армейской квалификационной батареи в выборке
из 7500 зачисленных на военную службу добровольцев,
С любезного согласия Дж. Э. Ухлейнера
44% ниже среднего
56% выше среднего
50-й процентиль
или выше по AFQT
20% ниже среднего
80% выше среднего
стандартный показатель
100 или выше для
соответствующей
области пригодности
174 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
дискриминантной функции (J.W. French, 1966). Существенно, что приме-
няемая в этом случае математическая процедура позволяет определить,
насколько индивидуальные результаты по всей серии тестов прибли-
жаются к типичным результатам лиц данной профессии, прошедших
определенный курс обучения, с данным психиатрическим синдромом
и т.д. Индивид затем может быть отнесен к той группе, к которой он по
своим показателям оказывается ближе всего. Если уравнение регрессии
позволяет предсказать степень успеха в каждой области, то множествен-
ная дискриминантная функция просто относит испытуемых к одной кате-
гории. Принадлежность к группе-единственный критерий, учитываемый
данным методом. Дискриминантная функция применяется в случае, ког-
да количественная критериальная мера невозможна и устанавливается
только принадлежность к той или иной группе. Валидность некоторых
тестов, например, устанавливается проведением их с людьми разных спе-
циальностей, а в пределах каждой из них степень профессионального ма-
стерства никак не измеряется.
Дискриминантная функция также применима, если связь между кри-
терием и одним или несколькими предикторами нелинейна. Так, для не-
которых свойств личности существует известный оптимум, отвечающий
данной профессии. Лица с большей или меньшей выраженностью такого
свойства окажутся в невыгодном положении. Вполне допустимо, напри-
мер, что продавец с умеренным стремлением к лидерству, по всей ве-
роятности, будет преуспевать, причем его шансы на успех снижаются по
мере удаления его тестовых результатов в любую сторону от какого-то
оптимального значения. Дискриминантная функция как раз и позволяет
отбирать лица, чьи результаты располагаются в пределах этого оптиму-
ма, тогда как уравнение регрессии работает по принципу, чем выше зна-
чение тестового показателя, тем благоприятней прогнозируемый резуль-
тат. Разумеется, при негативной корреляции между предиктором
и критерием будет действовать обратный принцип. Однако в этом слу-
чае не существует прямого способа получить максимум для промежуточ-
ного значения показателя теста. Хотя во многих случаях оба метода да-
дут одинаковые результаты, существуют ситуации, когда один и тот же
индивид будет отнесен этими методами к разным категориям. Для ос-
новных целей тестирования применение уравнения регрессии более эф-
фективно, однако при некоторых обстоятельствах для получения необхо-
димой информации лучше подходит дискриминантная функция.
СТАТИСТИЧЕСКИЙ АНАЛИЗ СИСТЕМАТИЧЕСКОЙ ОШИБКИ ТЕСТА
Проблема. Если хотят использовать тест, чтобы предсказать результат
в каких-то будущих обстоятельствах, скажем будущую успеваемость или
уровень выполнения какой-то деятельности, то такой тест должен иметь
высокую прогностическую валидность относительно конкретного крите-
рия. Это требование обычно упускают из вида при разработке так назы-
ваемых культурно безразличных тестов (см. гл. 12). Стремясь включить
в такие тесты только функции, общие для разных культур или субкуль-
тур, нередко прибегают к содержанию, не имеющему особого отношения
к какому-либо из прогнозируемых критериев. Лучшим решением было
бы использовать содержание, непосредственно связанное с критерием,
а затем исследовать возможное нттияние мппрчпатпппп чч попёрт,, -т-п-тт
175 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
тивные результаты могут меняться в зависимости от прошлого опыта
обследуемого. Эти значения, следовательно, необходимо проверить на
подгруппах, для которых следует ожидать подобного эффекта.
Заметим, однако, что прогностические характеристики тестовых ре-
зультатов меньше зависят от различий в культурах, если тест внутренне
связан с критериальной деятельностью. Если вербальный тест исполь-
зуется для прогноза невербальной деятельности, то в группе, принадле-
жащей к одной культуре, валидность может оказаться высокой в силу
характерных для этой культуры традиционных ассоциаций. Между тем
для группы с иными культурными традициями тест не будет иметь ника-
кой прогностической силы. Напротив, тест, который непосредственно
строится на элементах критериального поведения или измеряет тре-
буемые навыки, вероятно, сохранит свою валидность в различных
группах.
Начиная с середины 60-х гг. происходит быстрое накопление данных,
касающихся влияния этнического фактора на валидность теста. В этой
связи в <Руководстве>, изданном Комиссией использования равных про-
фессиональных возможностей, прямо говорится: <Всегда, когда это тех-
нически осуществимо, данные и результаты должны приводиться отдель-
но для групп, относящихся к меньшинствам и неменьшинствам>.
Функции применения раздельной валидации обсуждались также в докла-
дах Американской психологической ассоциации о тестировании мень-
шинств в образовании и при найме на работу (American Psycho-
logical Association.., 1969; T.A.Cleary, L.G.Humphreys, S.A.Kendrick,
A. Wesman, 1975). Большинство исследований, проведенных на сегодняш-
ний день, касалось американских негров, и лишь в некоторых из них за-
трагивались другие этнические меньшинства. Изучавшиеся проблемы но-
сят общее название <систематическая ошибка теста>. В данном
контексте термин <систематическая ошибка> употребляется в статистиче-
ском смысле, т. е. как нечто противоположное случайной ошибке. В этом
смысле говорят о смещенной и случайной выборке. Главные вопросы,
возникающие в связи с систематической ошибкой теста, относятся
к коэффициенту валидности (ошибка наклона) и к соотношению между
групповыми значениями по тесту и критерию (ошибка интерцепта).
Систематическая ошибка наклона. Чтобы уяснить себе спе-
циальные аспекты систематической ошибки теста, рассмотрим сначала
диаграмму рассеяния, или двумерное распределение (см. рис. 8,9, 10
в гл. 5). Правда, в данном случае по горизонтальной оси (X) отклады-
ваются результаты теста, а по вертикальной (У)-критериальные показа-
тели: средняя успеваемость в колледже или уровень выполнения деятель-
ности. Напомним, что <палочки>, изображающие положение индивида
относительно Х и Y, в своей совокупности показывают направление
и общую величину корреляции между двумя переменными. Линия, ап-
проксимирующая положение <палочек>, есть линия регрессии, а ее урав-
нение есть уравнение регрессии. В данном случае оно содержит только
один предиктор. Множественные уравнения регрессии, о которых гово-
рилось выше, содержат несколько предикторов, но принцип тот же
самый.
Когда тестовые и критериальные показатели выражены в стан-
дартных единицах с о = 1,00, наклон линии регрессии равен коэффициен-
ту коппелянии. Поэтому если коэффициенты валидности теста для двух
176
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ошибкой наклона. На рис. 21 дается схематическое изображение линий
регрессии для нескольких двумерных распределений. Эллипсы предста-
вляют области расположения <палочек> для каждой выборки. Случай
1 соответствует двумерным распределениям двух групп с различными
средними значениями предиктора, но с общей линией регрессии между
предиктором и критерием. В данном случае систематическая ошибка на-
клона отсутствует, поскольку любому тестовому показателю в обеих
группах соответствует один и тот же показатель критериальный. Случай
Рис. 21. Системотические ошибки наклона и интерсепта в прогнозируемых критериаль-
ных показателях.
Эллипсами отмечены области, в которых располагаются тестовые показатели членов
каждой группы соответственно критериальному выполнению этих же индивидов.
Случаи 1-3 взяты из статьи М. Гордона (М. A. Gordon, 1953, р. 3)
Случай 1
Тестовый показатель
Случай 3
Тестовый показатель
Тестовый показатель
Тестовый показатель
177 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
2 иллюстрирует ошибку наклона с более низким коэффициентом валид-
ности для группы меньшинств.
При сравнительной валидации необходимо соблюдать определенные
меры предосторожности. Например, использование субъективных оценок
в роли критерия может привести к результатам, отличающимся от тех,
которые будут иметь место при применении более объективных крите-
риев (A. R. Bass, J.N.Turner, 1973; J.T.Campbell, L. A. Crooks,
M.H. Mahoney, D.A. Rock, 1973; J.J. Kirkpatrick, R.B. Ewen, R.S. Battett,
R. A. Katzell, 1968). Ошибки могут возникнуть также, если сравниваются
этнические выборки, сформированные из людей различной социальной
и профессиональной принадлежности. В таких случаях, по всей вероятно-
сти, смешиваются этнические и социально-профессиональные факторы
(J.J. Kirkpatrick et aL, 1968).
Трудности часто вытекают из того, что число испытуемых значи-
тельно меньше в выборке меньшинств, чем в выборке большинства. При
этих условиях один и тот же коэффициент валидности может оказаться
статистически значимым для выборки большинства и незначимым для
выборки меньшинств. Для группы в 100 человек, например, коэффициент
корреляции 0,27 значим на уровне 0,01, тогда как при 30 испытуемых тот
же коэффициент далек от минимальной значимости даже на уровне 0,05.
По этой причине следует определять не значимость валидности раздель-
но для каждой группы, а оценивать значимость разности между двумя
коэффициентами валидности (Standards..., 1974, ?9). В противном случае
можно легко доказать, что тест валиден, скажем, для белых и не валиден
для негров. Для этого требуется лишь, чтобы выборка белых была до-
статочно велика, а выборка негров-достаточно мала! Желательно по-
этому проверить на другой паре независимых выборок, действительно
ли валидность для первой группы больше, чем для второй.
Систематическая ошибка интерцепта. Даже когда тест обла-
дает одинаковой валидностью в двух группах, может иметь место систе-
матическая ошибка интерцепта. Интерцепт линии регрессии-это точка,
в которой она пересекает вертикальную ось. Систематическая ошибка
интерцепта означает, что тест систематически завышает или занижает
значение критерия для частной группы. Вернемся к рис. 21. В случае
1 выборки меньшинства и большинство имеют идентичную регрессию.
В этих условиях нет ни ошибки наклона, ни ошибки интерцепта, хотя
группы значимо отличаются друг от друга и по среднему результату те-
ста, и по критериальному показателю. В случае 3 линии регрессии двух
групп имеют один и тот же наклон, но разные интерцепты. Здесь
у группы большинства {В) более высокий интерцепт, чем у группы мень-
шинства {А), т. е. линия регрессии большинства пересекает ось Y выше,
чем линия регрессии меньшинства. Несмотря на то что коэффициент ва-
лидности для обеих групп один и тот же, тестовый результат Х будет
для них соответствовать различным критериальным показателям - Уд
и YB.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58
отбирались наугад, средний стандартный показатель в этой шкале был
бы равен нулю. Это имело бы место, если индекс отбора для каждой
специальности составлял бы 50Їо, так что все 100Їо подавших заявление
были бы приняты. Заметим, что даже в этих условиях, как видно из ниж-
--.-. "-,""" "д""", """"ддд д некоооелиоующих предикторов
172
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
Таблица 18
Средние значения стандартного критериального
покагателя лиц, распределенных по двум спе-
циальностям с помощью стратегий отбора и рас-
пределения (N.E. Brogden, 1951, р. 182)
Индекс отбора для каждой специальности (в)Отбор по одномуКлассификация: два предиктора с коэффициентами взаимокорреляции
тору0 0,200,400,60 0,80
привело бы к повышению среднего уровня выполнения работы, он под-
нялся бы на 0,31 (почти на 1/Зст выше случайного уровня). С ростом кор-
реляции между предикторами эффективность отбора работников падает,
но все еще остается выше случайного уровня даже при корреляции 0,80.
При более низких значениях индекса отбора, разумеется, можно набрать
более квалифицированный персонал. Однако, как видно из табл. 18,
средний уровень выполнения работы при любом значении индекса отбо-
ра остается выше для принятых при помощи стратегии распределения,
чем методом отбора.
Практической иллюстрацией преимуществ стратегий распределения
служит использование при распределении персонала по военным спе-
циальностям в армии США показателей областей пригодности
(M.H.Maier, E.F.Fuchs, 1972). Каждая область пригодности соответ-
ствует группе армейских про-
фессий, для которых требуются
примерно сходные способно-
сти, знания и интересы. Клас-
сификационная батарея со-
стоит из 13 тестов, каждой
области пригодности отвечает
от трех до пяти из них. На
рис. 20 приведены результаты
исследования 7500 доброволь-
цев, зачисленных на военную
службу, в котором сравнива-
лась эффективность использо-
вания показателей области
пригодности и общего теста
отсеивания, так называемого
квалификационного теста во-
оруженных сил (AFQT). Отме-
тим, что только 56Їо этой группы достигли или превысили по AFQT 50-й
процентиль, тогда как 80Ї показали средний или более высокий стан-
дартный показатель соответствующей области пригодности. Таким
образом, когда индивиды отбираются на основе способностей, отвечаю-
щих той или иной деятельности, громадное большинство выполняет ее
не ниже среднего значения для всей выборки. Казалось бы, невозможно
почти каждому быть выше среднего. Однако это достигается благодаря
тому, что почти каждый хотя бы в чем-то превосходит средний уровень.
Аналогичное явление было продемонстрировано на совершенно
иной популяции-одаренных детях (D.H.FeIdman, J.C.Bratton, 1972).
В исследовательских целях 49 детей из двух пятых классов оценивались
по 19 показателям, до этого использовавшимися для отбора одаренных
учеников. Среди этих показателей были суммарные результаты группо-
вого теста интеллекта и батареи достижений в обучении, тесты от-
дельных способностей и конкретных учебных предметов, скажем чтения
и арифметики, тесты творческого мышления, оценки по музыке и рисова-
нию, отзывы учителей о наиболее <одаренных> и <творческих> детях
в классе. Когда по каждому критерию было выделено по пять лучших
учеников, они вместе составили 92"д группы. Тем самым еще раз было
показано, что применение многомерных критериев позволяет установить
50,881,031,021,011,000.96
100,700,870,860,840,820,79
200,480,680,670,650,620,59
300,320,550,530,500,460,43
400,180,420,410,370,340,29
500,000,310,280,250,220,17
173 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
Дифференциальная валидность. При оценке классификацион-
ной батареи большое значение придается ее дифференциальной валидно-
сти по отдельным критериям. Цель такой батареи-предсказать индиви-
дуальные различия в выполнении двух и более видов работ, в окончании
специализированных курсов подготовки и других критериальных ситуа-
циях. Тесты, из которых составляются классификационные батареи, дол-
жны для разных критериев обладать весьма различными коэффициента-
ми валидности. Применительно к проблеме распределения, скажем, по
двум критериям идеальный тест должен иметь высокую корреляцию
с одним критерием и нулевую (или, еще лучше, отрицательную)-с дру-
гим. Тесты общего интеллекта сравнительно мало пригодны для батарей
классификации, поскольку они примерно одинаково прогнозируют успех
в большинстве областей деятельности. Поэтому их корреляция с подле-
жащими дифференциации критериями будет более или менее одинако-
вой. Высокие показатели индивида, справившегося с таким тестом, озна-
чали бы его успех в любой области, и нельзя было бы сказать, где он
окажется большим. В классификационной батарее должно быть несколь-
ко тестов, являющихся хорошими предикторами критерия А и плохими
предикторами критерия В, а также тесты-хорошие предикторы для В,
но плохие для А.
Для отбора тестов с целью максимизации дифференциальной валид-
ности классификационной батареи разработаны специальные статистиче-
ские процедуры (H.E.Brogden, 1951; P.Horst, 1954; W.G.Mollenkopf,
1950e; R.L. Thomdike, 1949). Однако когда число критериев больше двух,
проблема сильно усложняется, и для таких случаев нет чисто аналитиче-
ского решения. На практике применяются различные эмпирические под-
ходы, чтобы приблизиться к нужной цели.
Множественные дискриминантные функции. Проблема рас-
пределения может решаться также при помощи множественной
Рис, 20. Процент получивших результаты выше среднего в тесте AFQT и в соот-
ветствующих областях пригодности по армейской квалификационной батареи в выборке
из 7500 зачисленных на военную службу добровольцев,
С любезного согласия Дж. Э. Ухлейнера
44% ниже среднего
56% выше среднего
50-й процентиль
или выше по AFQT
20% ниже среднего
80% выше среднего
стандартный показатель
100 или выше для
соответствующей
области пригодности
174 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
дискриминантной функции (J.W. French, 1966). Существенно, что приме-
няемая в этом случае математическая процедура позволяет определить,
насколько индивидуальные результаты по всей серии тестов прибли-
жаются к типичным результатам лиц данной профессии, прошедших
определенный курс обучения, с данным психиатрическим синдромом
и т.д. Индивид затем может быть отнесен к той группе, к которой он по
своим показателям оказывается ближе всего. Если уравнение регрессии
позволяет предсказать степень успеха в каждой области, то множествен-
ная дискриминантная функция просто относит испытуемых к одной кате-
гории. Принадлежность к группе-единственный критерий, учитываемый
данным методом. Дискриминантная функция применяется в случае, ког-
да количественная критериальная мера невозможна и устанавливается
только принадлежность к той или иной группе. Валидность некоторых
тестов, например, устанавливается проведением их с людьми разных спе-
циальностей, а в пределах каждой из них степень профессионального ма-
стерства никак не измеряется.
Дискриминантная функция также применима, если связь между кри-
терием и одним или несколькими предикторами нелинейна. Так, для не-
которых свойств личности существует известный оптимум, отвечающий
данной профессии. Лица с большей или меньшей выраженностью такого
свойства окажутся в невыгодном положении. Вполне допустимо, напри-
мер, что продавец с умеренным стремлением к лидерству, по всей ве-
роятности, будет преуспевать, причем его шансы на успех снижаются по
мере удаления его тестовых результатов в любую сторону от какого-то
оптимального значения. Дискриминантная функция как раз и позволяет
отбирать лица, чьи результаты располагаются в пределах этого оптиму-
ма, тогда как уравнение регрессии работает по принципу, чем выше зна-
чение тестового показателя, тем благоприятней прогнозируемый резуль-
тат. Разумеется, при негативной корреляции между предиктором
и критерием будет действовать обратный принцип. Однако в этом слу-
чае не существует прямого способа получить максимум для промежуточ-
ного значения показателя теста. Хотя во многих случаях оба метода да-
дут одинаковые результаты, существуют ситуации, когда один и тот же
индивид будет отнесен этими методами к разным категориям. Для ос-
новных целей тестирования применение уравнения регрессии более эф-
фективно, однако при некоторых обстоятельствах для получения необхо-
димой информации лучше подходит дискриминантная функция.
СТАТИСТИЧЕСКИЙ АНАЛИЗ СИСТЕМАТИЧЕСКОЙ ОШИБКИ ТЕСТА
Проблема. Если хотят использовать тест, чтобы предсказать результат
в каких-то будущих обстоятельствах, скажем будущую успеваемость или
уровень выполнения какой-то деятельности, то такой тест должен иметь
высокую прогностическую валидность относительно конкретного крите-
рия. Это требование обычно упускают из вида при разработке так назы-
ваемых культурно безразличных тестов (см. гл. 12). Стремясь включить
в такие тесты только функции, общие для разных культур или субкуль-
тур, нередко прибегают к содержанию, не имеющему особого отношения
к какому-либо из прогнозируемых критериев. Лучшим решением было
бы использовать содержание, непосредственно связанное с критерием,
а затем исследовать возможное нттияние мппрчпатпппп чч попёрт,, -т-п-тт
175 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
тивные результаты могут меняться в зависимости от прошлого опыта
обследуемого. Эти значения, следовательно, необходимо проверить на
подгруппах, для которых следует ожидать подобного эффекта.
Заметим, однако, что прогностические характеристики тестовых ре-
зультатов меньше зависят от различий в культурах, если тест внутренне
связан с критериальной деятельностью. Если вербальный тест исполь-
зуется для прогноза невербальной деятельности, то в группе, принадле-
жащей к одной культуре, валидность может оказаться высокой в силу
характерных для этой культуры традиционных ассоциаций. Между тем
для группы с иными культурными традициями тест не будет иметь ника-
кой прогностической силы. Напротив, тест, который непосредственно
строится на элементах критериального поведения или измеряет тре-
буемые навыки, вероятно, сохранит свою валидность в различных
группах.
Начиная с середины 60-х гг. происходит быстрое накопление данных,
касающихся влияния этнического фактора на валидность теста. В этой
связи в <Руководстве>, изданном Комиссией использования равных про-
фессиональных возможностей, прямо говорится: <Всегда, когда это тех-
нически осуществимо, данные и результаты должны приводиться отдель-
но для групп, относящихся к меньшинствам и неменьшинствам>.
Функции применения раздельной валидации обсуждались также в докла-
дах Американской психологической ассоциации о тестировании мень-
шинств в образовании и при найме на работу (American Psycho-
logical Association.., 1969; T.A.Cleary, L.G.Humphreys, S.A.Kendrick,
A. Wesman, 1975). Большинство исследований, проведенных на сегодняш-
ний день, касалось американских негров, и лишь в некоторых из них за-
трагивались другие этнические меньшинства. Изучавшиеся проблемы но-
сят общее название <систематическая ошибка теста>. В данном
контексте термин <систематическая ошибка> употребляется в статистиче-
ском смысле, т. е. как нечто противоположное случайной ошибке. В этом
смысле говорят о смещенной и случайной выборке. Главные вопросы,
возникающие в связи с систематической ошибкой теста, относятся
к коэффициенту валидности (ошибка наклона) и к соотношению между
групповыми значениями по тесту и критерию (ошибка интерцепта).
Систематическая ошибка наклона. Чтобы уяснить себе спе-
циальные аспекты систематической ошибки теста, рассмотрим сначала
диаграмму рассеяния, или двумерное распределение (см. рис. 8,9, 10
в гл. 5). Правда, в данном случае по горизонтальной оси (X) отклады-
ваются результаты теста, а по вертикальной (У)-критериальные показа-
тели: средняя успеваемость в колледже или уровень выполнения деятель-
ности. Напомним, что <палочки>, изображающие положение индивида
относительно Х и Y, в своей совокупности показывают направление
и общую величину корреляции между двумя переменными. Линия, ап-
проксимирующая положение <палочек>, есть линия регрессии, а ее урав-
нение есть уравнение регрессии. В данном случае оно содержит только
один предиктор. Множественные уравнения регрессии, о которых гово-
рилось выше, содержат несколько предикторов, но принцип тот же
самый.
Когда тестовые и критериальные показатели выражены в стан-
дартных единицах с о = 1,00, наклон линии регрессии равен коэффициен-
ту коппелянии. Поэтому если коэффициенты валидности теста для двух
176
ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ
ошибкой наклона. На рис. 21 дается схематическое изображение линий
регрессии для нескольких двумерных распределений. Эллипсы предста-
вляют области расположения <палочек> для каждой выборки. Случай
1 соответствует двумерным распределениям двух групп с различными
средними значениями предиктора, но с общей линией регрессии между
предиктором и критерием. В данном случае систематическая ошибка на-
клона отсутствует, поскольку любому тестовому показателю в обеих
группах соответствует один и тот же показатель критериальный. Случай
Рис. 21. Системотические ошибки наклона и интерсепта в прогнозируемых критериаль-
ных показателях.
Эллипсами отмечены области, в которых располагаются тестовые показатели членов
каждой группы соответственно критериальному выполнению этих же индивидов.
Случаи 1-3 взяты из статьи М. Гордона (М. A. Gordon, 1953, р. 3)
Случай 1
Тестовый показатель
Случай 3
Тестовый показатель
Тестовый показатель
Тестовый показатель
177 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ
2 иллюстрирует ошибку наклона с более низким коэффициентом валид-
ности для группы меньшинств.
При сравнительной валидации необходимо соблюдать определенные
меры предосторожности. Например, использование субъективных оценок
в роли критерия может привести к результатам, отличающимся от тех,
которые будут иметь место при применении более объективных крите-
риев (A. R. Bass, J.N.Turner, 1973; J.T.Campbell, L. A. Crooks,
M.H. Mahoney, D.A. Rock, 1973; J.J. Kirkpatrick, R.B. Ewen, R.S. Battett,
R. A. Katzell, 1968). Ошибки могут возникнуть также, если сравниваются
этнические выборки, сформированные из людей различной социальной
и профессиональной принадлежности. В таких случаях, по всей вероятно-
сти, смешиваются этнические и социально-профессиональные факторы
(J.J. Kirkpatrick et aL, 1968).
Трудности часто вытекают из того, что число испытуемых значи-
тельно меньше в выборке меньшинств, чем в выборке большинства. При
этих условиях один и тот же коэффициент валидности может оказаться
статистически значимым для выборки большинства и незначимым для
выборки меньшинств. Для группы в 100 человек, например, коэффициент
корреляции 0,27 значим на уровне 0,01, тогда как при 30 испытуемых тот
же коэффициент далек от минимальной значимости даже на уровне 0,05.
По этой причине следует определять не значимость валидности раздель-
но для каждой группы, а оценивать значимость разности между двумя
коэффициентами валидности (Standards..., 1974, ?9). В противном случае
можно легко доказать, что тест валиден, скажем, для белых и не валиден
для негров. Для этого требуется лишь, чтобы выборка белых была до-
статочно велика, а выборка негров-достаточно мала! Желательно по-
этому проверить на другой паре независимых выборок, действительно
ли валидность для первой группы больше, чем для второй.
Систематическая ошибка интерцепта. Даже когда тест обла-
дает одинаковой валидностью в двух группах, может иметь место систе-
матическая ошибка интерцепта. Интерцепт линии регрессии-это точка,
в которой она пересекает вертикальную ось. Систематическая ошибка
интерцепта означает, что тест систематически завышает или занижает
значение критерия для частной группы. Вернемся к рис. 21. В случае
1 выборки меньшинства и большинство имеют идентичную регрессию.
В этих условиях нет ни ошибки наклона, ни ошибки интерцепта, хотя
группы значимо отличаются друг от друга и по среднему результату те-
ста, и по критериальному показателю. В случае 3 линии регрессии двух
групп имеют один и тот же наклон, но разные интерцепты. Здесь
у группы большинства {В) более высокий интерцепт, чем у группы мень-
шинства {А), т. е. линия регрессии большинства пересекает ось Y выше,
чем линия регрессии меньшинства. Несмотря на то что коэффициент ва-
лидности для обеих групп один и тот же, тестовый результат Х будет
для них соответствовать различным критериальным показателям - Уд
и YB.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58