В терминах
нашей психометрической модели доказательство конструктной ва-
лидности предполагает демонстрирование того, что генеральная со-
вокупность заданий, из которой отобраны задания для данного теста,
является фактически такой, как мы и надеялись.
Выводы
Очевидно, что, в отличие от надежности и дискриминативности,
валидность теста не может быть представлена просто в виде одного
коэффициента. Вместо этого валидность теста устанавливается сери-
ями результатов, вид которых обсуждался выше в различных проце-
дурах. Если следовать процедурам, описанным в предыдущих разде-
лах, то результаты исследований не могут быть опровергнуты с точки
зрения методологии. Однако, в исследованиях валидности все зави-
сит от психологических знаний и проницательности разработчика
212
тестов. Так, тесты, подвергнутые исследованию конкурентной ва-
лидности, могут как пройти, так и не пройти эту проверку, если даже
она будет выполнена в соответствии с хорошо обоснованной методи-
кой. Аналогично, для локализации в факторном пространстве требу-
ется, чтобы в исследование были включены соответствующие пара-
метры этого пространства. Если это не так, то несмотря на тщатель-
ное выполнение процедуры, конструктная валидность показана не
будет.
Хотя доказательство валидности является в некоторой степени
субъективным, серьезные разногласия возникают редко. Это проис-
ходит потому, что если переменная понимается соответствующим
образом, то в большинстве случаев не возникает сомнений, с какими
другими переменными она будет или не будет коррелировать, какое
место она займет в факторном пространстве и какие группы проде-
монстрируют по ней хорошие показатели, а какие нет. Когда же
переменная не понятна, вопрос о валидности не поднимается. В про-
тивном случае, изучение валидности превращается в эксперимен-
тально-описательные исследования, которыми и определяется пере-
менная.
Глава 8. Стандартизация тестов
В главе 1 было показано, что одно из преимуществ, которыми
обладают психологические тесты по сравнению с другими видами
измерений, - это то, что они стандартизованы. Следовательно, воз-
можно сравнение показателя некоторого испытуемого с таковыми в
генеральной совокупности или других релевантных группах, что в
конечном счете дает возможность адекватной интерпретации пол-
ученного показателя.
Из сказанного следует, что стандартизация тестов наиболее важ-
на в тех случаях, когда осуществляется явное или неявное сравнение
показателей испытуемых, как, например, при профориентации или
отборе в целях обучения. Нормы также могут быть полезны и в
крупномасштабных скрининговых исследованиях. При использова-
нии психологических тестов в научном исследовании свойств чело-
века - в психометрии индивидуальных различий - нормы не столь
важны. В этом случае удовлетворительными являются и непосредст-
венные, не подвергнутые обработке ("сырые") показатели теста. По-
скольку указание норм обычно обязательно для тестов способностей,
наше обсуждение того, как следует проводить стандартизацию теста,
будет касаться, в основном, этой категории тестов.
Стандартизация выборки
Это определяющий аспект стандартизации: все зависит от выбор-
ки. При формировании выборки следует учитывать две важные пере-
менные: объем и репрезентативность выборки. Выборка должна точ-
но отражать категорию лиц, для которых предназначен тест (конеч-
но, может быть несколько таких категорий и, следовательно, и не-
сколько выборок), а также быть достаточной большой для обеспече-
ния столь малой стандартной погрешности нормативных данных,
чтобы ею можно было пренебречь.
Объем выборки
Для простого уменьшения значения стандартной погрешности
вполне адекватной будет выборка из 500 испытуемых. Однако, ре-
презентативность выборки не зависит от ее объема. При получении
нормы для общей популяции, например, детей школьного возраста,
необходима выборка объемом около 10 000 испытуемых. Выборка из
столь ограниченной популяции, как укротители львов или факиры,
конечно, не должна быть столь большой. Таким образом, нельзя
сделать никакого утверждения относительно объема выборки безот-
носительно той популяции (категории лиц), из которой она подбира-
214
ется. И здесь проясняется тот момент, что репрезентативность выбор-
ки является более важной, чем ее размер. Маленькая, но репрезен-
тативная нормативная выборка будет предпочтительнее, чем боль-
шая, но неравномерно представленная. Некоторые примеры, взятые
из реальных тестов, позволят показать очевидность этого замечания,
и также помогут указать разработчикам тестов наилучшие методы
получения стандартизационных выборок.
Получение репрезентативной нормативной выборки
Ясно, что наиболее неоднородной популяцией является генераль-
ная популяция (все население), а все остальные являются ее подмно-
жествами. По этой причине получить выборку заданного, определен-
ного качества из генеральной популяции - наиболее трудная задача.
В первом примере показана известная попытка сделать это - стан-
дартизация теста интеллекта Лордж-Торндайка (Lorge-Thorndike
Intelligence Test) (Lorge и Thorndike, 1957) для детей.
ПРИМЕР 1: ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ ПОПУЛЯЦИИ ДЛЯ
ТЕСТА ЛОРДЖ-ТОРНДАЙКА
Так как нормы теста способностей должны быть связаны с возра-
стом, мы будем рассматривать выборки для каждой возрастной груп-
пы.
Возрастные группы> Было выделено двенадцать возрастных
групп, от 6 лет до 17 лет. Это удовлетворительное разделение на
возрастные группы, хотя разделение с интервалом в шесть или даже
в три месяца было бы, вероятно, предпочтительнее. Общее количест-
во испытуемых было 136 000, то есть более, чем 11 000 на каждую
возрастную группу. Очевидно, что статистическая выборочная по-
грешность должна быть практически нулевой.
Репрезентативность выборки. Чтобы устранить неравномерную
представленность, была взята стратифицированная выборка из раз-
ных социальных групп, а основой для стратификации послужили
факторы, которые наиболее связаны с уровнем интеллекта: (1) про-
цент грамотного взрослого населения; (2) пропорция профессиональ-
ных рабочих в популяции; (3) процент домовладельцев и (4) среднее
количество снимающих жилье. Каждая социальная группа была за-
тем классифицирована по этим четырем переменным на "очень вы-
сокий", "высокий", "средний", "низкий" и "очень низкий" уровни.
Затем были протестированы все учащиеся каждого уровня в каждой
социальной группе, и для каждого из этих уровней в каждой группе
были получены отдельные нормы. Фактически, общее количество
испытуемых было вычислено для сорока четырех социальных групп
США.
Должно быть очевидным, что эти процедуры формирования вы-
борки должны дать такую выборку, которая очень точно отражает
генеральную популяцию для каждой группы. Однако, должно быть в
равной степени очевидно, что для формирования выборки таким
способом необходимы огромные ресурсы. Исследование Лордж-Тор-
ндайка показывает, каким должен быть полный объем выборки, не-
обходимый для адекватной нормализации, и громадный объем адми-
нистративных расходов, требующихся для проведения такого обшир-
ного тестирования. Этот пример также ясно иллюстрирует, как дол-
жно выполняться полностью адекватное формирование выборки. Об-
ратите внимание на основу стратификации: для нее были взяты пе-
ременные, имеющие отношение к измеряемой переменной. При ус-
тановлении норм для измерения тревожности может вполне оказать-
ся, что выборка будет стратифицирована по другим переменным.
Заметьте также, что нормы получены не только для каждой возраст-
ной группы в целом, но и для подгрупп ("высокий", "низкий" уровень
и т.д.) по переменным для социальных групп. Это полезные и содер-
жательные сравнения.
На этом примере наглядно иллюстрируется полный набор требо-
ваний к процедуре формирования выборки, если необходима выбор-
ка из генеральной популяции - ее огромный объем и соответствую-
щаястратификация. Тотфакт, чтодажездесьприводятсяпоказатели
для подгрупп, говорит о том, что эти показатели могут использовать-
ся. Действительно, при рассмотрении индивидуального случая они
зачастую даже более полезны, чем общий групповой показатель.
Подбор испытуемых в рамках стратификационных групп должен
быть случайным.
ПРИМЕР 2. ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
ДЛЯ ТЕСТА КЭТТЕЛЛА 16PF
Cattell, Eber и Tatsuoka (1970) также утверждают, что соответст-
вующим образом стратифицированная выборка более эффективна,
при том же объеме, чем случайная (рандомизированная) выборка.
Основания для стратификации . (а) Социальное положение ,
(б) географическая область, (в) возраст и (г) горожанин или сельский
житель. Стандартизационная выборка отражала пропорции этих ка-
тегорий во всем населении. Фактически, были выделены 8 регионов
США, восемь уровней по плотности населения, пять возрастных
групп и семь групп по уровню доходов.
216
Общий объем выборки: 977. Это относительно небольшая выбор-
ка, хотя она и была тщательно стратифицирована. Ее небольшой
объем отражает наличие проблемы, связанной с нежеланием взрос-
лых испытуемых, не являющихся студентами, военнослужащими
или заключенными, сотрудничать с исследователями. Хотя общий
объем выборки взрослых испытуемых - 977 - является, благодаря
его соответствующей стратификации, вероятно адекватным, некото-
рые из подгрупп представляются слишком маленькими, чтобы их
результаты могли быть использованы. Например, в выборке только
тридцать обитателей горной местности, что не может считаться удов-
летворительным. Аналогично, для различных возрастных групп, в
которых только девяносто четыре испытуемых моложе 25 лет, выбор-
ки также являются слишком маленькими.
Выводы . На этом примере показана необходимость, если общая
группадолжна разуваться на подгруппы, формирования очень боль-
ших выборок. Действительно, если подмножества общей выборки не
являются достаточно большими, чтобы обеспечить надежность пока-
зателей, то адекватность всей выборки может быть поставлена под
сомнение. Когда мы сравниваем тест 16PF (который, между прочим,
является одним из наилучших тестов личности в отношении наличия
нормативных данных) с тестом Лордж-Торндайка, видно, что ничто
не избавляет от необходимости формирования очень больших выбо-
рок объемом в несколько тысяч.
Правила для общих норм
Исходя из изложенного, могут быть сформулированы несколько
общих правил получения норм для генеральной популяции.
(1) Выборка должна быть стратифицирована. Обычно адекватной
является стратификация на четыре уровня. Важными стратификаци-
онными переменными обычно являются социальное положение, воз-
раст и пол.
(2) В каждой подгруппе должно быть количество испытуемых,
достаточное, чтобы сформировать адекватную выборку, то есть как
минимум около 300.
Это неизбежно означает, что, с учетом всех возможных классифи-
каций, необходимо очень большое количество испытуемых, напри-
мер: 1 (социальное положение) х 2 (пол) х 5 (возраст) дает 40 кате-
горий по 300 испытуемых в каждой, что дает общее количество 12000
испытуемых. Как указывает пример теста Лордж-Торндайка, очень
мало шансов избежать такого большого количества испытуемых (а
это всего лишь минимум). Следовательно, обеспечение адекватных
норм для генеральной популяции требует огромных затрат ресурсов.
217
Нормы, полученные в менее масштабных исследованиях, как в слу-
чае теста Кэттелла 16PF, также полезны, но должны использоваться
с осторожностью.
По приведенной выше причине, а именно из-за необходимости в
огромных ресурсах, многие разработчики тестов указывают более
специфические нормы для групп, специально соответствующих ха-
рактеру и практическому применению теста.
ПРИМЕР 3: НОРМЫ ДЛЯ СПЕЦИАЛЬНЫХ ГРУПП - ШКАЛА
КОНСЕРВАТИЗМА
Эта шкала (Wilson и Patterson, 1970) представляет собой попытку
измерения догматизма или ригидности, рассматриваемой как важная
социальная установка (аттитюд), влияющая на значительные облас-
ти разнообразного поведения в реальной жизни, что подробно обсуж-
далось у Rokeach ( 1960). При использовании такой шкалы интерес
будут представлять показатели любой отдельной группы. Таким об-
разом, было получено большое количество различных норм. Напри-
мер, нормы были определены для университетских студентов из че-
тырех стран, студентов педагогического колледжа, школьниц, спе-
циалистов из Новой Зеландии, высококвалифицированных рабочих,
а также для разнородной группы мужчин. Однако, изучение количе-
ства испытуемых в каждой из этих групп показывает, что эти цифры
мало значимы. Наибольшей выборкой является группа из 340 ново-
зеландских специалистов, и трудно согласиться, что она могла бы
адекватно отражать такую разнообразную категорию лиц. Обследо-
ваны только пятьдесят студентов университетов из Великобритании.
Поскольку в Англии более сорока университетов и, принимая во
внимание большое количество дисциплин, изучаемых в университе-
тах, эта выборка не может выступать в качестве нормативных дан-
ных. Многие из выборок в данном исследовании настолько же беспо-
лезны: двадцать два инженера из технических лабораторий, двадцать
два служащих, тридцать бизнесменов,- ни одна из этих выборок не
может с уверенностью использоваться как нормативная группа.
Этот пример является наглядной иллюстрацией того, как нормы,
даже для опубликованных тестов, могут оказаться бесполезными.
Подбор групп является показательным, но если не используются
большие и стратифицированные выборки, то на результаты пола-
гаться нельзя. Обратите внимание, что все группы не могут быть
объединены, для получения значимых норм в генеральной популя-
ции. Использование норм для специфических групп требует больших
репрезентативных выборок из этих групп.
218
Формирование выборок для специфических групп
Для получения адекватных норм для специфических групп необ-
ходимо стратифицировать выборку по основной переменной, влияю-
щей на эти группы. На нескольких примерах будет показано, как это
делается в целом, хотя для выбора стратифицирующих переменных
необходимы значительные исследования конкретной группы.
УЧАЩИЕСЯ ШЕСТЫХ КЛАССОВ
Чтобы получить соответствующую выборку для учащихся шестых
классов, необходимо обеспечить ее адекватность. Так, основанием
для формирования выборки может быть подбор всех учащихся из
шестых классов. Для школ некоторыми основными стратифицирую-
щими переменными являются:
(1) Финансирование: публичная, частная, специализированная,
государственная школы. (Выяснено, что это разделение на категории
можно отбросить, но нашей целью является показать на примере
формирование выборок для получения норм).
(2) Пол: мальчики, девочки, смешанная группа.
(3) Географическое размещение: центр города, поселок, сельская
местность.
(4) Статус школы в системе образования: начальная, общеобразо-
вательная, колледж с шестилетним сроком обучения.
Будет трудно отобрать выборку, точно сбалансированную по всем
переменным (поскольку в центре города мало публичных школ), но,
тем не менее, выборка, отражающая пропорции каждой из школ в
общей популяции, даже если было по две школы на категорию, дол-
жна была бы дать адекватные нормы. Автор настоящей книги при
разработке теста Ai3Q (Kline, 1971) использовал такую выборку уча-
щихся шестых классов школ севера Англии, в которой оказалось по
1000 мальчиков и 1000 девочек из двадцати восьми школ. Даже для
такого исследования понадобились большие ресурсы. Стоит отме-
тить, что мы были не в состоянии обеспечить какие-либо другие
нормативные группы. Ресурсы времени, денег и персонала были не-
достаточными.
ПРИМЕР 4: ОПРОСНИК МАЙЕРС-БРИГГС (МВТ1) - СПЕ-
ЦИФИЧЕСКИЕ НОРМЫ
Myers-Briggs Type Indicator (МВТ1) (Myers-Briggs, 1962), разра-
ботанный для классификации испытуемых по типологии К. Г. Юнга,
имеет обширные нормативные группы, некоторые из которых удов-
летворяют строгим критериям адекватной нормализации; строгим,
потому что на основании этих норм осуществляется имеющая реша-
249
ющее значение интерпретация. Например, существует выборка Реп-
па: соответствующим образом сформированная выборка из учащихся
одиннадцатого и двенадцатого классов - 3503 мальчика и 2511 дево-
чек из двадцати семи школ. Это может составить надежную норма-
тивную группу. Аналогично этому, есть также выборка из 4562 сту-
дентов гуманитарных и естественно-научных факультетов восьми
университетов, имевших среди университетов высокий рейтинг по
уровню подготовки абитуриентов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
нашей психометрической модели доказательство конструктной ва-
лидности предполагает демонстрирование того, что генеральная со-
вокупность заданий, из которой отобраны задания для данного теста,
является фактически такой, как мы и надеялись.
Выводы
Очевидно, что, в отличие от надежности и дискриминативности,
валидность теста не может быть представлена просто в виде одного
коэффициента. Вместо этого валидность теста устанавливается сери-
ями результатов, вид которых обсуждался выше в различных проце-
дурах. Если следовать процедурам, описанным в предыдущих разде-
лах, то результаты исследований не могут быть опровергнуты с точки
зрения методологии. Однако, в исследованиях валидности все зави-
сит от психологических знаний и проницательности разработчика
212
тестов. Так, тесты, подвергнутые исследованию конкурентной ва-
лидности, могут как пройти, так и не пройти эту проверку, если даже
она будет выполнена в соответствии с хорошо обоснованной методи-
кой. Аналогично, для локализации в факторном пространстве требу-
ется, чтобы в исследование были включены соответствующие пара-
метры этого пространства. Если это не так, то несмотря на тщатель-
ное выполнение процедуры, конструктная валидность показана не
будет.
Хотя доказательство валидности является в некоторой степени
субъективным, серьезные разногласия возникают редко. Это проис-
ходит потому, что если переменная понимается соответствующим
образом, то в большинстве случаев не возникает сомнений, с какими
другими переменными она будет или не будет коррелировать, какое
место она займет в факторном пространстве и какие группы проде-
монстрируют по ней хорошие показатели, а какие нет. Когда же
переменная не понятна, вопрос о валидности не поднимается. В про-
тивном случае, изучение валидности превращается в эксперимен-
тально-описательные исследования, которыми и определяется пере-
менная.
Глава 8. Стандартизация тестов
В главе 1 было показано, что одно из преимуществ, которыми
обладают психологические тесты по сравнению с другими видами
измерений, - это то, что они стандартизованы. Следовательно, воз-
можно сравнение показателя некоторого испытуемого с таковыми в
генеральной совокупности или других релевантных группах, что в
конечном счете дает возможность адекватной интерпретации пол-
ученного показателя.
Из сказанного следует, что стандартизация тестов наиболее важ-
на в тех случаях, когда осуществляется явное или неявное сравнение
показателей испытуемых, как, например, при профориентации или
отборе в целях обучения. Нормы также могут быть полезны и в
крупномасштабных скрининговых исследованиях. При использова-
нии психологических тестов в научном исследовании свойств чело-
века - в психометрии индивидуальных различий - нормы не столь
важны. В этом случае удовлетворительными являются и непосредст-
венные, не подвергнутые обработке ("сырые") показатели теста. По-
скольку указание норм обычно обязательно для тестов способностей,
наше обсуждение того, как следует проводить стандартизацию теста,
будет касаться, в основном, этой категории тестов.
Стандартизация выборки
Это определяющий аспект стандартизации: все зависит от выбор-
ки. При формировании выборки следует учитывать две важные пере-
менные: объем и репрезентативность выборки. Выборка должна точ-
но отражать категорию лиц, для которых предназначен тест (конеч-
но, может быть несколько таких категорий и, следовательно, и не-
сколько выборок), а также быть достаточной большой для обеспече-
ния столь малой стандартной погрешности нормативных данных,
чтобы ею можно было пренебречь.
Объем выборки
Для простого уменьшения значения стандартной погрешности
вполне адекватной будет выборка из 500 испытуемых. Однако, ре-
презентативность выборки не зависит от ее объема. При получении
нормы для общей популяции, например, детей школьного возраста,
необходима выборка объемом около 10 000 испытуемых. Выборка из
столь ограниченной популяции, как укротители львов или факиры,
конечно, не должна быть столь большой. Таким образом, нельзя
сделать никакого утверждения относительно объема выборки безот-
носительно той популяции (категории лиц), из которой она подбира-
214
ется. И здесь проясняется тот момент, что репрезентативность выбор-
ки является более важной, чем ее размер. Маленькая, но репрезен-
тативная нормативная выборка будет предпочтительнее, чем боль-
шая, но неравномерно представленная. Некоторые примеры, взятые
из реальных тестов, позволят показать очевидность этого замечания,
и также помогут указать разработчикам тестов наилучшие методы
получения стандартизационных выборок.
Получение репрезентативной нормативной выборки
Ясно, что наиболее неоднородной популяцией является генераль-
ная популяция (все население), а все остальные являются ее подмно-
жествами. По этой причине получить выборку заданного, определен-
ного качества из генеральной популяции - наиболее трудная задача.
В первом примере показана известная попытка сделать это - стан-
дартизация теста интеллекта Лордж-Торндайка (Lorge-Thorndike
Intelligence Test) (Lorge и Thorndike, 1957) для детей.
ПРИМЕР 1: ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ ПОПУЛЯЦИИ ДЛЯ
ТЕСТА ЛОРДЖ-ТОРНДАЙКА
Так как нормы теста способностей должны быть связаны с возра-
стом, мы будем рассматривать выборки для каждой возрастной груп-
пы.
Возрастные группы> Было выделено двенадцать возрастных
групп, от 6 лет до 17 лет. Это удовлетворительное разделение на
возрастные группы, хотя разделение с интервалом в шесть или даже
в три месяца было бы, вероятно, предпочтительнее. Общее количест-
во испытуемых было 136 000, то есть более, чем 11 000 на каждую
возрастную группу. Очевидно, что статистическая выборочная по-
грешность должна быть практически нулевой.
Репрезентативность выборки. Чтобы устранить неравномерную
представленность, была взята стратифицированная выборка из раз-
ных социальных групп, а основой для стратификации послужили
факторы, которые наиболее связаны с уровнем интеллекта: (1) про-
цент грамотного взрослого населения; (2) пропорция профессиональ-
ных рабочих в популяции; (3) процент домовладельцев и (4) среднее
количество снимающих жилье. Каждая социальная группа была за-
тем классифицирована по этим четырем переменным на "очень вы-
сокий", "высокий", "средний", "низкий" и "очень низкий" уровни.
Затем были протестированы все учащиеся каждого уровня в каждой
социальной группе, и для каждого из этих уровней в каждой группе
были получены отдельные нормы. Фактически, общее количество
испытуемых было вычислено для сорока четырех социальных групп
США.
Должно быть очевидным, что эти процедуры формирования вы-
борки должны дать такую выборку, которая очень точно отражает
генеральную популяцию для каждой группы. Однако, должно быть в
равной степени очевидно, что для формирования выборки таким
способом необходимы огромные ресурсы. Исследование Лордж-Тор-
ндайка показывает, каким должен быть полный объем выборки, не-
обходимый для адекватной нормализации, и громадный объем адми-
нистративных расходов, требующихся для проведения такого обшир-
ного тестирования. Этот пример также ясно иллюстрирует, как дол-
жно выполняться полностью адекватное формирование выборки. Об-
ратите внимание на основу стратификации: для нее были взяты пе-
ременные, имеющие отношение к измеряемой переменной. При ус-
тановлении норм для измерения тревожности может вполне оказать-
ся, что выборка будет стратифицирована по другим переменным.
Заметьте также, что нормы получены не только для каждой возраст-
ной группы в целом, но и для подгрупп ("высокий", "низкий" уровень
и т.д.) по переменным для социальных групп. Это полезные и содер-
жательные сравнения.
На этом примере наглядно иллюстрируется полный набор требо-
ваний к процедуре формирования выборки, если необходима выбор-
ка из генеральной популяции - ее огромный объем и соответствую-
щаястратификация. Тотфакт, чтодажездесьприводятсяпоказатели
для подгрупп, говорит о том, что эти показатели могут использовать-
ся. Действительно, при рассмотрении индивидуального случая они
зачастую даже более полезны, чем общий групповой показатель.
Подбор испытуемых в рамках стратификационных групп должен
быть случайным.
ПРИМЕР 2. ВЫБОРКА ИЗ ГЕНЕРАЛЬНОЙ СОВОКУПНОСТИ
ДЛЯ ТЕСТА КЭТТЕЛЛА 16PF
Cattell, Eber и Tatsuoka (1970) также утверждают, что соответст-
вующим образом стратифицированная выборка более эффективна,
при том же объеме, чем случайная (рандомизированная) выборка.
Основания для стратификации . (а) Социальное положение ,
(б) географическая область, (в) возраст и (г) горожанин или сельский
житель. Стандартизационная выборка отражала пропорции этих ка-
тегорий во всем населении. Фактически, были выделены 8 регионов
США, восемь уровней по плотности населения, пять возрастных
групп и семь групп по уровню доходов.
216
Общий объем выборки: 977. Это относительно небольшая выбор-
ка, хотя она и была тщательно стратифицирована. Ее небольшой
объем отражает наличие проблемы, связанной с нежеланием взрос-
лых испытуемых, не являющихся студентами, военнослужащими
или заключенными, сотрудничать с исследователями. Хотя общий
объем выборки взрослых испытуемых - 977 - является, благодаря
его соответствующей стратификации, вероятно адекватным, некото-
рые из подгрупп представляются слишком маленькими, чтобы их
результаты могли быть использованы. Например, в выборке только
тридцать обитателей горной местности, что не может считаться удов-
летворительным. Аналогично, для различных возрастных групп, в
которых только девяносто четыре испытуемых моложе 25 лет, выбор-
ки также являются слишком маленькими.
Выводы . На этом примере показана необходимость, если общая
группадолжна разуваться на подгруппы, формирования очень боль-
ших выборок. Действительно, если подмножества общей выборки не
являются достаточно большими, чтобы обеспечить надежность пока-
зателей, то адекватность всей выборки может быть поставлена под
сомнение. Когда мы сравниваем тест 16PF (который, между прочим,
является одним из наилучших тестов личности в отношении наличия
нормативных данных) с тестом Лордж-Торндайка, видно, что ничто
не избавляет от необходимости формирования очень больших выбо-
рок объемом в несколько тысяч.
Правила для общих норм
Исходя из изложенного, могут быть сформулированы несколько
общих правил получения норм для генеральной популяции.
(1) Выборка должна быть стратифицирована. Обычно адекватной
является стратификация на четыре уровня. Важными стратификаци-
онными переменными обычно являются социальное положение, воз-
раст и пол.
(2) В каждой подгруппе должно быть количество испытуемых,
достаточное, чтобы сформировать адекватную выборку, то есть как
минимум около 300.
Это неизбежно означает, что, с учетом всех возможных классифи-
каций, необходимо очень большое количество испытуемых, напри-
мер: 1 (социальное положение) х 2 (пол) х 5 (возраст) дает 40 кате-
горий по 300 испытуемых в каждой, что дает общее количество 12000
испытуемых. Как указывает пример теста Лордж-Торндайка, очень
мало шансов избежать такого большого количества испытуемых (а
это всего лишь минимум). Следовательно, обеспечение адекватных
норм для генеральной популяции требует огромных затрат ресурсов.
217
Нормы, полученные в менее масштабных исследованиях, как в слу-
чае теста Кэттелла 16PF, также полезны, но должны использоваться
с осторожностью.
По приведенной выше причине, а именно из-за необходимости в
огромных ресурсах, многие разработчики тестов указывают более
специфические нормы для групп, специально соответствующих ха-
рактеру и практическому применению теста.
ПРИМЕР 3: НОРМЫ ДЛЯ СПЕЦИАЛЬНЫХ ГРУПП - ШКАЛА
КОНСЕРВАТИЗМА
Эта шкала (Wilson и Patterson, 1970) представляет собой попытку
измерения догматизма или ригидности, рассматриваемой как важная
социальная установка (аттитюд), влияющая на значительные облас-
ти разнообразного поведения в реальной жизни, что подробно обсуж-
далось у Rokeach ( 1960). При использовании такой шкалы интерес
будут представлять показатели любой отдельной группы. Таким об-
разом, было получено большое количество различных норм. Напри-
мер, нормы были определены для университетских студентов из че-
тырех стран, студентов педагогического колледжа, школьниц, спе-
циалистов из Новой Зеландии, высококвалифицированных рабочих,
а также для разнородной группы мужчин. Однако, изучение количе-
ства испытуемых в каждой из этих групп показывает, что эти цифры
мало значимы. Наибольшей выборкой является группа из 340 ново-
зеландских специалистов, и трудно согласиться, что она могла бы
адекватно отражать такую разнообразную категорию лиц. Обследо-
ваны только пятьдесят студентов университетов из Великобритании.
Поскольку в Англии более сорока университетов и, принимая во
внимание большое количество дисциплин, изучаемых в университе-
тах, эта выборка не может выступать в качестве нормативных дан-
ных. Многие из выборок в данном исследовании настолько же беспо-
лезны: двадцать два инженера из технических лабораторий, двадцать
два служащих, тридцать бизнесменов,- ни одна из этих выборок не
может с уверенностью использоваться как нормативная группа.
Этот пример является наглядной иллюстрацией того, как нормы,
даже для опубликованных тестов, могут оказаться бесполезными.
Подбор групп является показательным, но если не используются
большие и стратифицированные выборки, то на результаты пола-
гаться нельзя. Обратите внимание, что все группы не могут быть
объединены, для получения значимых норм в генеральной популя-
ции. Использование норм для специфических групп требует больших
репрезентативных выборок из этих групп.
218
Формирование выборок для специфических групп
Для получения адекватных норм для специфических групп необ-
ходимо стратифицировать выборку по основной переменной, влияю-
щей на эти группы. На нескольких примерах будет показано, как это
делается в целом, хотя для выбора стратифицирующих переменных
необходимы значительные исследования конкретной группы.
УЧАЩИЕСЯ ШЕСТЫХ КЛАССОВ
Чтобы получить соответствующую выборку для учащихся шестых
классов, необходимо обеспечить ее адекватность. Так, основанием
для формирования выборки может быть подбор всех учащихся из
шестых классов. Для школ некоторыми основными стратифицирую-
щими переменными являются:
(1) Финансирование: публичная, частная, специализированная,
государственная школы. (Выяснено, что это разделение на категории
можно отбросить, но нашей целью является показать на примере
формирование выборок для получения норм).
(2) Пол: мальчики, девочки, смешанная группа.
(3) Географическое размещение: центр города, поселок, сельская
местность.
(4) Статус школы в системе образования: начальная, общеобразо-
вательная, колледж с шестилетним сроком обучения.
Будет трудно отобрать выборку, точно сбалансированную по всем
переменным (поскольку в центре города мало публичных школ), но,
тем не менее, выборка, отражающая пропорции каждой из школ в
общей популяции, даже если было по две школы на категорию, дол-
жна была бы дать адекватные нормы. Автор настоящей книги при
разработке теста Ai3Q (Kline, 1971) использовал такую выборку уча-
щихся шестых классов школ севера Англии, в которой оказалось по
1000 мальчиков и 1000 девочек из двадцати восьми школ. Даже для
такого исследования понадобились большие ресурсы. Стоит отме-
тить, что мы были не в состоянии обеспечить какие-либо другие
нормативные группы. Ресурсы времени, денег и персонала были не-
достаточными.
ПРИМЕР 4: ОПРОСНИК МАЙЕРС-БРИГГС (МВТ1) - СПЕ-
ЦИФИЧЕСКИЕ НОРМЫ
Myers-Briggs Type Indicator (МВТ1) (Myers-Briggs, 1962), разра-
ботанный для классификации испытуемых по типологии К. Г. Юнга,
имеет обширные нормативные группы, некоторые из которых удов-
летворяют строгим критериям адекватной нормализации; строгим,
потому что на основании этих норм осуществляется имеющая реша-
249
ющее значение интерпретация. Например, существует выборка Реп-
па: соответствующим образом сформированная выборка из учащихся
одиннадцатого и двенадцатого классов - 3503 мальчика и 2511 дево-
чек из двадцати семи школ. Это может составить надежную норма-
тивную группу. Аналогично этому, есть также выборка из 4562 сту-
дентов гуманитарных и естественно-научных факультетов восьми
университетов, имевших среди университетов высокий рейтинг по
уровню подготовки абитуриентов.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39