Психологическое тестирование
А.АНАСТАЗИПСИХОЛОГИЧЕСКОЕТЕСТИРОВАНИЕКНИГА 1 МОСКВАПЕДАГОГИКА- 1982Рекомендовано бюро Отделения психологиии возрастной фи-яюлогии АПН СССРНаучная редакция, предисловиеи комментарии доктора психологических наук,профессора К. М. Гуревича и доктора психологических наук,профессора В. И. Л лионскогоАнястяш А. Психологическое тестирование: Книга 1; Пер.с англ./Под ред. К. М. Гуревича, В.И.Лубовского;Предисл. К.М. Гуревича, В. И. Лубовского.-М.: Пе-дагогика, 1982.-320 с" ил.Пер. 2 р. 10к.способы их оценил и пришла примснепия, описынаюгся вей важнейшие современныесистемы тестов. Для псшолотов. дефск гологов. недаготов.ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДА Книгу Анны Анастази можно было бы назвать энциклопедией запад-ной тестологии. За рубежом опубликовано немало руководств по приме-нению тестов и других диагностических методик. Среди них есть книгисерьезных специалистов, которые не уходят от современных проблемпсихологической диагностики и стремятся отразить то новое, что про-изошло в этой области за последние годы. Но выбор для перевода нарусский язык именно книги А. Анастази был отнюдь не случайным. Анна Анастази, профессор университета Фордхама (Нью-Йорк,США), уже знакома научной общественности нашей страны. Еще в 60-егг. в подробном критическом разборе книги А. Анастази Б. М. Теплов(А. Анастази . Конспекты и коммента-рии к книге.-В кн.: Проблемы дифференциальной психофизиологии. М.,1966, т. VI) отмечал сходство ее трактовок роли социального факторав образовании индивидуальных различий с концепциями советскихученых. Б. М. Теплов писал также о присущей А. Анастази научнойобъективности и осторожности, чертах, которые особенно необходимыавтору, излагающему и оценивающему выполненные с разными целямиэмпирические исследования. Следует упомянуть и о том, что настоящая книга вышла в США ужепятым изданием. Каждое переиздание автор пополняет новыми материа-лами, сообщает о происшедших принципиальных изменениях в трактов-ке опубликованных тестов и, насколько это возможно, предоставляетполную информацию о накопленных к моменту очередной публикациифактах. Вряд ли вызовет сомнение, что книга по тестологии действитель-но нужна, и нужна не только узкому кругу специалистов, но и нашей об-щественности. Как известно, сфера оценок индивидуальных и групповыхразличий обширна. Так, в общеобразовательной школе некоторые видыметодик могут применяться для диагностики различных аномалий пси-хического развития, уточнения их этиологии. Результаты сопоставленийпоказателей по тестам и школьной успеваемости дают психологам и пе-дагогам полезный материал для суждения об учащихся и школьных кол-лективах. Методики психологической диагностики применяют и при кон-сультировании по вопросам профессиональной ориентации. Вне школытакие методики могут использоваться при наблюдениях за развитиемспособностей в учебно-профессиональной и собственно профессиональ-ной деятельности. Недостаточная информированность о состоянии дел в любой отрас-ли науки нередко влечет за собой неправильное представление о ее воз-можностях и перспективах развития. Одним из нежелательных послед-ствий применения методик психологической диагностики нужно считатьнекую абсолютизацию получаемых с их помощью данных. Неквалифи-цированному пользователю результатов тестирования кажется, без вся-ких на то оснований, будто тестовые показатели испытуемого имеют аб-солютное значение и окончательно определяют всю его будущуюдеятельность, как бы предсказывая учебные и профессиональные успехи.Познакомившись с книгой А. Анастази, читатель увидит, насколько та-кая абсолютизация неверна. Мы назвали эту книгу энциклопедией тестологии. Действительно,в этом убеждает даже простой перечень проблематики ее глав. Главыпервых двух частей книги посвящены общим вопросам тестирования:часть 1 -содержательной стороне современной тестологии (особый инте-6 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАаспектах тестирования); часть 2-основным принципам построения те-стов (в ее главах обсуждаются нормы, надежность, валидность теста). В последних трех частях книги рассматриваются типы тестов:в третьей-тесты общего интеллектуального развития; в четвертой-тесты способностей (в том числе комплексные батареи способностей,тесты, используемые в образовании, профессиональном ориентировании,клинике); в пятой-методики изучения личности. Правда, в пониманииличности А. Анастази придерживается традиции западной психологии неразделять понятия личность и индивидуальность, поэтому читателю сле-дует иметь в виду, что под проблемами изучения личности в книге в ос-новном понимаются проблемы исследования индивидуальности. Из пяти приложений, которые завершают книгу, на русский языкпереведены только . Остальныеприложения не вошли в предлагаемое вниманию читателя издание из-заих ориентированности на американскую аудиторию: в одном из них при-водятся законодательные акты США, относящиеся к тестированию, про-водимому при приеме на работу, три других содержат списки опублико-ванных тестов и их издателей, а также принятые Американскойпсихологической ассоциацией . Вводя чита-теля в мир книги А. Анастази, невозможно оставить без рассмотрениясовременное состояние психологической диагностики. А это, в свою оче-редь, потребует хотя бы краткого обращения к ее истории. Но без этогоне обойтись, поскольку прошлое передает современности свои традиции.Зная же прошлое и настоящее, мы сможем увидеть пути становления на-уки, а значит, увидеть ее будущее. А. Анастази совершенно правильно отмечает, что первые опытыдифференциального изучения психики были вызваны необходимостьюразличить душевно больных, умственно отсталых и психически нор-мальных людей. Такое различение требовало уточнения понятия нормы. Начав с опытов по установлению объективных различий между нор-мой и теми или иными видами отклонений от нее, психологи, посвятив-шие себя диагностике, создали разнообразные психолого-диагностиче-ские методики, в том числе и тесты. По мере накопления опытавырабатывались критерии, которым должны удовлетворять такие мето-дики. Психологи-диагносты стремились задать в своей области исследо-вания строгие правила, предусматривающие объективность всех обяза-тельных процедур-подготовки методик, их проведения, обработки,принятия решения по полученным результатам. Одна из задач, которую если не прямо, то неявно пытались осуще-ствить психологи-диагносты, состояла в том, чтобы при помощи тести-рования ввести в психологию число и меру и посредством этих катего-рий обогатить свою науку однозначными по своим результатамматематическими методами. По мере того как психологическая диагно-стика продвигалась по пути внедрения средств количественной обработ-ки своих данных, привлекая с этой целью все более и более сложные ме-тоды, стали возникать другие, хотя и замечавшиеся, но не получившиедолжной оценки трудности. Формализуя диагностику, тестологи посте-пенно теряли связь с психологией. Становилось неясным, на что именнонаправлены столь рафинированные методики. Если же говорить об обстоятельствах, способствовавших расцветупсихологической диагностики, в частности тестирования, то определяю-щим стала ее возросшая роль в жизни общества т>—7 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАохвачены десятки миллионов людей. В некоторых странах, прежде всегов США, тестирование на определенное время стало неотъемлемойчастью жизни общества. Связано ли распространение тестирования с ка-кими-нибудь новыми открытиями в психологии, в познании законов че-ловеческой психики? Если сравнить тесты конце 50-х гг. с разработанны-ми в самом начале века тестами А. Бине, то следует признать, что былиполучены более строгие критерии оценки, открывшие тестам дорогу дляширокого использования; начали также применяться различные и подчасдовольно сложные математические способы обработки данных. Однаковсе эти изменения нельзя считать существенными: в принципе тестирова-ние осталось тем же, каким оно было в начале века. Об этом неплохосказал известный тестолог Л. Кронбах: (Cronbach L.J. Essentials of Psychological Testing. N.Y.-L., 1960, p. 650).Тесты тем не менее приобрели столь важное общественное значение, чтопо поводу их применения имеются специальные решения государ-ственных учреждений, в частности комиссии конгресса США. Причину распространения тестирования нужно искать не в том, чтотестология теоретически обогатилась, причина-в тех социальных по-следствиях, к которым приводит тестирование. Тесты принято восприни-мать как объективный инструмент измерения или качественного опреде-ления человеческих особенностей, таких, как интеллект, специальныеспособности, без которых нельзя овладеть профессиональными знаниямии навыками. Но так ли это? Тест-измерительный инструмент, но ин-струмент особый, непохожий на другие измерительные приборы. Заданиятеста составляются, или строятся, на определенном материале, для боль-шинства тестов вербальном (термины, слова и т.п.). Ничего не меняети использование в тесте графического материала: картинок, рисунков,схем и т. д. Любой материал, на котором построен тест, воспринимаетсяразными социальными группами по-разному, так как эти группы могутразличаться и родом своей деятельности, и содержанием общения. В соответствии с образом жизни окружения и своей деятельностьюиндивиды из различных социальных слоев по-разному активизируютконкретные семантические связи. Даже замечаемые при восприятии гра-фического материала детали могут оцениваться неодинаково. Поэтому-то выполнение заданий одного и того же теста для представителей техили иных социальных слоев связано с решением разных проблем. Обэтом может догадаться и неспециалист, и уж никак не может игнориро-вать психолог. Имеет значение и процесс адаптации к процедуре тести-рования. Чем меньше испытуемый учился в школе, чем больше временипрошло после окончания обучения, тем труднее индивиду освоиться с те-стовой ситуацией, и наоборот. Из приведенных, по-видимому, не слишком сложных соображенийследует, что тесты обладают способностью дифференцировать испы-туемых в зависимости от степени их владения материалом, на которомстроится тест. Психологическая методика прежде всего выполняет функ-ции социального фильтра:1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90
Здесь выложена электронная книга Психологическое тестирование автора по имени Анастази А.. На этой вкладке сайта web-lit.net вы можете скачать бесплатно или прочитать онлайн электронную книгу Анастази А. — Психологическое тестирование.
Размер архива с книгой Психологическое тестирование равняется 347.27 KB
Психологическое тестирование — Анастази А. => скачать бесплатную электронную книгу
А.АНАСТАЗИПСИХОЛОГИЧЕСКОЕТЕСТИРОВАНИЕКНИГА 1 МОСКВАПЕДАГОГИКА- 1982Рекомендовано бюро Отделения психологиии возрастной фи-яюлогии АПН СССРНаучная редакция, предисловиеи комментарии доктора психологических наук,профессора К. М. Гуревича и доктора психологических наук,профессора В. И. Л лионскогоАнястяш А. Психологическое тестирование: Книга 1; Пер.с англ./Под ред. К. М. Гуревича, В.И.Лубовского;Предисл. К.М. Гуревича, В. И. Лубовского.-М.: Пе-дагогика, 1982.-320 с" ил.Пер. 2 р. 10к.способы их оценил и пришла примснепия, описынаюгся вей важнейшие современныесистемы тестов. Для псшолотов. дефск гологов. недаготов.ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДА Книгу Анны Анастази можно было бы назвать энциклопедией запад-ной тестологии. За рубежом опубликовано немало руководств по приме-нению тестов и других диагностических методик. Среди них есть книгисерьезных специалистов, которые не уходят от современных проблемпсихологической диагностики и стремятся отразить то новое, что про-изошло в этой области за последние годы. Но выбор для перевода нарусский язык именно книги А. Анастази был отнюдь не случайным. Анна Анастази, профессор университета Фордхама (Нью-Йорк,США), уже знакома научной общественности нашей страны. Еще в 60-егг. в подробном критическом разборе книги А. Анастази Б. М. Теплов(А. Анастази . Конспекты и коммента-рии к книге.-В кн.: Проблемы дифференциальной психофизиологии. М.,1966, т. VI) отмечал сходство ее трактовок роли социального факторав образовании индивидуальных различий с концепциями советскихученых. Б. М. Теплов писал также о присущей А. Анастази научнойобъективности и осторожности, чертах, которые особенно необходимыавтору, излагающему и оценивающему выполненные с разными целямиэмпирические исследования. Следует упомянуть и о том, что настоящая книга вышла в США ужепятым изданием. Каждое переиздание автор пополняет новыми материа-лами, сообщает о происшедших принципиальных изменениях в трактов-ке опубликованных тестов и, насколько это возможно, предоставляетполную информацию о накопленных к моменту очередной публикациифактах. Вряд ли вызовет сомнение, что книга по тестологии действитель-но нужна, и нужна не только узкому кругу специалистов, но и нашей об-щественности. Как известно, сфера оценок индивидуальных и групповыхразличий обширна. Так, в общеобразовательной школе некоторые видыметодик могут применяться для диагностики различных аномалий пси-хического развития, уточнения их этиологии. Результаты сопоставленийпоказателей по тестам и школьной успеваемости дают психологам и пе-дагогам полезный материал для суждения об учащихся и школьных кол-лективах. Методики психологической диагностики применяют и при кон-сультировании по вопросам профессиональной ориентации. Вне школытакие методики могут использоваться при наблюдениях за развитиемспособностей в учебно-профессиональной и собственно профессиональ-ной деятельности. Недостаточная информированность о состоянии дел в любой отрас-ли науки нередко влечет за собой неправильное представление о ее воз-можностях и перспективах развития. Одним из нежелательных послед-ствий применения методик психологической диагностики нужно считатьнекую абсолютизацию получаемых с их помощью данных. Неквалифи-цированному пользователю результатов тестирования кажется, без вся-ких на то оснований, будто тестовые показатели испытуемого имеют аб-солютное значение и окончательно определяют всю его будущуюдеятельность, как бы предсказывая учебные и профессиональные успехи.Познакомившись с книгой А. Анастази, читатель увидит, насколько та-кая абсолютизация неверна. Мы назвали эту книгу энциклопедией тестологии. Действительно,в этом убеждает даже простой перечень проблематики ее глав. Главыпервых двух частей книги посвящены общим вопросам тестирования:часть 1 -содержательной стороне современной тестологии (особый инте-6 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАаспектах тестирования); часть 2-основным принципам построения те-стов (в ее главах обсуждаются нормы, надежность, валидность теста). В последних трех частях книги рассматриваются типы тестов:в третьей-тесты общего интеллектуального развития; в четвертой-тесты способностей (в том числе комплексные батареи способностей,тесты, используемые в образовании, профессиональном ориентировании,клинике); в пятой-методики изучения личности. Правда, в пониманииличности А. Анастази придерживается традиции западной психологии неразделять понятия личность и индивидуальность, поэтому читателю сле-дует иметь в виду, что под проблемами изучения личности в книге в ос-новном понимаются проблемы исследования индивидуальности. Из пяти приложений, которые завершают книгу, на русский языкпереведены только . Остальныеприложения не вошли в предлагаемое вниманию читателя издание из-заих ориентированности на американскую аудиторию: в одном из них при-водятся законодательные акты США, относящиеся к тестированию, про-водимому при приеме на работу, три других содержат списки опублико-ванных тестов и их издателей, а также принятые Американскойпсихологической ассоциацией . Вводя чита-теля в мир книги А. Анастази, невозможно оставить без рассмотрениясовременное состояние психологической диагностики. А это, в свою оче-редь, потребует хотя бы краткого обращения к ее истории. Но без этогоне обойтись, поскольку прошлое передает современности свои традиции.Зная же прошлое и настоящее, мы сможем увидеть пути становления на-уки, а значит, увидеть ее будущее. А. Анастази совершенно правильно отмечает, что первые опытыдифференциального изучения психики были вызваны необходимостьюразличить душевно больных, умственно отсталых и психически нор-мальных людей. Такое различение требовало уточнения понятия нормы. Начав с опытов по установлению объективных различий между нор-мой и теми или иными видами отклонений от нее, психологи, посвятив-шие себя диагностике, создали разнообразные психолого-диагностиче-ские методики, в том числе и тесты. По мере накопления опытавырабатывались критерии, которым должны удовлетворять такие мето-дики. Психологи-диагносты стремились задать в своей области исследо-вания строгие правила, предусматривающие объективность всех обяза-тельных процедур-подготовки методик, их проведения, обработки,принятия решения по полученным результатам. Одна из задач, которую если не прямо, то неявно пытались осуще-ствить психологи-диагносты, состояла в том, чтобы при помощи тести-рования ввести в психологию число и меру и посредством этих катего-рий обогатить свою науку однозначными по своим результатамматематическими методами. По мере того как психологическая диагно-стика продвигалась по пути внедрения средств количественной обработ-ки своих данных, привлекая с этой целью все более и более сложные ме-тоды, стали возникать другие, хотя и замечавшиеся, но не получившиедолжной оценки трудности. Формализуя диагностику, тестологи посте-пенно теряли связь с психологией. Становилось неясным, на что именнонаправлены столь рафинированные методики. Если же говорить об обстоятельствах, способствовавших расцветупсихологической диагностики, в частности тестирования, то определяю-щим стала ее возросшая роль в жизни общества т>—7 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАохвачены десятки миллионов людей. В некоторых странах, прежде всегов США, тестирование на определенное время стало неотъемлемойчастью жизни общества. Связано ли распространение тестирования с ка-кими-нибудь новыми открытиями в психологии, в познании законов че-ловеческой психики? Если сравнить тесты конце 50-х гг. с разработанны-ми в самом начале века тестами А. Бине, то следует признать, что былиполучены более строгие критерии оценки, открывшие тестам дорогу дляширокого использования; начали также применяться различные и подчасдовольно сложные математические способы обработки данных. Однаковсе эти изменения нельзя считать существенными: в принципе тестирова-ние осталось тем же, каким оно было в начале века. Об этом неплохосказал известный тестолог Л. Кронбах: (Cronbach L.J. Essentials of Psychological Testing. N.Y.-L., 1960, p. 650).Тесты тем не менее приобрели столь важное общественное значение, чтопо поводу их применения имеются специальные решения государ-ственных учреждений, в частности комиссии конгресса США. Причину распространения тестирования нужно искать не в том, чтотестология теоретически обогатилась, причина-в тех социальных по-следствиях, к которым приводит тестирование. Тесты принято восприни-мать как объективный инструмент измерения или качественного опреде-ления человеческих особенностей, таких, как интеллект, специальныеспособности, без которых нельзя овладеть профессиональными знаниямии навыками. Но так ли это? Тест-измерительный инструмент, но ин-струмент особый, непохожий на другие измерительные приборы. Заданиятеста составляются, или строятся, на определенном материале, для боль-шинства тестов вербальном (термины, слова и т.п.). Ничего не меняети использование в тесте графического материала: картинок, рисунков,схем и т. д. Любой материал, на котором построен тест, воспринимаетсяразными социальными группами по-разному, так как эти группы могутразличаться и родом своей деятельности, и содержанием общения. В соответствии с образом жизни окружения и своей деятельностьюиндивиды из различных социальных слоев по-разному активизируютконкретные семантические связи. Даже замечаемые при восприятии гра-фического материала детали могут оцениваться неодинаково. Поэтому-то выполнение заданий одного и того же теста для представителей техили иных социальных слоев связано с решением разных проблем. Обэтом может догадаться и неспециалист, и уж никак не может игнориро-вать психолог. Имеет значение и процесс адаптации к процедуре тести-рования. Чем меньше испытуемый учился в школе, чем больше временипрошло после окончания обучения, тем труднее индивиду освоиться с те-стовой ситуацией, и наоборот. Из приведенных, по-видимому, не слишком сложных соображенийследует, что тесты обладают способностью дифференцировать испы-туемых в зависимости от степени их владения материалом, на которомстроится тест. Психологическая методика прежде всего выполняет функ-ции социального фильтра: через тест не сумеет пройти индивид, чьемуопыту чужды слова, термины, рисунки, графические изображения и тесвязи (обычно логического характера), которые по замыслу создателя те-Н ПРЕДИСЛОВИЕ РЕДАКТОГОВ ПЕРЕВОДА До некоторой степени несходство в знаниях и навыках нивелируетсяшкольным обучением. Правда, следует учесть, что формально одини тот же тип учебного заведения может давать существенно различнуюподготовку, поскольку социальная среда, в которой действует школа,сказывается на характере преподавания. Вопрос о правильной оценке результатов испытуемого при тестиро-вании следует отнести к числу важнейших. Допустим, что индивид прииспытаниях выполнил какую-то часть заданий предложенного ему теста.Первоначальная обработка проста: имеется лист с правильными ответа-ми, сравнив ответы испытуемого с тем, что проставлено в этом листе,можно определить, какие задания выполнены правильно. В итоге полу-чается так называемый первичный результат. Чтобы перевести егов стандартизованный показатель, нужно располагать данными, которыеполучены на репрезентативной выборке той популяции, к которой при-надлежит испытуемый. В этой связи возникают немалые трудности.В практике тестирования США репрезентативная выборка составляетсяпутем включения в нее различных социальных групп примерно в той жепропорции, в какой они представлены в населении страны. В кн. 1 нас. 208 и далее рассказывается, как это было сделано с тестами серииСтанфорд-Бине. . Известно, что в массе чем ниже экономический статус семьи, тем ни-же результаты ребенка в выполнении теста. Такой состав выборки зара-нее предполагает весьма существенные следствия. Дети белого большин-ства будут иметь при тестировании в сравнении с нормой несколькозавышенные результаты, поскольку некоторую часть выборки составилидети из семей этнических меньшинств, а они в среднем показывают в те-стах более низкие результаты, что уменьшает относительно белых детейнормативный показатель выборки. То же можно сказать о детях из се-мей с высоким экономическим статусом. Обратная картина будет длядетей из семей этнических меньшинств и с низким экономическим стату-сом: наличие в выборке детей из семей с высоким экономическим стату-сом повысит нормативный результат выборки относительно детей из се-мей с низким экономическим статусом. Иными словами, формальноесоблюдение пропорционального представительства в выборке различныхгрупп выгодно выделяет одних испытуемых и ставит в неблагоприятныеусловия других. Нужно, однако, выяснить, чем объясняются низкие результаты в те-стах у детей из семей, принадлежащих к национальным меньшинствам.Ответ на этот вопрос можно найти в книге. Основываясь на прове-денных исследованиях, А. Анастази приходит к такому выводу: (кн. 1, с. 254). Именно такую картину и приходится видеть, ког-да тестируются дети из семей с низким экономическим статусом и на- -". .."."""д выглядят . Аf ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАпредлагается выполнять, далеки от их повседневного опыта, они не вла-деют вообще или владеют недостаточно теми сведениями, которые необ-ходимы для выполнения заданий. Понятия, термины, рисунки, чертежи,составляющие тест, даже если детям приходилось иметь с ними делов школе, при общении со сверстниками, с окружающими взрослыми неактуализировались. Мудрено ли, что при выполнении тестов они стано-вились в тупик. Вместе с тем нельзя считать обоснованными попытки некоторыхпсихологов создать тесты, свободные от влияния культуры, иными сло-вами-тесты культуры. А. Днастази обычно при изложениидискуссионных тем никак не заявляет о своей позиции, но в данном слу-чае автор, приводя конкретные материалы и высказывания авторитетныхтестологов, показывает неосуществимость таких тестов. Создатели свободных от влияния культуры тестов возлагали боль-шие надежды на тесты, не использующие вербального материала. Нов ряде случаев люди, говорящие на одном языке и, следовательно, не ис-пытывающие трудностей в прочтении тестовых заданий, являются носи-телями разных культур. И культура в ее интегративном понимании, ко-торое и должно иметься в виду при изучении психики человека, неначинается и не кончается в языке, хотя значение последнего нельзя не-дооценивать. ), есть совокупность материальных и ду-ховных ценностей, созданных и накопленных человечеством в историче-ском процессе; взятая актуально-есть сумма навыков, и знаний, и уме-ний всякого рода; взятая функционально-есть обработка предметови веществ природы и самого человека> (Тугаринов В. П.Природа, цивилизация, человек. Л" 1978, с. 178). Культура каждой социальной общности проявляется в круге господ-ствующих научных и житейских представлений, каждое из которыхимеет свои корни в истории этой общности. Она проявляется и в стерео-типах мышления, складывающихся в процессе исторически обусловлен-ной деятельности, и во взаимном общении людей, постоянно связываю-щих эти представления с определенными признаками, т.е. в системахустойчивых семантических отношений. Исключение вербальных заданий из тестов ни к чему радикальномуне привело: тесты не освободились от влияния той культуры, в которойих создавали. Можно, разумеется, пойти дальше. Почему бы не тесты от всякой конкретности и составить их из таких знаков, ка-кие предлагаются для установления связи с внеземными цивилизациями?Но что, собственно, можно с их помощью диагностировать? Разве толь-ко экспериментатор убедится в том, что испытуемый его понял. Как пи-шет А. Анастази, (кн. 1, с. 305). В американской тестологической литературе неоднократно обсуж-дался вопрос о переводе тестов. Уместно привести высказываниеТТ VrniiF)Qfi ъг ГТ Иприте I-TQ тгигриттт.ты п fTcif(\rrif> r) IOTI r //T7Ti10 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАденный тест не может рассматриваться как подлинный, такой же, какоригинал, и в новых условиях необходимо установить, насколько воз-можно дать традиционную интерпретацию тестовым результатам. Частопри прямом переводе получается излишне трудный тест, вследствие чегоего различными путями модифицируют, чтобы уменьшить его труд-ность. Внимательное рассмотрение нередко показывает: ответна задание в оригинале не есть лучший ответ в новой культуре (т.е.в той, в которой применяют тест после его перевода.-. Г., В.Л.)>(L.J. Cronbach, P.J.D. Drenth, 1972, р. 433). Следует только отметить, чтослов:), в данном контексте, видимо, имеют спе-цифический смысл: материальная наполненность теста чужда тем испы-туемым, которым надлежит выполнить тест после перевода. Участники этой конференции пришли к мнению, (ibid, р. 473). Эта интеграцияи есть выражение определенной культуры. Влияние такой должно сказаться на результатах применения диагностическихпсихологических методик-анкет, опросников, а не только тестов. Таким образом, можно сказать, что перенесение теста из той со-циальной среды, где он был создан, в другую связано с двоякого родатрудностями. Первая состоит в том, что испытуемые, принадлежащиек другой культуре, по-своему воспринимают тест, переосмысливают насвой лад его задания, поскольку они оперируют своей системой значенийи семантических отношений между ними. Потому-то ответв одних условиях может оказаться в других. Вторая труд-ность состоит в языковой трансплантации теста. В некоторых историко-экономических условиях эта трудность играет особую роль, и ее послед-ствия должны быть оценены должным образом. В работах западных специалистов по межкультурным различиям,как нам кажется, не учитывается общеизвестный факт, что две или болеесоциальные общности иногда обитают частично или полностью наодной территории, в разных домах или в разных районах одного и тогоже населенного пункта, мало того-постоянно поддерживают между со-бой деловые контакты, а живут тем не менее каждая в своей культуре,контакты же между ними порою приводят не к сглаживанию, а к проти-вопоставлению культур. Этому не мешает и то обстоятельство, что со-циальные общности могут говорить на одном языке, отличаясь друг отдруга лишь спецификой лексики. Производственные отношения, в которых находятся люди, принад-лежащие к различным классам, накладывают отпечаток на их образ жиз-ни, психические черты. (Глезерман Г. Е. Классы и нации.М" 1974, с. 17-18). В. И. Ленин отмечал наличие по крайней мере двухкультур в культуре буржуазной страны. (Полн. собр. соч., т. 24, с. 120-121), В то же время в буржуазном обществе сохраняются национальныекультуры в собственном смысле, культуры отдельных наций, среди ко-торых можно выделить господствующую и угнетенные. При этом дляпоследних характерны разнонаправленные культурные процессы. Одниносители угнетаемой культуры-чаще всего представители национальнойII ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАбуржуазии или близких к ней социальных групп-пытаются адаптиро-ваться к культуре господствующей нации, не демонстрировать и не под-черкивать культурные различия. Другие, напротив, не маскируют тради-ционно выделяемых различий, а подчеркивают их, стремятся сохранить,добровольно принимая на себя социальные последствия негативного от-ношения к своей культуре. Как может сказаться вся эта сложнейшая картина существованияразличных культур на психологическом тестировании? На практике лю-дей, проходящих тестирование, обычно объединяет социально-детерми-нированная необходимость. В одном случае это могут быть лица, же-лающие устроиться на работу, в другом-молодые люди. поступающиев колледж, в третьем-служащие, претендующие на служебное повыше-ние, и т. д. Если же тестирование проводится в школе, то состав школьни-ков будет зависеть от специфики населения той местности, где располо-жена школа, его национальной и классовой принадлежности и т.п. Нарезультаты такого тестирования существенное влияние оказывает со-циальный фактор-степень близости испытуемых к культуре, котораяпредставлена в тесте,-в свою очередь обусловленном теми мерами, ко-торые принимаются в данном обществе для приобщения всех членовк такой культуре, поэтому на распределении полученных результатовдолжны сказаться прежде всего социально-детерминированные факторы. Одним из подходов к проблеме норм и статистического анализа ре-зультатов тестирования, учитывающим такого рода факторы, являетсяразработка тестов, ориентированных на критерий, или критериально-ориентированных тестов. Для этих тестов характерно частичное исполь-зование при интерпретации тестовых показателей содержания деятельно-сти испытуемых, т.е. результат такого теста описывается указаниемдействий и операций, которые может выполнить испытуемый. При при-менении этих тестов нет надобности в сравнении результатов отдельногоиндивида (или группы) с нормами, т. е. с тем, как выполняли данный тестбольшие выборки испытуемых. Тест, если он хорошо разработан, дол-жен показать, что испытуемый знает и умеет, а не то, каков он на фонедругих, представляющих ту же популяцию. Пока еще трудно обсуждать, насколько разработка и развитие кри-териально-ориентированных тестов повлияют на нынешнее состояние те-стологии. В настоящей книге и в книгах, посвященных тем же пробле-мам, об этих тестах сообщается главным образом как о новойразновидности тестов, добавившейся к существующим. Правильно лиэто? Нам представляется, что в критериально-ориентированных тестахзаложено нечто такое, чего нет и не было в других тестах. Критериаль-но-ориентированные тесты способны диагностировать психические осо-бенности в динамике. Обычные тесты, в частности тесты интеллекта, не-смотря на все вполне разумные оговорки, таили в себе идею предела,оценивая тестовые показатели испытуемого по их месту в распределениирезультатов выборки стандартизации и как бы указывая на границы раз-вития этого человека. Критериально-ориентированные тесты не грешатподобной метафизичностью. Они избавляют диагностику от норм, от не-обходимости сравнивать как отдельных людей, так и их группы с неко-торыми искусственными показателями, искусственными потому, что по-пуляция всегда есть конгломерат различных социально-детерминиро-ванных выборок. Критериально-ориентированные тесты по мере разра-ботки могли бы стать надежным инструментом пегигтпатт>" ""— — -12 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАго развития, понимаемого не абстрактно, а в его конкретно-историческойформе развития, сопоставляемого с реальными условиями. Критериально-ориентированные тесты содержат в себе возмож-ность, если не немедленно, то в перспективе, освободить психологиче-скую диагностику от груза проблем, с которым связана валидация теста.Казалось бы, что это одно из наиболее простых понятий тестологии: (кн. 1, с. 126). Бесспорно, каждому поль-зователю теста нужно знать тест с этой стороны. За внешней простотой характеристики валидности таится, однако,много неясностей, и они давно обсуждаются в соответствующей литера-туре. Что измеряет тест? Чтобы ответить на этот вопрос, нужно сначалаподумать о том, в какой системе понятий описывается это измеряемоетестом . Можно попытаться ответить на вопрос, обратившиськ системе понятий, сложившихся в общей психологии. Но многие фунда-ментальные понятия тестологии в общей психологии вообще не рассма-триваются, например интеллект. В общей психологии речь идет о мыш-лении и его чертах, но не об интеллекте. В то же время интеллекту, ин-теллектуальному уровню посвящена часть 3 этой книги, и уже одно этосвидетельствует, насколько важно данное понятие для тестологии. Можно рассматривать тест в системе понятий, относящихся к прак-тической деятельности, и ответ будет звучать примерно так: тест изме-ряет способность к выполнению определенного профессионального дей-ствия, а его валидность указывает, насколько хорошо тест это делает.Нередко валидность именно так и характеризуют. Но из такого ответанеясно, какие в подобной способности представлены умения, знания, на-выки. В таком случае исследователь имеет дело с так называемым те-стом достижений, а не с психологическим тестом. Обращение к критериально-ориентированным тестам позволило быуточнить те психологические требования, которые предъявляет критерий,приблизиться к пониманию формы психической активности, обеспечи-вающей достижение критерия. О том, как оценивает критериально-ориентированные тесты самаА. Анастази, можно судить по такому ее высказыванию: (кн. 1, с. 93). Хотелось быдобавить к этому высказыванию, с которым в принципе нельзя не согла-ситься, следующее: все-таки, прежде чем описывать выполнение заданийтеста в терминах специфических навыков и знаний, необходимо охарак-теризовать их в терминах, принятых в общей психологии. Нам хотелось бы сказать, что критериальная ориентированность как ——" ..пт",аг-уптп ппигхя путей совершенствования пси-13 ПРЕДИСЛОВИЕ РЕДАКТОРОВ ПЕРЕВОДАхологического диагностирования может найти свое место не только в та-ких методиках, какими являются тесты, но также в самоотчетах, опрос-никах и т.п. (кн. 2,с. 132). С таким утверждением, вероятно, согласятся советские исследо-ватели. В самом деле, как могут возникнуть регистрируемые в опросни-ках и самоотчетах черты индивидуальности, если не из воздействий со-циального окружения? Поскольку это так, то любые результаты, в видепрофиля показателей или числа очков, могут приобрести для исследова-теля смысл не сами по себе, а лишь при сопоставлении с качественнойоценкой и уровнем критериальных требований, последние же опреде-ляются общественной средой, в которой протекает жизнь и деятельностьданного индивида. Психологическое тестирование — Анастази А. => читать онлайн электронную книгу дальше
Было бы хорошо, чтобы книга Психологическое тестирование автора Анастази А. дала бы вам то, что вы хотите!
Отзывы и коментарии к книге Психологическое тестирование у нас на сайте не предусмотрены.
Если так и окажется, тогда вы можете порекомендовать эту книгу Психологическое тестирование своим друзьям, проставив гиперссылку на данную страницу с книгой: Анастази А. — Психологическое тестирование.
Если после завершения чтения книги Психологическое тестирование вы захотите почитать и другие книги Анастази А.,
тогда зайдите на страницу писателя Анастази А. — возможно там есть книги, которые вас заинтересуют.
Если вы хотите узнать больше о книге Психологическое тестирование, то воспользуйтесь поисковой системой или же зайдите в Википедию.
Биографии автора Анастази А., написавшего книгу Психологическое тестирование, к сожалению, на данном сайте нет.
Ключевые слова страницы: Психологическое тестирование; Анастази А., скачать, бесплатно, читать, книга, электронная, онлайн
Babadu.ru
бордюр канта купить в москве — Мне понравился ПлиткаОбои.ру
В Лейпциге, вопреки неприятиюВ. Вундтом такого типа исследований, Дж. Кэттелл написал диссерта-цию об индивидуальных различиях во времени реакции. Позднее, когдав 1888 г. он читал лекции в Кембридже, его интерес к измерению инди-видуальных различий усилился благодаря влиянию Ф. Гальтона. По воз-вращении в Америку Дж. Кэттелл активно занялся созданием лабора-торий экспериментальной психологии и распространением тестирова-ния. Термин впервые появился в психологическойлитературе в статье Дж. Кэттелла в 1890 г. В этой статье описываласьсерия тестов, ежегодно применявшихся для определения интеллектуаль-ного уровня студентов колледжей. Тесты применялись индивидуальнои содержали измерения мышечной силы, скорости движения, чувстви-тельности к боли, остроты зрения и слуха, различения веса, времени ре-акции, памяти и тому подобное. В выборе Дж. Кэттеллом тестов сказа-лись взгляды Ф. Гальтона, считавшего, что можно измерять интеллек-туальные функции с помощью тестов сенсорного различения и времениреакции. Предпочтение таких тестов Дж. Кэттеллом объяснялось и темфактом, что простые функции могли быть измерены с большой точ-ностью, а разработка объективных методов измерения более сложныхфункций казалась в то время совершенно безнадежной задачей. Тесты Дж. Кэттелла были типичными среди огромного числа серийтестов, разработанных в последнее десятилетие XIX столетия. Такие се-рии применялись к школьникам, студентам колледжей и любымвзрослым. На Колумбийской выставке, проходившей в 1893 г. в Чикаго,Дж. Ястров выставил стенд, на котором посетители могли измеритьсвои сенсорные, моторные и простые перцептивные процессы и сравнитьих с нормой (J. Peterson, 1926; J. Phihppe, 1894). Немногочисленные попыт-ки оценить первые тесты принесли неутешительные результаты. Инди-видуальная проверка показала слабую согласованность тестов между со-бой (S.E. Sharp, 1898-1899; С. Wissler, 1901) и практическое несоответ-ствие результатов тестов независимой оценке интеллектуального уровня,основанной на мнении учителей (T.L.Bolton, 1891-1892; J. A. Gilbert,1894) или академической успеваемости (С. Wissler, 1901). Большое количество серий тестов, созданных в это время европей-скими психологами, предусматривали несколько более сложные функции.Немецкий психолог Э. Крепелин (Е. Kraepelin, 1895), которого преждевсего интересовало клиническое обследование пациентов с психическимирасстройствами, создал большую серию тестов для измерения того, чтоон считал основными факторами в характеристике индивида. Эти тесты,в основном использовавшие элементарные арифметические операции,предназначались для измерения практических эффектов памяти, утомляе-мости, отвлекаемости. Несколько ранее А. Эрн (A. Oehrn, 1889), ученикЭ. Крепелина, применил тесты восприятия, памяти, ассоциаций и мо-торных функций для изучения взаимосвязи психологических функций.Другой немецкий психолог, Г. Эббингауз (Н. Ebbinghaus, 1897) предъ-являл школьникам тесты арифметического счета, объема памяти и завер-шения предложений. Наиболее сложный из этих тестов — тест на заверше-ние предложений был единственным, соответствовавшим учебнымдостижениям детей. Подобно Э. Крепелину, итальянского психологи Д. Феррари и его23 ФУНКЦИИ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯучеников в первую очередь интересовало использование тестов в случаяхпатологии (G.Guicciardi, G.C.Ferrari, 1896). Разработанные ими сериитестов включали как физиологические измерения и моторные тесты, таки измерения объема восприятия и интерпретацию картинок. В статье,опубликованной во Франции в 1895 г., А. Бине и В. Анри раскритиковалибольшую часть имевшихся серий тестов за неоправданно большое вни-мание к сенсорным характеристикам и элементарным специальным спо-собностям. Кроме того, они утверждали, что в измерении более сложныхфункций большой точности не требуется, поскольку в этих функциях инди-видуальные различия особенно велики, и предлагали обширный списоктестов, предназначенных для измерения таких функций, как память, во-ображение, внимание, восприятие, внушаемость, эстетическое восприятие,и многих других. Уже в этих тестах можно заметить те тенденции, ко-торые в конце концов привели к созданию известных шкал интеллектаБине. Альфред Бине и интеллектуальные тесты. А. Вине и его со-трудники много лет посвятили эффективным и оригинальным исследо-ваниям способов измерения интеллекта. Были испробованы многие ме-тоды, даже измерение черепа, лица, формы рук и анализ почерка.Результаты, однако, все более убеждали, что непосредственное, хотя быи грубое, измерение сложных интеллектуальных функций наиболее перс-пективно. И наконец, одна неожиданная ситуация привела А. Бине к же-ланной цели. В 1904 г. министр общественного образования назначилА. Бине в уже упоминавшуюся Комиссию по изучению методов обуче-ния умственно отсталых детей. Именно в связи с целями, стоящимиперед этой комиссией, А. Бине в сотрудничестве с Т. Симоном создалпервую шкалу Бине-Симона (A. Binet, Th. Simon, 1905). Эта шкала известна теперь как шкала 1905 г., она состояла из 30 за-даний или тестов, расположенных по возрастающей трудности. Уровеньтрудности определялся эмпирически, предъявлением тестов 50 нор-мальным детям в возрасте от 3 до II лет, нескольким умственно от-сталым детям и взрослым. Тесты были рассчитаны на широкий диапа-зон функций, особо выделялись способности к суждению, пониманиюи рассуждению, оцениваемые А. Бине как основные компоненты интел-лекта. Хотя сенсорные и перцептивные тесты также были включены, нов этой шкале по сравнению с большинством серий тестов того временибольшую часть занимал вербальный материал. Шкала 1905 г. предлага-лась как предварительный инструмент, но никакого точного объективно-го метода получения общего показателя не давалось. Во второй шкале, 1908 г., общее число тестов было увеличено, неко-торые неудачные тесты более ранней шкалы изъяты, и все тесты былисгруппированы по возрастным уровням на основе их выполнения при-мерно 300 нормальными детьми в возрасте между 3 и 13 годами. Так,к уровню 3 лет были отнесены все тесты, которые выполняли от 80 до90Ї" нормальных трехлетних детей; к уровню 4 лет подобным же обра-зом отнесли все тесты, которые выполняли нормальные четырехлетниедети, и т.д. до 13 лет. Показатель ребенка по всем тестам мог бы в этомслучае выражать умственный уровень, соответствующий возрасту нор-мальных детей, чье выполнение было таким же. В разных переводахи переработках шкал Бине термин обычно заме-нялся на , поскольку умственный возраст-понятиеппостое и доступное, и его введение несомненно способствовало популя-24 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОЦАНИЯризации интеллектуального тестирования. Сам А. Бине избегал импользоваться из-за нежелательных ассоциаций с развитием и предпочи-тал более нейтральный термин (Т.Н. Wolf, 1973). Третий вариант шкалы Бине-Симона появился в 1911 г., отмечен-ном преждевременной смертью А. Бине. Икала эта по сравнениюс предыдущей содержала незначительные вменения: перестановку от-дельных тестов, новые тесты для некоторых возрастных уровней, и былапродлена до взрослого уровня. Еще до пересмотра 1908 г. тесты Бине-Симона привлекли широкоевнимание психологов всего мира. Их переводы и адаптации появилисьна многих языках. В Америке было опубликовано множество перерабо-танных вариантов, самым удачным из/ которых был вариант, разрабо-танный под руководством Л. М. Термина в Станфордском университетеи известный как шкала Станфорд-Бине (L.M.Tennan, 1916). Именнов этом варианте был впервые использован коэффициент интеллектуаль-ности (IQ), или отношение между умственным возрастом и фактическимвозрастом. Позднейшая переработка этой шкалы, используемая в нашевремя достаточно широко, будет подробно рассмотрена в гл. 9. Особыйинтерес представляет также вариант Кюльманна-Бине, в котором воз-растной диапазон был сдвинут вниз до уровня 3 мес. (F. Kuhlmann, 1912).Эта шкала-одна из наиболее ранних попыток разработки тестов интел-лекта для младенцев и дошкольников.ГРУППОВОЕ ТЕСТИРОВАНИЕТесты А. Бине, как и их позднейшие переработки, являются индиви-дуальными шкалами в том смысле, что они могут быть применены одно-временно только к одному человеку. В большинстве этих тестов преду-сматривается, что испытуемый или отвечает устно, или осуществляеткакие-то действия с предметами, причем в некоторых из них требуетсяучитывать индивидуальное время ответа. По этим и другим причинамтакие тесты не приспособлены для группового использования. Для те-стов типа теста Бине характерно и то, что они нуждаются в высококва-лифицированном экспериментаторе. Такие тесты по существу являютсяклиническими средствами, приспособленными к интенсивному изучениюконкретных случаев. Групповое тестирование, так же как и первая шкала Бине, было со-здано в ответ на настоятельную потребность практики. Когда Соеди-ненные Штаты вступили в первую мировую войну в 1917 г., Американ-ской психологической ассоциацией был назначен комитет для рассмотре-ния тех средств, которыми психология может помочь ведению войны.Этот комитет под руководством Р. М. Йеркса столкнулся с необходи-мостью быстро определить интеллектуальный уровень полутора мил- " Ф.Л. Гудинаф (F.L. Goodenough, 1949, р. 50-51) отмечает, что в 1887 г., за 21 годдо появления шкалы Бине-Симона 1908 г., С.Э. Шайе опубликовал в Ньюорлеанском ме-дицинском журнале серии тестов для детей, распределив их в соответствии с возрастом,в котором эти тесты обычно приводятся. Частично вследствие малой доступности журна-ла, частично же из-за того, что ученый мир еще не был к этому готов, идея возрастнойшкалы в это время осталась незамеченной. На создание подобной шкалы самим А. Бинеповлияли работы таких его современников, как А. Блин и Г. Даме, подготовивших сериювопросов, на основании которых они получали единый суммарный показатель по каждо-му ребенку (Т.Н. Wolf, 1973).25 ФУНКЦИИ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯлионов новобранцев. Такая информация требовалась для принятия реше-ний о признании негодными к военной службе, распределении по разнымродам войск, приеме в лагеря обучения офицеров и т.п. Военные психо-логи привлекли все имеющиеся материалы, в частности неопублико-ванный тест для группового тестирования интеллекта Артура С. Отиса.Основным достоинством теста Отиса, который он составил, будучи ас-пирантом Л. М. Термена, было введение различного типа объективных за-даний, в том числе с множественным выбором ответов. Тесты, которые в конце концов создали военные психологи, сталиназываться армейский альфа и армейский бета. Первый предназначалсядля общего обычного тестирования; второй, как шкала невербальная,был рассчитан на неграмотных и новобранцев иностранного происхо-ждения, которые не могли ответить на задания теста на английском язы-ке. Оба теста можно было использовать в больших группах людей. Вскоре после окончания первой мировой войны военные тесты сталииспользоваться в гражданской службе. Армейские альфа и бета неодно-кратно перерабатывались (последние их варианты употребляются дажев наши дни) и стали образцом для большинства групповых тестов интел-лекта. Тестирование получило сильнейший стимул для своего развития.Вскоре были разработаны групповые тесты интеллекта для всех возра-стов и уровней образованности-от дошкольников до аспирантов. Ещесовсем недавно невыполнимые, массовые программы тестирования зате-вались с завидным оптимизмом. Поскольку групповые тесты создава-лись как средства массового тестирования, то их инструкции и процеду-ра проведения были достаточно просты, и экспериментатору требовалсяминимум обучения. Школьные учителя начали использовать тесты ин-теллекта в своих классах. Студенты колледжей перед зачислением прохо-дили стандартную проверку. Предпринималось широкое обследованиеособых групп взрослого населения, таких, как заключенные. Вскоре IQбыл признан общественностью. Применение групповых тестов интеллекта значительно обогнало ихметодические возможности. В погоне за показателями и практическимирезультатами частенько забывалось, что тесты оставались достаточногрубым инструментом. Когда же тесты не оправдывали необоснованныхожиданий, то часто это приводило к скептицизму и враждебному отно-шению ко всякому тестированию. Таким образом, тестовый бум 20-х гг.,приведший к неразборчивому применению тестов, не только задержал,но и способствовал прогрессу психологического тестирования.ТЕСТИРОВАНИЕ СПОСОБНОСТЕЙХотя тесты интеллекта как оценивающие общий интеллектуальный уро-вень индивида первоначально рассчитывались на проверку самых раз-личных функций, вскоре стало очевидным, что область применения такихтестов, поскольку в них были представлены не все существенные функ-ции, весьма ограниченна. Фактически, большинство тестов интеллектав основном измеряло вербальные способности и в какой-то мере способ-ность оперировать числовыми, абстрактными и другими символически-ми отношениями. Несомненно, тесты охватывали способности, имеющие в нашей26СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯряют эти тесты. Например, большинство тестов, названных в 20-х гг. те-стами интеллекта, позднее стали называть тестами способностейк учению. Такая смена терминологии была следствием осознания тогофакта, что многие тесты интеллекта измеряют комбинацию способно-стей, необходимых для учебной деятельности. Еще до первой мировой войны психологи пришли к признанию не-обходимости дополнить общие тесты интеллекта тестами специальныхспособностей. Тесты специальных способностей разрабатывались частич-но для использования в профориентации, а также при отборе и распреде-лении промышленного и военного персонала. Самыми распространенны-ми среди них были тесты способностей к технике, канцелярской работе,музыкальных и художественных способностей. Последовавшая вслед за необычным распространением и непрофес-сиональным использованием критическая оценка тестов интеллекта выя-вила еще один знаменательный факт: индивидуальное выполнение от-дельных частей тестов весьма различно. Это особенно очевиднов групповых тестах, в которых отдельные задания обычно подразде-ляются на субтесты относительно однородного содержания. Так, человекможет иметь относительно высокие показатели по вербальному и низкиепо числовому субтесту и наоборот. В какой-то степени такая внутренняянеоднозначность наблюдается и в тестах типа Станфорд-Бине, в ко-торых для данного индивида могут оказаться трудными, например, зада-ния, содержащие слова, а выигрышными задания, использующие картин-ки или геометрические фигуры. Люди, работающие с тестами, особенно клиницисты, часто, чтобылучше уяснить индивидуальную психологическую структуру, сравниваливыполнение отдельных частей теста и при анализе конкретного случаярассматривали не только IQ или иной суммарный показатель, но и пока-затели субтестов. Но такая практика пригодна не всегда, посколькутесты интеллекта не рассчитаны на дифференциальный анализ способно-стей. Часто сравниваемые субтесты содержат слишком мало заданий,чтобы дать стабильную и надежную оценку той или иной способности.В результате показатели отдельных субтестов при тестировании индиви-да различными вариантами одного и того же теста или в разное времямогут значительно расходиться. Чтобы осуществлять такие внутриинди-видуальные сравнения, необходимы тесты, специально предназначенныедля выявления различий в работе анализируемых функций. Параллельно с этими исследованиями шло изучение структуры пси-хики, давшее необходимый материал для построения тестов специальныхспособностей. Статистические работы по природе интеллекта, по-строенные на выявлении взаимосвязей показателей, полученных у раз-личных испытуемых по широкому диапазону тестов, были начаты ан-глийским психологом Чарлзом Спирманом (С. Spearman, 1904; 1927)в первом десятилетии нашего века. Их методологическая разработкав трудах английских и таких американских психологов, как Т. Л. Келли(T.L. Kelly, 1928) и Л.Л. Терстоун (L.L. Thurstone, 1935; 1947), стала назы-ваться факторным анализом.27ФУНКЦИИ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ Факторный анализ подробно разбирается в гл. 13. Сейчас достаточ-но сказать, что данные, собранные с его помощью, показали наличие ря-да относительно независимых факторов или черт. Некоторые из этихчерт, особенностей, например вербальное понимание и оперированиечислами, были в той или иной мере представлены в традиционных те-стах интеллекта. Другие, такие, как пространственные, перцептивные и техническиеспособности, чаще выявлялись не тестами интеллекта, а тестами спе-циальных способностей. Одним из главных практических выходов факторного анализа быларазработка комплексных батарей способностей, предназначенных для из-мерения степени выраженности у индивида той или иной особенности изнекоторой их совокупности. Вместо общего показателя или IQ берутсяпоказатели таких свойств, как вербальное понимание, пространственноевоображение, арифметические способности и скорость восприятия. Такиебатареи оказались подходящим средством для внутрииндивидуальногоанализа, или дифференциального диагноза, который много лет клини-цисты ставили, основываясь на приблизительных и часто ошибочных ре-зультатах тестов интеллекта. Кроме того, эти батареи в полной про-грамме тестирования несли значительную информацию, получаемуюранее через тесты специальных способностей, поскольку комплексные ба-тареи способностей охватывают некоторые свойства, обычно не затраги-ваемые тестами интеллекта. Комплексные батареи способностей представляют в тестированииотносительно позднее нововведение. В основном они разрабатывалисьуже после 1945 г., но их появление во многом определили работы во-енных психологов во время второй мировой войны. Большая часть те-стовых исследований, проводившихся в военных организациях, исходилаиз факторного анализа и направлялась на создание комплексных батарейспособностей. В воздушных войсках, например, такие батареи предназна-чались для пилотов, стрелков, радистов, штурманов и множества другихвоенных специальностей. Во избежание недоразумений следует разъяснить терминологию.Термин традиционно означал тесты, измеряющиеотносительно простые способности; термин обычнообъединяет достаточно разнородные серии тестов, дающие один сум-марный показатель типа IQ. Тесты специальных способностей, ка.к пра-вило, измеряют одну способность. Комплексные батареи способностейизмеряют ряд способностей и дают профиль, образуемый показателямикаждой способности.тальных данных, но и как способ, позволяющий разрабатывать содержательные психоло-гические концепции, в частности, в психологии индивидуальных различий. Вопрос о том,в какой степени пригоден факторный анализ для этой цели, может решить только психо-лог. Современный факторный анализ осуществляется относительно статистических рядов(результаты тестирования, анкетирования и т.п.), находящихся между собой в линейнойзависимости. Насколько правомерна гипотеза, что психику человека достаточно адекватноописывают линейные связи? Известно, что такой гипотезы придерживался Ч. Спирман, но теперь она стала до—.,"-….".. "",." н пя1.пл случае исследователь, намеревающийся применить фак-28 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯСТАНДАРТИЗОВАННЫЕ ТЕСТЫ ДОСТИЖЕНИЙПо мере того как психологи разрабатывали тесты интеллекта и способ-ностей, обычные школьные экзамены также технически усовершенствова-лись (O.W.CaldweH, S.A.Courtis, 1923; R.L.Ebel, D.E.Damrin, 1960).Важный шаг в этом направлении был сделан бостонскими общественны-ми школами, заменившими в 1845 г. устные экзамены учащихся пись-менными. Обоснование этого нововведения удивительно похоже на рас-суждения более позднего времени, объяснявшие необходимость заменыместоименных вопросов выбором ответа из списка возможных. Пись-менные экзамены ставят всех учеников в равное положение, позволяютохватить большее содержание, уменьшают элемент случайности в выбо-ре задаваемого вопроса и сводят на нет возможную необъективностьэкзаменатора. На рубеже этого столетия появились первые стандартизованныетесты по измерению результатов школьного обучения. После работыР. Л. Торндайка (R.L. Thorndike, 1933) в этих тестах стали использовать-ся принципы измерения, разработанные в психологических лаборато-риях. В качестве примера таких тестов можно назвать шкалы оценки ка-чества почерка и письменных сочинений, а также тесты на правописание,арифметический счет и рассуждения. Несколько позднее, после выходав 1923 г. первого издания станфордского теста достижений, разработан-ного ведущими тестологами того времени Труманом Л. Келли, Джайл-сом М. Рачом и Льюисом М. Терманом, появились батареи достижений.Предвосхищая многие особенности современного тестирования, эти ба-тареи позволяли осуществлять сравнимые измерения выполнения зада-ний по разным школьным предметам, оцениваемого относительно еди-ной системы нормативов. К этому времени стали очевидными разногласия среди учителейв оценке результатов описательных тестов. К 1930 г. было признано, чтоописательные тесты по сравнению с объективными заданиями не только отнимают у экзаменаторов и экзаменующихся большевремени, но и дают менее надежные результаты. По мере того какобъективные задания все шире применялись в стандартизованных тестахдостижений, росло их значение в тестах на понимание и применение зна-ний и других общих целей обучения, 30-е гг. ознаменовались также по-явлением машин по подсчету тестовых показателей, которые легко былоприспособить для новых объективных тестов. Создание региональных и национальных программ тестированиятакже способствовало его развитию. Вероятно, наибольшей извест-ностью пользуется программа Совета по вступительным экзаменамв колледжи. Принятая еще в конце прошлого века с целью уменьшитьдублирование экзаменов для поступающих в колледжи, эта программабыла основательно переработана, особенно используемые в ней методытестирования; были расширены также типы колледжей, в которых онамогла применяться. Происшедшие изменения отразили развитие нетолько тестирования, но и образования, поскольку в 1947 г. тестирова-ние, осуществлявшееся Советом по вступительным экзаменам в коллед-жи, корпорацией Карнеги и американским Советом по образованию, бы- Вопросы, требующие описательного ответа. См.: Русский язык: Эничкгч-прМ" 1979, с. 45-46.29ФУНКЦИИ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯло передано вновь созданной Службе тестирования в образовании,принявшей на себя ответственность за все программы тестирования дляуниверситетов, профессиональных училищ, правительственных учрежде-ний и других организаций. Следует также упомянуть не включеннуюв программу Совета по вступительным экзаменам в колледжи американ-скую программу тестирования в колледжах 1959 г. для отбора поступаю-щих в колледжи и несколько национальных программ тестирования дляотбора на стипендии одаренных учащихся. — Тесты достижений используются не только в учебных целях, нои при отборе поступающих на работу в промышленность и государ-ственные учреждения. Как уже сообщалось, систематические экзаменыпри приеме на гражданскую службу в китайской империи были введеныеще в 1115 г. до н.э. В европейских странах это случилось в концеXVIII-начале XIX в. Комиссия гражданской службы Соединенных Шта-тов утвердила конкурсные экзамены в 1883 г. (S. Kavruch, 1956). Методысоставления тестов, разработанные до и во время первой мировой вой-ны, стали использоваться в экзаменационной Программе гражданскойслужбы Соединенных Штатов после назначения Л.Дж. 0Рурке директо-ром созданного в 1922 г. исследовательского отдела комиссии. Чем больше психологов-психометристов участвовало в созданиистандартизованных тестов достижений, тем сильнее техника их построе-ния напоминала технику построения тестов интеллекта и способностей.Процедуры составления и оценки всех этих тестов имеют много общего.Все усиливающееся стремление создать тесты достижений, которые мог-.ли бы оценить владение навыками, отвечающими широким образова-тельным целям, а не способность воспроизводить частные детали, тожеделало похожим содержание тестов достижений на тесты интеллекта.В настоящее время разница между этими типами тестов в основном сво-дится к степени специфичности содержания, определяемого тем курсомобучения, уровень освоения которого оценивается тестом.ИЗМЕРЕНИЕ ЛИЧНОСТНЫХ ХАРАКТЕРИСТИКЕще одно направление психологического тестирования связано с аффек-тивными, или неинтеллектуальными, аспектами поведения. Предназна-ченные для этого тесты обычно называют личностными, хотя некоторыепсихологи используют термин более широко, понимая подним индивида как целое. В таком случае в этот раздел следовало бывключить рассмотрение как интеллектуальных, так и неинтеллек-туальных характеристик человека. Однако в психологическом тестирова-нии термин чаще всего указывает на измерение такихособенностей, как эмоциональная регуляция, межличностные отношения,мотивация, интересы и установки. Одним из первых тестов, положивших начало тестированию лично-сти, был крепелиновский вариант теста свободных ассоциаций, приме-ненный им для обследования больных с психическими отклонениями.В этом тесте индивиду предъявляются специально подобранные слова-стимулы, на которые он отвечает первым пришедшим ему в голову сло-вом. Э. Крепелин (Е. Kraepelin, 1892) использовал этот же прием для из-учения психологических последствий утомления, голода и приемалекарственных препаратов и пришел к выводу, что эти факторы увеличи-34 COДI:ИД[IИE ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ .в эти же годы Р. Соммер (R. Sommer, 1894) предложил использовать тестсвободных ассоциаций для определения форм психических расстройств.Впоследствии техника свободных ассоциа.ций стала использоваться длясамых разных целей тестирования, она не теряет своего значения и в на-ши дни. Здесь следует упомянуть разработку Ф. Гальтоном, К. Пирсо-ном и Дж. Кэттеллом стандартизованных анкет и шкал ранжирования,предназначавшихся ими совсем не для тех целей, с которыми в итоге ихстали использовать другие исследователи при составлении одних изсамых распространенных в настоящее время личностных тестов. В качестве исходного варианта анкеты личности или заполняемогоиспытуемым опросите можно назвать листок личностных данныхР. С. Вудвортса, разработанный им в годы первой мировой войны(Р.Н. Dllbois, 1970; P.M. Symonds, J931, гл. 5; L.R. Goldberg, 1971). Этотлисток предназначался для первичного выявления людей, страдающихневрозами и не пригодных к военной службе. Тест содержал ряд вопро-сов о наличии обычных признаков невроза, а тестируемый отмечал,имеются они у него или нет. Общий показатель получался подсчетом от-меченных симптомов. Во время войны листок личностных данных таки не был доведен до практического использования, но сразу же после ееокончания были подготовлены его формы для гражданского использова-ния, в том числе специальная форма для опроса детей. Более того, ли-сток личностных данных Вудвортса послужил образцом для более позд-них опросников по эмоциональной регуляции. В одном из этих тестовэмоциональная регуляция подразделялась на более конкретные формы,такие, как регуляция семейных, школьных и профессиональных отноше-ний, в других вопросы концентрировались в основном на ограниченнойсфере поведения или более четко выявляли социальные реакции, такие,как преобладание в межличностных контактах реакции подчинения. По-зднее были разработаны тесты для количественной оценки интересови установок, но они, в сущности, тоже использовали технику опросников. Другой подход к измерению личностных характеристик представленв тестах действия, или ситуационных тестах. В этих тестах испытуемыйполучает задания, цель которых часто остается ему неизвестной. Боль-шей частью они довольно точно воспроизводят обыденные ситуации.Впервые подобная методика была широко применена в тестах, разрабо-танных Г. Хартсхорном. М.Л. Меем и их сотрудниками в конце 20-х-на-чале 30-х гг. (H.Hartshorne, M.A.May, 1928, 1929; H.Hartshorne,M.A. May, F.K. Shuttleworth, 1930). Серия, стандартизованная на школь-никах, затрагивала такие особенности поведения, как обман, ложь, во-ровство, согласованность действий и настойчивость. Количественные по-казатели могли быть получены по каждому из многочисленных частныхтестов. Позднее этот метод был применен в серии ситуационных тестовдля взрослых, созданной в годы второй мировой войны в рамках атте-стационной программы Управления стратегических служб (OSS, 1948).Эти тесты были рассчитаны на достаточно сложное и трудно различи-мое социальное и эмоциональное поведение и требовали довольно тон-кой техники исполнения и обученного персонала, а интерпретация реак-ции испытуемого была в них относительно субъективной.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Третий подход в изучении личности представляют проективные ме-тодики, получившие, особенно у клиницистов, чрезвычайно широкое, рас-пространение. В тестах этого типа испытуемому дается неструктуриро-ванное задание, допускающее многие способы решений. Эти методики31ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНГ.НИЕоснованы на предположении, что в своем решении индивид проявит ха-рактерные для него способы реакции. Так же как и в тестах действия,или ситуационных тестах, методика проективных тестов в той или инойстепени не позволяет испытуемому угадать их цель и тем самым умень-шает вероятность того, что испытуемый сможет намеренно создать же-лаемое впечатление. Уже упоминавшийся тест свободных ассоциаций- -один из наиболее ранних типов проективных методик. К этому же типуможно отнести тест на завершение предложений. К заданиям иного ти-па, обычно применяемым в проективных тестах, относятся рисование,представляющая сценку расстановка игрушек, импровизация драматиче-ской сцены и интерпретация картинок или чернильных пятен. Применение любых из имеющихся типов личностных тестов связанос серьезными трудностями, как практическими, так и теоретическими.Каждый подход имеет свои преимущества и свои недостатки, а в целомтестирование личности сильно отстает от тестирования способностей, ноэто отставание не следует приписывать недостатку усилий. Количествоисследований по измерению личностных характеристик с 1950 г. дости-гло внушительной цифры, и многие остроумные приемы и техническиеусовершенствования принимаются специалистами на вооружение. Мед-ленный прогресс в этой области объясняется особыми трудностями,с которыми сталкивается измерение свойств личности.ГЛАВА 2. ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВИ ИХ ПРИМЕНЕНИЕВ гл. 1 приводились некоторые из многочисленных областей примененияпсихологических тестов и говорилось об их достаточном разнообразии.Общественное мнение все еще склонно отождествлять психологическиетесты с JQ-тестами и тестами на выявление эмоциональных нарушений,хотя они составляют лишь незначительную часть употребляемых тестов.Основные типы психологических тестов (тесты общего интеллектуально-го уровня, традиционно называемые тестами интеллекта; тесты от-дельных способностей, в том числе комплексные батареи способностей.тесты специальных способностей и тесты достижений; личностные тесты,связанные с изменением эмоциональных и мотивационных особенностеймежличностного поведения, интересов, установок и других иекогни-тивных характеристик) анализируются в частях 3-5. При столь очевидном разнообразии характера и целей психологиче-ских тестов каковы их общие наиболее характерные особенности? Чемони отличаются от других методов изучения человека? Ответ следует ис-кать в определенных основных чертах построения и использования те-стов. Эти черты и рассматриваются в настоящей главе.ЧТО ТАКОЕ ПСИХОЛОГИЧЕСКИЙ ТЕСТ?Выборка поведения. Психологический тест в сущности есть объектив-ное и стандартизованное измерение выборки поведения. Психологиче-ские тесты, подобно экспериментам в других науках, проводятся намалой, но тщательно отобранной выборке поведения индивида. В этомji СОДЕРЖ-ЛНИГ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯщий свои заключения о составе крови или питьевой воды на анализелишь небольшой их части. Если психолог хочет проверить словарный за-пас ребенка, способность служащего к счету или зрительно-двигатель-ную координацию у пилота, он предъявляет им репрезентативные на-боры слов, арифметических задач или же тесты двигательных способно-стей. Насколько адекватен тест измеряемому поведению, зависит,очевидно, от числа и характера его заданий. Так, арифметический тест,состоящий из 5 задач или включающий лишь вопросы на умножение,вряд ли может дать достаточное представление о счетных навыках инди-вида, а словарный тест, построенный на терминах игры в бейсбол, едвали обеспечит надежную оценку словарного запаса ребенка. Диагностическая, или предсказательная, значимость психологиче-ского теста зависит от того, насколько он может служить показателемотносительно широкой и существенной области поведения. Измерениевыборки поведения, задаваемого тестом, очень редко оказывается, есливообще оказывается, целью психологического тестирования. Знание ре-бенком какого-то списка из 50 слов, так же как и выполнение конкретнойсерии из 20 арифметических задач, сами по себе не представляют боль-шого интереса. Но если можно установить непосредственную связь ме-жду знанием ребенком данного списка слов и его общим словарным за-пасом или же между показателем, полученным при решении арифметиче-ских задач, и индивидуальным выполнением счетных операций наработе, то тест выполнил свою задачу. В связи с этим следует заметить, что тестовые задания не обязатель-но строятся на сходстве с поведением, которое тест должен предсказать.Здесь только важно, чтобы между ними и поведением существовала эм-пирическая связь. Степень сходства между тестовой выборкой поведенияи поведением прогнозируемым достаточно произвольна. Тест можетполностью соответствовать какой-то части предсказываемого поведения.Таковы, например, тест на знание иностранных слов, в котором у уча-щихся спрашиваются 20 из 50 вновь выученных слов, или тест на знаниеправил дорожного движения для получения водительских прав. Но, на-пример, задания тестов профессиональной пригодности, применяемыхперед началом обучения специальности, мало похожи на те, которые Особенно сложным является вопрос о диагностическом и прогностическом значе-нии интеллектуальных тестов. Суммарные показатели выполнения тестов, и прежде всетосуммарный общий интеллектуальный показатель IQ, не дают основания ни для диагноза,ни для прогноза (предсказания). Как отмечает сама А. Анастази, они говорят только обуспешности выполнения содержащегося в данном тесте набора заданий, т.е. выше, нижеили на уровне средних, установленных в результате стандартизации норм, выполнены за-дания теста. Дифференциально-диагностическое и прогностическое значение тесты, ве-роятно, могут иметь в том случае, когда они обнаруживают качественное своеобразиеразвития, позволяют судить о проявлении каких-то существенных его закономерностей.В частности, такие данные можно получить при анализе характера соотношения показате-лей по всем (если они достаточно разнообразны) субтестам, входящим в данный тест.Возможности прогнозирования в дифференциальной психологической диагностике возрас-тают при сопоставлении результатов повторных тестирований, проводимых через доста-точные для выявления динамики развития сроки. При этом в расчет обязательно долженприниматься характер заданий, ибо иначе нельзя судить ни об особенностях структурыпсихической деятельности, ни о проявлении определенных закономерностей. Таким обра-зом. полноценный анализ результатов тестирования предполагает качественно-количест-венный анализ. Окончательное суждение о диагностической и прогностической ценности теста мо-жет быть вынесено только на основании эмпирической проверки результатов. (Прим. ред.)33ПРИРОДА ПСИХОЛОГИЧЕСКИХ 11-(ГОВ И ИХ ПРИМЕНЕНИЕприходится выполнять на настоящей работе. В проективных личностныхгестах, таких, как тест чернильных пятен Роршаха, делается попытка наоснове ассоциаций, возникающих у субъекта при разглядывании чер-нильных пятен, предсказать, как он будет реагировать на других людей,эмоциональные раздражители и прочие сложные ситуации повседневнойжизни. Несмотря на внешние различия, все эти тесты состоят из выборокиндивидуального поведения, их ценность доказывается эмпирическиустанавливаемым соответствием деятельности субъекта в тесте его дей-ствиям в других ситуациях. Используется ли при этом термин или термин — разница невелика. Обычно предсказание подразумевает временнуюоценку, например будущее выполнение индивидом какой-либо деятель-ности, исходя из результатов выполнения им теста в настоящее время.Вместе с тем в широком смысле диагноз таких наличных состояний, какумственная отсталость или эмоциональные расстройства, также содер-жит предсказание того, как будет вести себя индивид в ситуациях, от-личных от тестовых. Логически проще рассматривать все тесты как вы-борки поведения, анализ которых позволяет предсказать поведениев других случаях. Разные типы тестов поэтому могут рассматриватьсялишь как разновидности этой основной схемы. Еще один момент, который следовало бы обсудить в самом начале,связан с понятием способность. Вполне возможно создать тест, напри-мер, для предсказания того, насколько успешно индивид может обучить-ся французскому языку. Такой тест мог бы содержать выборку типов по-ведения, необходимых для изучения незнакомого языка, но сам по себене предполагал бы знания такого языка. В этом случае можно было бысказать, что этот тест измеряет способность (или возможности) индивидак изучению французского. Однако такие термины по отношению к пси-хологическим тестам следует использовать с оговоркой, лишь в томсмысле, что выборка настоящего поведения может быть использованакак показатель другого, будущего поведения. Ни один психологическийтест не в состоянии измерить ничего, кроме поведения. Будет ли такоеповедение эффективным показателем другого поведения, определяетсятолько эмпирическим путем. Стандартизация. Напомним, что в самом начале психологиче-ский тест определялся как стандартизованное измерение. Стандартиза-ция подразумевает единообразие процедуры проведения и оценки выпол-нения теста. Если показатели, полученные разными индивидами, должныбыть сравнимыми, то, очевидно, условия тестирования должны быть оди-наковыми для всех. Такое требование есть лишь конкретное применениетребования контролируемости условий любого научного наблюдения.В тестовой ситуации единственной независимой переменной обычноявляется тестируемый индивид. Чтобы обеспечить единообразие условий тестирования, создательтеста дает подробные указания по проведению каждого вновь разрабо-танного теста. Формулирование таких указаний составляет основнуючасть стандартизации нового теста. Такая стандартизация включаетточные указания относительно используемых материалов, временныхограничений, устных инструкций испытуемому, предварительного показазаданий, способов трактовки вопросов со стороны испытуемого и другиедетали проведения теста. На выполнение некоторых тестов испытуемым34 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯили читая задания устно, следует принимать в расчет скорость речи, тонголоса, модуляцию, паузы и выражение лица. В тесте на выявление неле-постей, например, правильный ответ может быть невольно подсказанулыбкой экспериментатора или паузой после произнесения критическогослова. Значение стандартизованной процедуры тестирования с точки зре-ния экспериментатора будет обсуждаться в этой главе в связи с пробле-мами проведения теста. Другим важным этапом в стандартизации теста является определе-ние норм. Психологические тесты не имеют заранее определенных стан-дартов успешности или неудачи в выполнении теста, индивидуальные по-казатели оцениваются в сравнении с показателями, полученнымидругими. Сам термин уже указывает на нормальное, или сред-нее, выполнение. Поэтому, если обычные 8-летние дети правильно ре-шают 12 задач из 50 в тесте на типичное арифметическое рассуждение,значит, норма для 8-летнего в этом тесте соответствует показателю 12.Такой показатель принято называть первичным (необработанным, сы-рым) показателем. Он может выражаться числом правильно решенныхзаданий, временем, необходимым для их выполнения, числом ошибоки другими объективными единицами измерения, соответствующими со-держанию теста. Такой первичный показатель ни о чем не говорит дотех пор, пока не оценивается в соответствующей системе норм. Стандартизация теста осуществляется его проведением на большойрепрезентативной выборке испытуемых того типа, для которого он пред-назначен. Относительно этой группы испытуемых, называемой выборкойстандартизации, вырабатываются нормы, указывающие не только сред-ний уровень выполнения, но и его относительную вариативность вышеи ниже среднего уровня. Поэтому можно оценить разные степени успеш-ности и неуспешности в тесте. Это позволяет определить положение ин-дивида относительно нормативной выборки или выборки стандартиза-ции. Конкретные способы получения таких норм рассматриваютсяв гл. 4. Следует отметить, чт" ,жы для личностных тестов устанавли-ваются в сущности точ -ке, как и для тестов способностей. Для те-стов обоих типов нор соответствует их выполнению обычными, илисредними, индивидами. Например, в тесте на норма приходится на промежуточную точку, представляющую собойуровень авторитарности или подчинения, характерный для среднего ин-дивида. Подобным же образом в опроснике на эмоциональную устойчи-вость норма не просто соответствует полному отсутствию неблаго-приятных или недостаточно приспособленных ответов, поскольку неко-торое количество таких ответов свойственно большинству нормальныхиндивидов из выборки стандартизации. Из этого ясно, что психологиче-ские тесты любого типа опираются на эмпирически установленныенормы. Объективное измерение трудности. Обращаясь к определе-нию психологического теста, с которого началось его обсуждение, пока-жем, что тест был охарактеризован не только как стандартизованное, нои как объективное измерение. Какими специальными приемами доби-ваются объективности тестов? Некоторые аспекты проблемы объектив-ности психологических тестов уже затрагивались при обсуждении стан-дартизации. В связи с этим отмечалось, что получение первичных35ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕвисят от субъективных суждений экспериментатора. Теоретически длялюбого индивида показатель должен быть одним и тем же независимоот того, кто проводит тест. На самом деле это не совсем так, посколькуполная стандартизация и объективность практически недостижимы. Нообъективность по крайней мере является целью создания теста, и длябольшинства тестов ее уровень достаточно высок. Имеются и другие не менее важные методы достижения объективно-сти психологических тестов. Определение степени трудности одного за-дания или теста в целом основывается на объективных эмпирическихпроцедурах. Когда А. Бине и Т. Симон в 1905 г. готовили свою первуюшкалу для измерения интеллекта, то расположили 30 заданий шкалыв порядке возрастания трудности. Напомним, что степень трудности вы-являлась сравнением выполнения заданий 50 нормальными и нескольки-ми умственно отсталыми детьми. Задания, правильно выполненные по-чти всеми детьми, естественно, определялись как наиболее легкие,а задания, выполненные сравнительно небольшим числом детей, рассма-тривались как более трудные. С помощью такой процедуры эмпирическиустанавливалась степень трудности задания. Этот пример из истории те-стирования представляет типичный способ объективного измерения сте-пени трудности, в настоящее время ставший общепринятым. Не только расположение, но и отбор заданий для включения ихв тест может определяться числом испытуемых, в пробной выборке вы-полнивших каждое задание. Так, если обнаруживается избыток легкихили трудных заданий, от некоторых из них можно отказаться. Аналогич-но, если не хватает заданий какой-либо степени трудности, можно доба-вить новые, чтобы заполнить пробелы. Более подробно способы анализазаданий рассматриваются в гл. 8. Надежность. Насколько пригоден данный тест? Действительно лион выполняет свои функции? Эти вопросы могут вызывать, и иногда вы-зывают, длительные бесплодные дискуссии. Предубеждения, субъек-тивные выводы, личные пристрастия могут вести, с одной стороны,к переоценке возможностей конкретного теста, а с другой-к упорномуего неприятию. Единственный способ ответить на подобные вопросы-эмпирическая проверка. Объективная оценка психологических тестовпрежде всего означает определение их надежности и валидности в кон-кретных ситуациях. В психометрии термин всегда означает согласован-ность. Надежность теста есть согласованность показателей, полученныху тех же самых испытуемых при повторном тестировании тем же самымтестом или эквивалентной его формой. Если у ребенка IQ в понедельникравен 110, а в пятницу 80, то очевидно, что к такому показателю вряд лиможно отнестись с доверием. Аналогично, если индивид в ряду из 50слов правильно определил 40, а в другом считающемся эквивалентнымряду-только 20, то ни один из этих показателей не может рассматри-ваться в качестве меры его вербального понимания. Разумеется, в обоихпримерах возможно, что ошибочным является только один из двух пока-зателей, но это может подтвердить лишь последующее тестирование; изприведенных данных следует только то, что вместе показатели не могутбыть правильными. Прежде чем психологический тест станет общим достоянием, необ-ходимо провести тщательную объективную проверку его надежности.36СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯсмериваются в гл. 5. Надежность может проверяться относительно вре-менных изменений, выбора конкретных заданий, или тестовой выборкиповедения, роли индивидуальности экспериментатора или специалистапо обработке тестовых показателей и других аспектов тестирования.Очень важно точно указать тип надежности и способ ее определения, по-скольку один и тот же тест может изменяться в различных аспектах. Же-лательно также иметь сведения о численности и особенностях индиви-дов, на которых проверялась надежность теста. Такая информацияпозволит пользующемуся тестом решить, насколько надежен этот тестдля той группы, к которой он собирается его применить. Валидность. Несомненно, самый важный вопрос относительновсякого психологического теста-это его валидность, т.е. степень, в кото-рой тест действительно измеряет то, для чего он предназначен. Валид-ность обеспечивается непосредственным контролем за тем, насколько хо-рошо тест выполняет свою функцию. Для определения валидностиобычно требуется независимый внешний критерий всего того, что тестдолжен измерять. Например, если тест медицинских способностей ис-пользуется при отборе поступающих в медицинское училище, критериембудет являться успешность обучения в этом училище. Чтобы установитьвалидность такого теста, его следует провести на большой группе сту-дентов в то время, когда они поступают в училище. Показателями ре-зультативности их обучения в медицинском училище будут служить по-лучаемые каждым учащимся отметки, характеристики преподавателей,какие-либо заметные успехи или неудачи в учебе и т. п. Совокупность та-ких показателей и будет критерием, с которым следует соотнести ис-ходные тестовые показатели студентов. Высокая корреляция, или высо-кий коэффициент валидности, означала бы, что индивиды, имевшиевысокие показатели, добивались в медицинском училище заметных успе-хов, а у имевших низкие показатели успехи были слабыми. При низкойкорреляции соответствие между тестовым показателем и критерием бы-ло бы незначительным и, следовательно, валидность теста низкой. Коэф-фициент валидности позволяет определить, насколько точно может бытьпредсказана на основе тестовых показателей успешность критериальнойдеятельности. Подобным же образом устанавливается валидность тестов, предназ-наченных для других целей. Например, для теста профессиональной при-годности валидность можно установить, основываясь на результативно-сти работы контрольной группы, составленной из вновь нанятогоперсонала. Валидность батареи тестов, предназначенных для определе-ния летных качеств, может быть установлена по результатам обучениялетному делу. Валидность тестов, применяющихся более широко, обыч-но устанавливается относительно ряда критериев, благодаря постепенно-му накоплению данных из множества различных исследований. Читатель, может быть, обратил внимание на кажущуюся парадок-сальность понятия тестовой валидности. Если так необходимо наблю-дать за испытуемыми вне тестовой ситуации или как-то иначе получатьобъективные данные о том, что пытается предсказать тест, почему же неотказаться от самого теста? Ответ на этот вопрос нужно искать в разли-чиях между группой, на которой определяется валидность теста, и груп-пой, которой тест предъявляется практически. Валидность теста устана-вливается на репрезентативной выборке испытуемых. Показатели этих37ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕЕсли таким способом доказывается валидность теста, его можно приме-нять на других выборках без измерений критерия. В качестве довода в пользу тестирования можно сослаться и на тотфакт, что, прежде чем критериальные показатели могут быть получены,приходится довольно долго ждать. Такая процедура настолько расточи-тельна по затратам времени и энергии, что в большинстве случаев дол-жна запрещаться. В самом деле, следуя ей, можно определить, кто из по-ступающих на работу справится с ней или кто из студентов успешнозакончит колледж, только приняв всех желающих и дождавшись оконча-тельных итогов! Самое страшное в такой процедуре-ее пагубное эмо-циональное воздействие на индивидов, а именно его тесты предназна-чены свести к минимуму. С их помощью можно заранее с известнойвероятностью определить актуальный уровень развития у индивида не-обходимых навыков, знаний и других релевантных характеристик,составляющих предпосылку будущей деятельности. И чем выше валид-ность и надежность теста, тем меньше будет вероятность ошибки. Конкретные проблемы, с которыми сталкиваются при определениивалидности тестов разных типов, а также используемые при этом спе-циальные критерии и статистические методы рассматриваются в гл. 6и 7. Однако один момент необходимо обсудить сейчас. Валидность гово-рит не только о степени соответствия теста своим функциям. В действи-тельности она указывает на то, что именно измеряется данным тестом.Поэтому было бы более точным определение валидности как той меры,с помощью которой устанавливается, что измеряется тестом. Несомнен-но, интерпретация тссювых показателей была бы более ясной и одно-значной, если бы тесты все время назывались в соответствии с крите-риальными данными, с помощью которых оценивалась их валидность.Примером такого соответствия могут служить названия таких тестов,как тест способностей к обучению и тест распределения персонала вме-сто неопределенного-тест интеллекта.ПОЧЕМУ НЕОБХОДИМ КОНТРОЛЬ ЗА ИСПОЛЬЗОВАНИЕМПСИХОЛОГИЧЕСКИХ ТЕСТОВ? . . . . . Эти высказывания не выдуманы. Каждое взято из реальных случаев,перечисление которых легко может продолжить любой психолог. Этивысказывания есть примеры возможного неправильного использованияили интерпретации психологических тестов, ведущих к представлению- —_".. ..",. "м-гп йм-ппттечном или даже вредящем обследуемому.38СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИТОВДНИЯтесты, чтобы быть эффективными, должны правильно использоваться.В руках недобросовестного или некоиицированного экспериментато-ра тесты могут принести серьезный вред. Две основные причины необходимости контроля за использованиемпсихологических тестов такоиы: а) предотвратить делающую тест нева-лидным всеобщую доступное] ь его содержания, б) гарантировать ис-пользование тестов только .пифицириванными экспериментаторами.Ясно, что если индивид запилю..!.;[ праиильпые ответы в тесте на цве-торазличение, то этим тестом уже нельзя измерить его цветовое зрение.В этом случае тест полностью терист с.:"-40 валидность. Очевидно, чтосохранение содержания теста в тайне пооллет предотвратить предна-меренное искажение показателей. В иных случаях последствия знакомства с тестом могут быть нестоль очевидными, а тест yipaiiibaci СБОЮ валидиость благодаря дей-ствиям малоосведомленных лиц. Школьный учитель, например, можетспециально натренировать свой класс в решении задач, сходных с зада-ниями теста интеллекта с тем, . Такое отношение к тесту определяется отно-шением к подготовке к школьным экзаменам. Однако в случае с тестоминтеллекта такая предварительная тренировка, или подготовка, скореевсего повысит тестовые показатели, не повлияв сколь-нибудь заметно наболее широкую область поведения, которую тестом пытаются прове-рить. При этих условиях валидность теста как средства прогнозаснижается. Потребность в квалифицированном экспериментаторе на каждом изтрех основных этапов тестирования-выбор теста, его проведение, полу-чение показателей и их интерпретация-очевидна. Тесты нельзя выби-рать, подобно косилкам для газонов, по каталогу, высланному почтой.Они не могут быть оценены по названию, автору или другим каким-топризнакам идентификации теста. Разумеется, 4iuubi оцепишь такие фак-торы, как цена, объем, способ транспортировки тестовых материалов,время, необходимое для проведения тестирования, легкость и быстротав получении показателей психологической подготовки не требуется, ин-формация по этим вопросам обычно приводится в каталоге тестов, и еенеобходимо учитывать при составлении программы тестирования. Одна-ко для того, чтобы тест выполнил свои функции, важно оценить такиеего технические характеристики, как валидность, надежность, степеньтрудности и нормы. Только таким образом человек, пользующийся те-стом, определит, насколько тест пригоден для его целей и соответствуеттипу испытуемых, для которых он этот тест предназначил. В кратком обсуждении стандартизации теста, уже приводившемсяв этой главе, обосновывалась необходимость опытного экспериментато-ра. Точность в выполнении требований инструкции, а также основатель-ное знакомство со стандартными инструкциями необходимы, если нужносравнить полученные разными экспериментаторами тестовые п эказателиили же если индивидуальные показатели необходимо оценить в соответ-ствии с опубликованными нормами. Столь же важен тщательный кон-троль за условиями тестирования. Кроме того, неправильное или не со-всем точное определение тестовых показателей может сделать ихбесполезными. При отсутствии надлежащего контроля ошибки в показа-39ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕнего понимания самого теста, индивида и условий тестирования. Чтоименно измеряется-можно объективно определить, только соотнеся тестсо специфическими процедурами, на основе которых была установленаего валидность. Столь же необходима и информация о надежности, осо-бенностях группы, на которой устанавливались нормы, и т.п. Суще-ственными для интерпретации любых показателей теста являются общиесведения о тестируемом индивиде. Один и тот же показатель получаетсяу разных лиц по совершенно различным причинам. Поэтому заключения,которые делают, исходя из таких показателей, могут полностью не сов-падать. Наконец, нельзя не упомянуть и такие особые факторы, влияю-щие на конкретный показатель, как необычные условия тестирования,временные эмоциональные или физические состояния испытуемого и егопредварительное знакомство с тестами.ПРОВЕДЕНИЕ ТЕСТИРОВАНИЯРазумное объяснение применения тестирования заключается в возмож-ности обобщения поведения, проявляемого в тестовой ситуации, на пове-дение в иных, нетестовых условиях. Тестовый показатель должен помочьнам предсказать, как пациент будет себя чувствовать и действовать запределами клиники, как студент будет учиться в колледже, а поступаю-щий на работу справится со своими обязанностями. Любое свойственноетестовой ситуации воздействие послужит основой ошибочного вариантаи уменьшит валидность теста. Вот почему важно выявить связанныес тестом воздействия, ограничивающие или снижающие обобщающеезначение тестовых результатов. Рассмотрению подходящих приемов тестирования можно посвятитьцелый том, но такой обзор выходит за рамки данной книги. Более того,полезнее познакомиться с такими приемами в конкретной обстановке,поскольку обычно ни один человек не имеет дело со всеми формами те-стирования,-от проверки младенцев до клинического обследования ду-шевнобольных или проведения программ массового тестирования воен-нослужащих.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Поэтому в задачи этой книги входит главным образомрассмотрение общих основ тестирования, а не специальных вопросовпроведения тестов Предварительная подготовка экспериментаторов. Наибо-лее важным условием правильного проведения тестирования являетсяпредварительная подготовка. При тестировании не должны возникатьнепредвиденные обстоятельства. Поэтому должны быть приняты спе-циальные меры для того, чтобы предвидеть и предупредить возникнове-ние возможных случайностей. Только так можно обеспечить единообра-зие процедуры тестирования. Предварительная подготовка к сеансу тестирования достаточномногообразна. Для большинства индивидуальных тестов важно точнопомнить словесную инструкцию. Даже в групповом тесте, в котором ин-струкции испытуемым зачитываются, некоторое предварительное зна-комство с их текстом предупреждает неправильное прочтение, запинание Подробное рассмотрение общей процедуры тестирования приводится в работахrtw Г> Пяпирпя И Г> Palmer 1970) ЛжМ Гяттттепа (.Т.М. Sattler. 1974). индивидуального40 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯи обеспечивает при тестировании более естественную, непринужденнуюманеру поведения экспериментатора. Еще одним важным предвари-тельным моментом является подготовка тестовых материалов. В инди-видуальном тестировании, особенно при проведении тестов действия, та-кая подготовка включает размещение необходимых материалов с тем,чтобы свести к минимуму их поиски или неловкое обращение с ними.Как правило, материалы должны располагаться на столе вблизи местатестирования так, чтобы они были доступны экспериментатору, но и неотвлекали внимания испытуемого. При использовании аппаратуры частовозникает необходимость в ее периодическом контроле и калибровке.При групповом тестировании все тестовые бланки, листки для ответов,специальные карандаши и другие материалы заранее должны быть тща-тельно проверены, пересчитаны и приведены в порядок. Подробное знакомство с конкретной процедурой тестирования-ещеодна важная его предпосылка. Для индивидуального тестирования осо-бенно существенно предварительное обучение проведению определенно-го теста. В зависимости от характера теста и типа исследуемых испы-туемых для такого обучения может оказаться достаточным несколькихпоказов и практических занятий, а может потребоваться более чем го-дичное обучение. При групповом тестировании и особенно в массовыхобследованиях такая подготовка может включать предварительный ин-структаж экспериментаторов и кураторов с тем, чтобы каждый хорошопредставлял свои функции. Обычно экспериментаторы зачитывают ин-струкции, следят за временем выполнения и руководят группой в усло-виях тесгироцапия. Кураторы выдают и собирают тестовые материалы,следят за тем, чтобы испытуемые выполняли инструкции, отвечаютв разрешенных инструкцией пределах на их вопросы, не допускают с ихстороны обмана. Условия тестирования. Стандартизация затрагивает не толькословесные инструкции, время, материалы и другие аспекты тестирования,но и окружающую обстановку. Определенное внимание нужно уделитьвыбору подходящего для тестирования помещения. Оно должно бытьизолировано от чрезмерного шума и всего, что отвлекает внимание;в нем необходимо создать подходящее освещение, обеспечить вентиля-цию, удобные сиденья и рабочее место испытуемого. Следует также при-нять специальные меры, предотвращающие прерывание тестирования.Установка на двери специального знака, предупреждающего, что ведетсятестирование, эффективна лишь при условии, что все знают, что такойзнак запрещает входить в помещение при любых обстоятельствах. Воз-можно также при тестировании больших групп запереть двери или по-ставить около них помощников, не позволяющих войти опоздавшим. Важно осознавать те пределы, в которых условия тестирования мо-гут влиять на тестовые показатели. Даже кажущиеся незначительнымиаспекты тестовой ситуации могут заметно влиять на выполнение теста.Например, такой фактор, как использование парт или кресел с откиднымстоликом, повлиял на результаты группового тестирования учащихсясредних школ; в группах, сидевших за партами, они оказались выше(Т. L. КеПеу, 1943; А. Е. Traxler, R. N. Hilkert, 1942). Имеются также доказа-тельства того, что тип использованных бланков для ответов можетвлиять на тестовые показатели (F.O.Beh, A.L.Hoff, K.B.Hoyt, 1964).Поскольку агентства, подсчитывающие и обрабатывающие тестовыеданные, делают это независимо друг от друга и Rгrг-""— —"41ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕбланки для ответов на задания теста, то бывают случаи, когда экспери-ментаторы проводят тестирование с помощью других бланков ответов,приспособленных к машинной обработке и отличных от тех, что исполь-зовались при стандартизации теста. Без эмпирической проверки эквива-лентность таких бланков не может считаться чем-то само собой разу-меющимся. Например, тесты различных способностей вполне можнопроводить с помощью любого из пяти различных бланков ответов. Длятеста скорости и точности канцелярской работы в этой батарее для трехиз пяти видов бланков приводятся отдельные нормы, так как было уста-новлено, что показатели по ним существенно отличаются от тех, что бы-ли получены с помощью опросника, примененного на выборке стандар-тизации. При тестировании детей до V класса использование любогоотдельно взятого бланка для ответов может значительно снизить те-стовые показатели. Для детей такого уровня развития, как правило,предпочтительней, чтобы они просто отмечали свои ответы в тестовойтетради. Множество других, менее очевидных условий тестирования такжемогут влиять на выполнение тестов способностей и личностных тестов.Так, на тестовые показатели может заметно повлиять знакомство испы-туемого с экзаменатором (E.L. Sacks, 1952; A. Tsudzuki, Y. Hata, T. Kuze,1957). В одном исследовании было обнаружено, что на результаты тести-рования оказала решающее влияние манера поведения экспериментато-ра; он улыбался в знак согласия, кивал головой, делал замечания типа , (Т. A. Wickes, 1956). В проективном тесте, где отиспытуемого требовалось написать истории к специально подобраннымкартинкам, присутствие экспериментатора в комнате часто приводилок снижению эмоциональной окрашенности содержания этих историй(L. Bernstein, 1956). При проведении теста на умение печатать на машин-ке поступавшие на работу печатали значительно быстрее, если тестиро-вались в одиночку, по сравнению с тестированием в группах из двухи более человек (W.K. Kirchner, 1966). Примеры можно было бы приводить еще и еще, но выводы из нихозначают выполнение следующих трех требований. Во-первых, необходи-мо следовать процедурам стандартизации даже в самых незначительныхподробностях. Создатель теста и его издатель несут ответственность зато, чтобы процедура тестирования полно и достаточно ясно была описа-на в руководстве по использованию теста. Во-вторых, следует регистри-ровать любые нестандартные условия тестирования, какими бы второ-степенными они ни казались. В-третьих, при интерпретации результатовтеста важно учитывать условия тестирования. При подробном обследо-вании личности методом индивидуального тестирования опытный экспе-риментатор иногда отступает от стандартной процедуры проведения те-ста, с тем чтобы выявить дополнительные данные. Поступив такимобразом, он теряет право интерпретировать ответы испытуемого в со-ответствии с тестовыми нормами. В этом случае тестовые задания ис-пользуются только для качественного исследования; и ответы испы-туемых необходимо рассматривать точно так же, как любые другиенеформальные наблюдения за их поведением или данные интервью. Взаимопонимание. В психометрии термин означает стремление экспериментатора вызвать у испытуемого интереск тесту, установить с ним контакт и обеспечить, чтобы он выполнялстандаотные тестовые инструкции. В тестах способностей инструкцииДаТ "туем " ния> "РИН тировани, возраста > ются в "ифи- -oPeaL Ly—ойсетеТ т" T e другие n теи из ньгя ическ-му aть, что иу ои— же iR-жиз-43 ПРИРОДА ПСИХОЛОГИЧЕСКИХ TF (S.B. Andersen. М K>i7 R Ьп-пЬргст Юй44СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯКонечно же, не в его интересах начать учебу, к которой он не подготов-лен, или быть принятым на работу, которую он не может выполнять иликоторая не соответствует его психическому складу. Тревожность при тестировании. Многие приемы, предназна-ченные для налаживания контактов с испытуемыми, уменьшают такжеи их тревожность во время тестирования. Способы, устраняющие в те-стировании случайности и неожиданности, а также успокаивающиеи ободряющие испытуемого, конечно же, помогают снизить его тревож-ность. Поведение самого экспериментатора, хорошая организация про-цесса тестирования и отсутствие помех при его проведении служат тойже цели. Индивидуальные проявления тревожности, возникающей притестировании, изучались на школьниках и на учащихся колледжей(E.Gaudry, C.D. Spielberger, 1974; C.D. Spielberger, 1972). Многое в этомисследовании было заимствовано у С. Б. Саразона и его коллег по Иель-скому университету (S. В. Sarason, К. S. Davidson, F. F. Lighthall,R. R. Waite, В. К. Ruebush, 1960). Первым шагом явилось создание вопрос-ника, позволяющего выявить отношение индивидов к тестированию.Форма для детей содержала, например, такие вопросы: Испытываете ли вы беспокойство перед тестированием? Когда учительница говорит, что она собирается проверить, как много вы выучили,начинает ли ваше сердце биться быстрее? Во время выполнения теста всегда ли вы думаете, что делаете его недостаточнохорошо? Самое интересное из обнаруженного исследователями представляеттот факт, что как показатели тестов школьных достижений, так и показа-тели интеллектуальных тестов находятся в обратно пропорциональномотношении с тревожностью. Похожий результат получен и для студен-тов колледжей (1. G. Sarason, 1961). Лонгитюдные исследования такжеподтвердили существование обратной связи между изменениями в уров-не тревожности и изменениями в выполнении тестов достижений и те-стов интеллекта (К. Т. Hill, S. В. Sarason, 1966; S. В. Sarason, К. Т. Hill.P.A.Zimbargo, 1964). Конечно, подобные результаты не выявляют направления при-чинных связей. Возможно, у детей возникает тревожность при тестирова-нии из-за того, что когда-то они плохо выполнили тест и у них сохрани-лось впечатление предыдущей неудачи и разочарования. В пользу такогообъяснения говорит сам факт, ч го у испытуемых с высокими показателя-ми по тестам интеллекта исчезает обратная связь между уровнем тре-вожности и успешностью выполнения теста (J.P.Denny, 1966; J.F.Fe-ldhusen, H.J. Klausmeier, 1962). В то же время вполне допустимопредположить, что по крайней мере частично эта связь является резуль-татом нежелательного влияния тревожности на выполнение теста.В одной работе (R. R. Wait, S. В. Sarason, F.F.Lighthall, К. S. Davidson,1958) детям, склонным и не склонным к тревожности и имевшим равныепоказатели в тесте интеллекта, этот тест повторили. Дети, не склонныек тревожности, при повторном тестировании значительно улучшили своипоказатели по сравнению с детьми, к тревожности склонными. Некоторые исследователи сравнивали выполнение тестов в условиях,усиливающих и ослабляющих тревожность испытуемых. Г. Мандлери С. Б. Саразон (G. Mandler, S.B. Sarason, 1952), например, обнаружили.что использование направленных инструкций типа разговора с испы-туемыми о том, что, по-видимому, все уложатся в отведенное время,451РИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ Г1РИМЁНЕНИ1.. благотворно сказывается на выполнении теста испытуемыми, не склонными к тревожности, и неблагоприятно на тревожных. В других ра- ботах были получены сходные данные о взаимосвязи условий тестирова- ния с такими характеристиками индивидов, как уровень тревожности и мотивация достижения (S.M. Lawrence, 1963: G.L. Paul, C.W. Eriksen, 1964). По всей видимости, отношения между тревожностью и выполне- нием теста нелинейны, небольшая тревожность оказывается благотвор- ной, а сильная-вредной. Индивидам с невысоким уровнем тревожности благоприятны тестовые условия, вызывающие состояние некоторой тре- воги, в то время как людям, имеющим высокий уровень тревожности, лучше выполнять тест в более спокойных условиях. Несомненно, что постоянно высокий уровень тревожности отрица- тельно сказывается на школьном обучении и интеллектуальном разви- тии. Но при тестировании такое состояние носит временный характер. Насколько же индивидуальное выполнение теста в состоянии тревожно- сти отличается от уровня действий вне тестовой ситуации? Доказано,., что под влиянием конкурсной напряженности у выпускников средних школ при выполнении тестов подготовленности к обучению в колледже может возникнуть состояние чрезмерного напряжения. В тщательном и хорошо обоснованном исследовании этой проблемы Д.В. Френч (J.W. French, 1962) сравнил выполнение выпускниками средней школы теста, данного как часть обычно проводимого теста способности к обу- чению, с выполнением параллельной формы этого теста, проведенного в другое время и более спокойных условиях. Инструкция в последнем случае специально указывала, что тест дается только с научно-исследова- тельскими целями и показатели по нему не будут передаваться в коллед- жи. Полученные результаты выявили, что выполнение теста в обычных условиях приема в колледж было не хуже, чем выполнение в менее на- пряженной обстановке. Более того, валидность тестовых показателей от- носительно неподготовленности к обучению в колледже в этих двух ус- ловиях значимо не различалась.ЭКСПЕРИМЕНТАТОР И СИТУАЦИОННЫЕ ПЕРЕМЕННЫЕВсесторонние исследования влияния экспериментаторов и ситуационныхпеременных на тестовые показатели были осуществлены С. Б. Саразоном(S.B.Sarason, 1954), Дж.Маслингом (J.Masling, 1960), А.Мориарти(A. E. Moriarty, 1961; 1966), Дж. Сэттлером и Ф. Тэйе (J. М. Sattler, F. Theye,1967), Дж. Палмером (J. О. Palmer, 1970) и Дж. Сэттлером (J.M. Sattler,1970, 1974). Хотя некоторые исследования выполнены на объек-тивных групповых тестах, большинство данных получено либо напроективных тестах, либо на индивидуальных тестах интеллекта. Влия-ние побочных факторов, по-видимому, легче заметить, работая с не-структурированными и неясными стимулами или же с трудными и новы-ми заданиями, а не с четко определенными и хорошо изученнымифункциями. В целом дети более восприимчивы к влиянию эксперимента-тора и ситуационным изменениям, чем взрослые; при исследовании до-школьников роль экспериментатора особенно важна. Эмоционально не-уравновешенные и неуверенные в себе люди, по-видимому, в любомвозрасте также более подвержены влиянию побочных факторов по срав-46 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ Имеются данные, свидетельствующие о том, что результаты тести-рования могут систематически меняться в зависимости от эксперимента-тора (Е. Cohen, 1965; J. Masling, 1960). Разница в результатах может бытьсвязана с личностными особенностями экспериментатора, такими, какего возраст, пол, раса, профессиональный или социоэкономический ста-тус, опытность, черты характера и внешний вид. Однако исследованиядействия этих особенностей экспериментатора дали обманчивые или не-убедительные результаты, поскольку в них не сумели отделить влияниетого или иного качества экспериментатора и особенности испытуемого,а значит, влияние двух или более факторов могло смешиваться. Поведение экспериментатора до и во время тестирования также, ве-роятно, влияет на тестовые результаты. Например, проверочные исследо-вания показали, что выполнение теста интеллекта значимо различаетсяв зависимости от того, установились ли между экспериментатором и ис-пытуемым теплые или прохладные отношения, держал ли себя экспери-ментатор напряженно и отчужденно или, напротив, естественно и непри-нужденно (J.E.Exner, 1966; J. Masling, 1959). Более того, вероятно,существует зависимость между особенностями экспериментатора и испы-туемого, в том смысле, что одни и те же качества экспериментатора илиего манера поведения могут по-разному влиять на разных испытуемыхв зависимости от индивидуальных особенностей последних. Подобнаязависимость существует и по отношению к переменным факторам зада-ния, таким, как тип теста, цель тестирования, инструкции, даваемые ис-пытуемым. X. С. Дьер (H.S. Dyer, 1973) расширил список побочных фак-торов, обратив внимание на возможное влияние расхожденияв восприятии функций и целей тестирования у проводящего тест и про-ходящего тестирование. Еще один способ, которым экспериментатор может непреднамерен-но повлиять на ответ испытуемого, связан с тем, чего сам он ждет от те-ста. Это одно из проявлений (R. Rosenthal, 1966; R. Rosenthal, R.L. Rosnow, 1969). Эксперимент, прове-денный по методике Роршаха (J. Masling, 1965), поясняет этот эффект.Экспериментаторами были 14 добровольцев из окончивших высшиеучебные заведения, семи из них помимо всего прочего сообщалось, чтоу опытных экспериментаторов ассоциации испытуемых скорее связаныс человеком, чем с животными; семи другим говорили обратное. Приэтих условиях две группы экспериментаторов получили от своих испы-туемых значимо различающиеся процентные соотношения ассоциаций,связанных с животными и с человеком. Эти различия возникли, хотя ниэкспериментаторы, ни испытуемые не осознавали какого-либо влиянияна них. Более того, магнитофонная запись сеанса тестирования не выяви-ла какого-либо словесного воздействия со стороны экспериментаторов.Ожидания экспериментаторов, по-видимому, находили свое выражениев неуловимых изменениях позы и выражении лица, на которые и реаги-ровали испытуемые. На выполнение теста может влиять не только экспериментатор, нои другие аспекты ситуации. Новобранцы, например, вскоре после посту-пления на службу часто подвергаются тестированию в период интенсив-ного приспособления к незнакомой и стрессовой ситуации. В одном ис-следовании, предназначенном выявить влияние адаптации на выполнениетеста, 2724 новобранцам на девятый день после их прибытия в Трениро-вочный центр военно-морского флота была предъявлена классифика-47 ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕционная батарея (L.V.Gordon, E.F.AIf, 1960). Когда показатели этойгруппы сравнили с показателями, полученными 2180 новобранцами, те-стированными, как обычно, на третий день пребывания, оказалось, чтопоказатель первой группы значительно выше по всем субтестам батареи. Деятельность испытуемого непосредственно перед тестированиемтакже может повлиять на выполнение теста, особенно если эта деятель-ность вызывает тревогу, усталость или другие отрицательно сказываю-щиеся на тестировании состояния. При исследовании учащихся третьегои четвертого классов были получены данные, свидетельствующие о том,что IQ по тесту зависит от предшествующей дея-тельности детей в классе (D.A. McCarthy, 1944). Один класс писал сочи-нение на тему ; дру-гой в то же самое время писал также сочинение, но уже на тему . Во втором случае, когдатест следовал за деятельностью, вызвавшей, вероятно, эмоционально-де-прессивное состояние, средний IQ был на 4- 5 баллов ниже, чем в первомслучае. Эти данные подтвердились в более позднем исследовании, прове-денном специально для определения влияния на выполнение теста непосредственно предшествующего тестированию опыта(W. Reichenberg-Hackett, 1953). В эксперименте дети, получившие удовле-творение после успешного решения интересной задачи-головоломкии поощренные игрушкой или конфетой, показали при тестировании луч-шие результаты по сравнению с детьми, имевшими эмоционально ней-тральный или менее положительный предшествующий опыт. Сходныеданные были получены В.Е. Дэвисом (W.E. Davis, 1969 а, в) с учащимисяколледжа. Выполнение теста на арифметическое мышление было значи-тельно хуже, если ему предшествовало неудачное выполнение теста навербальное понимание, по сравнению с результатами контрольнойгруппы, которой либо вообще не предъявлялся тест на вербальное пони-мание, либо предъявлялась стандартная форма этого теста в обычныхусловиях. Некоторые работы касались обратной связи разбора тестовых ре-зультатов и последующего выполнения теста. В удивительно продуман-ном исследовании семиклассников Б. Бриджмен (В. Bridgeman, 1974) об-наружил, что сообщение об значительно улучшало выполнениесходного теста по сравнению с сообщением о , хотя испы-туемые в действительности выполнили первоначальный тест одинаковохорошо. Этот тип мотивационной обратной связи в основном можетоказывать свое влияние через те цели, которые испытуемые ставят себепри выполнении, и, следовательно, может рассматриваться как еще одинпример . Но такую общемотива-ционную обратную связь не следует смешивать с корректирующейобратной связью, когда индивид, получая информацию о конкретныхмоментах, в котопых допустил ошибку, корректирует свои действия;в этом случае обратная связь, по всей вероятности, должна улучшить вы-полнение теста индивидами, чьи показатели были низкими. Примеры, приведенные в этом разделе, обнаруживают удивительноеразнообразие связанных с тестом и влияющих на тестовые показателифакторов. В большинстве правильно проведенных программ тестирова-ния влияние таких факторов практически не ощутимо. Тем не менееопытный экспериментатор всегда должен быть готов выявить возмож—~~ ——— -__". ,т ппптт ar TJ. хттттттххгхдг T7r.TTTJ ГТГСТ-48 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕГКОГО ТЕСТИРОВАНИЯтельства не позволяют проконтролировать некоторые условия тестиро-вания, то выводы, которые делаются на основе выполнения теста,следует оговорить.ТРЕНИРОВКА, ПРИВЫЧНОСТЬ И ИСКУШЕННОСТЬ В ТЕСТИРОВАНИИПри оценке влияния тренированности или практики на тестовые резуль-таты основной вопрос в том. ограничивается ли их улучшение кон-кретными заданиями теста, или же оно распространяется на всю областьповедения, для прогнозирования которого создан тест. Ответ на этотвопрос содержится в смысле слов и . Очевидно,что любой опыт, полученный индивидом при обучении, независимо оттого, носит он формальный или неформальный характер, приобретенв школе или вне ее, должен отразиться на выполнении теста, выявляю-щего соответствующие аспекты поведения. Столь широкое воздействиеникоим образом не обесценит тест, поскольку в этом случае тестовыйпоказатель даст точную картину исследуемых способностей индивида.Воздействия, очевидно, следует определять не как частные или общие,а как меняющие свои границы от влияния на единственное применениеединичного теста, влияния на выполнение любых заданий данного типадо влияния на выполнение индивидом основных типов его деятельности.Однако с точки зрения эффективности тестирования их можно разли-чить. Так, можно установить, что тестовый показатель становится нева-лидным только в том случае, если конкретный опыт повышает его беззаметного влияния на всю область исследуемого поведения. Тренировка. Влияние тренировки на тестовые результаты исследо-валось достаточно широко. Большинство работ было проведено англий-скими психологами относительно воздействия практики и тренировки натесты, применяемые при распределении 11 -летних детей в средниешколы разного типа (A.J. Yates, 1953, 1954). Как и предполагалось, сте-пень улучшения зависела от способностей и знаний, полученных при обу-чении ранее, характера теста, а также количества и типа предвари-тельных тренировок. Детям с недостаточным запасом знаний, по всейвероятности, специальная тренировка приносила больше пользы по срав-нению с детьми, обладавшими необходимыми знаниями и, следователь-но, уже подготовленными к тому, чтобд хорошо выполнить тест. Ясно,что чем теснее связь между содержанием теста и материалом трениров-ки, тем очевиднее улучшатся тестовые показатели. В то же время, чембольше инструкция будет ограничиваться содержанием конкретного те-ста, тем менее вероятно улучшение критериальной деятельности. В США Совет по вступительным экзаменам в колледж в связи с рас-пространенностью скоростных частных курсов для поступающих в кол-ледж провел несколько хорошо поставленных экспериментов по опреде-лению влияния тренировки на тест способности к обучению и обобщилрезультаты подобных исследований, проведенных независимо от работсовета (W.H.Angoff, 1971 в). В этих работах использовались различныеметоды тренировки, и проводились они с учащимися как государ-ственных, так и частных средних школ; в одной из них исследовались не-гритянские школьники из 15 городских и деревенских школ штата Тен-несси. Вывод из всех этих работ таков: маловероятно, чтобы интен-сивные упражнения в заданиях типа тех, что даются в тесте способностик обучению, приводили к явно большим достижениям, чем те, которые49ПРИРОДА ПСИХОЛОГИЧЕСКИХ ТЕСТОВ И ИХ ПРИМЕНЕНИЕпоказывают при повторном тестировании учащиеся после годичногообучения в средней школе. Основываясь на таких исследованиях Попечительский совет коллед-жей сделал относительно тренировки официальное заявление, в которомсреди прочего говорилось следующее:
Не стоит думать, что стольнезначительные изменения в показателях могут повлиять на решение в принятии в кол-ледж. Это верно еще и потому, что тесты просто дополняют школьные оценки и другиеданные, принимаемые в расчет членами приемной комиссии… Способность в том значе-нии, в каком ее использует Совет колледжей, не является чем-то застывшим и неподвер-женным влияниям, ведь ребенок живет и обучается. Более того, конкретный тест способ-ности к обучению измеряет способность, которая, по-видимому, медленно и упорнорастет под влиянием годами действующих условий домашней и школьной жизни, не от-зываясь при этом на необдуманные попытки наверстать упущенное время>. Следует также отметить, что Совет колледжей при создании соб-ственных тестов исследует типы новых заданий на подверженность тре-нировке (W.H. Angoff, 19718; L.W. Pike, F.R. Evans, 1972). Типы заданий,выполнение которых можно заметно улучшить краткосрочными занятия-ми или направленным обучением, исключаются из действующих формтестов. Привычность. Влияние простого повторения, или привычности, навыполнение теста сходно с влиянием тренировки, но обычно менее выра-жено. Следует заметить, что привычность, как и тренировка, может из-менить природу теста, так как испытуемые при решении одних и тех жепроблем могут использовать разные методы. Более того, некоторыетипы заданий могут стать при повторном предъявлении более легкими.Например, задачи, требующие необычного решения и однажды уже ре-шенные, можно прямо использовать при выполнении сходных заданийв повторном тестировании. Поэтому результаты таких тестов, независи-мо от того, применялся ли повторно сам тест или его параллельная фор-ма, следует тщательно проверять. В некоторых работах рассматривалось влияние повторения в тестахинтеллекта, проводимых через разные промежутки времени, от несколь-ких дней до нескольких лет (M.Y. Queresh, 1968). Исследовались каквзрослые, так и дети, как нормальные, так и умственно отсталые, приэтом использовались как индивидуальные, так и групповые тесты. Всеработы отличает значимое улучшение результатов при повторении теста.Успехи не обязательно наблюдаются только при первых повторениях.Продолжаются они или нет при последующих применениях теста, по-ви-димому, зависит от трудности теста и способностей испытуемого. Значе-ние этих данных видно из результатов ежегодного тестирования 3500школьников вариантами разных тестов интеллекта (W.F. Dearborn,J. Rothey, 1941). Если один и тот же тест повторялся в последующиегоды, средний IQ в группе возрастал от 102 до 113 и падал до 104, еслитест заменялся другим. Из-за улучшения при повторных тестированияхIQ, полученный в первой и последней проверке, оказывается различным.Например, на IQ, равный 100, приходится примерно половина распреде-ления при первой проверке и меньше четверти при повторной. Такие IQ,хотя численно равны и получены в одном и том же тесте, могут, следо-вательно, означать нормальный уровень развития в одном случае и низ-50 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ Улучшение показателей было выявлено и при тестировании парал- лельными формами теста, хотя в этих случаях тенденция к возрастанию обычно была несколько меньшей. Сообщалось также, что значение пока- зателей возрастает, если взаимозаменяемые формы теста применяются непосредственно друг за другом или с интервалом от одного дня до трех лет (W.H.Angoff, 1971ft; R.C.Droege, 1966; E.A. Peel, 1951, 1952). Эти данные были получены при исследовании нормальных и интеллектуаль- но одаренных учащихся средних школ и колледжей, а также на выборках служащих. Данными о возможном распределении возрастания показате- лей при тестировании параллельными формами теста следует снабдить. руководства по тестированию и принимать во внимание при интерпрета- ции тестовых результатов. Искушенность. В этой связи следует также рассмотреть более об- щую проблему-искушенность в тестировании. Человек, имеющий об- ширный опыт в выполнении психологических тестов, приобретает тем самым определенные преимущества перед индивидом, впервые уча- ствующим в психологическом тестировании (A. W. Heim, J. G. Wallace, 1949, 1950; J. Millman, C.H. Bishop, R. Ebel, 1965; A.G. Rodgei, 1936). От- части эти преимущества складываются из преодоленного чувства не- известности, развившейся уверенности в себе, сложившегося отношения к тестовой ситуации. Отчасти они есть результат определенного сход- ства содержания и функции большинства тестов. Знакомство с задания- ми общего типа и привычность к опросным листам также могут улуч- шить выполнение теста. Особенно важно принимать во внимание искушенность в тестировании, когда сравниваются показатели детей из школ разного типа, поскольку их опыт тестирования может быть самым различным. Небольшой ориентировки и практических занятий, типа опи- санных в этой главе ранее, может оказаться достаточно для минимиза- ции последствий искушенности в тестировании (М. Wahlstroi, F.J.Boersman, 1968). "ГЛАВА 3. СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫТЕСТИРОВАНИЯДля того чтобы предотвратить неправильное употребление психологиче-ских тестов, возникла необходимость в соблюдении некоторых предосто-рожностей как относительно самих тестов, так и их показателей. Про-блемам распространения и использования психологических тестовпосвящена большая часть -кодекса про-фессиональной этики, официально принятого Американской психологи-ческой ассоциацией (см. Ethical…, 1981). Принципы 13, 14 и 150 неразгла-шении результатов теста, интерпретации данных и его публикацииотносятся непосредственно к тестированию. Сфера действия принципов6 (конфиденциальность), 7 (ненанесение ущерба) и 9 (беспристрастность)хотя достагочно широка, но во многом применима и к тестированию.Некоторые из вопросов, рассматриваемых в , непо-средственно связаны с положениями (Standards for Educational and Psychological Tests,1974). Для более полного и глубокого понимания чи-51 СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯтателю следует обратиться к (Casebook on Ethical Standards of Psychologists, 1967) и (Ethical Principlesin Conduct of Research with Human, 1973).КВАЛИФИКАЦИЯ ЛЮДЕЙ, ИСПОЛЬЗУЮЩИХ ТЕСТЫТребование, чтобы тесты использовались только достаточно квалифици-рованными экспериментаторами, является первым шагом по защите ин-дивида от неправильного использования тестов. Конечно, нужная квали-фикация меняется в зависимости от типа теста. Так, для правильногоприменения индивидуальных тестов интеллекта и большинства лич-ностных тестов требуется относительно длительный период интенсивно-го обучения и наблюдения за процессом тестирования, в то время какдля тестирования учебных достижений или профессиональной умелостинужна минимальная специальная психологическая подготовка. Следуеттакже заметить, что студенты, участвовавшие в учебном тестировании,обычно не готовы к самостоятельному проведению тестов с другимилюдьми или к правильной интерпретации тестовых показателей. Хорошо подготовленный экспериментатор выбирает тесты, которыеподходят как для той цели, с которой он проводит тестирование, таки для человека, которого он тестирует. Он знаком с литературой по выб-ранному тесту и способен оценить технические параметры таких его ха-рактеристик, как нормы, надежность и валидность. Он чуток к тем усло-виям, которые могут влиять на выполнение теста, в частностик упоминавшимся в гл. 2. Он делает выводы или дает рекомендации,только связав рассмотрение тестового результата (или результатов)с другой имеющей отношение к тесту информацией об индивиде. Глав-ное же, он должен быть достаточно осведомлен в науке о человеческомповедении, что позволит ему избежать неоправданных выводов при ин-терпретации тестовых результатов. Если тесты проводятся лаборантами,или ассистентами, или людьми других профессий, для обеспечения необ-ходимых условий правильной интерпретации выполнения тестовых зада-ний важно, чтобы их по крайней мере консультировал квалифициро-ванный психолог. Неверным представлением о природе и цели тестов, а также непра-вильной интерпретацией результатов теста объясняются многие из рас-пространенных критических замечаний в адрес психологических тестов.Отчасти трудности возникают из-за отсутствия понимания между спе-циалистами по психометрии и заинтересованными в ней людьми-препо-давателями, родителями, юристами, поступающими на работу и т.д. Ве-роятно, больше всего критикуются необоснованные выводы из IQ.Впрочем, не все неверные представления о тестах можно отнести за счетнепонимания между психологами и непсихологами. Психологическое те-стирование само по себе постепенно отделяется от основных направле-ний развития науки о поведении (A. Anastasi, 1967). Возрастающая слож-ность психологии неизбежно приводит к увеличению специализациипсихологов. В этом процессе специалисты по психометрии все большеи больше сосредоточивают свое внимание на техническом совершенство-вании тестов и незаметно теряют представление о том, что происходитв смежных областях, таких, как педагогика, детская психология, психоло-52СОДЕРЖАНИЕ 1КИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯские аспекты построения теста исподволь сужают психологический кру-гозор тестолога, хотя тестовые показатели могут быть правильнопоняты только в свете соответствующих знаний относительно поведения,которое тест предназначен измерять. Кого считать квалифицированным психологом? Очевидно, из-за раз-нообразия областей исследования и, следовательно, специализацийв подготовке ни один психолог не может быть сведущим во всех обла-стях. Как признание этого факта, установлено: (Ethical…, 1981, принцип2с). Полезно различать психологов, работающих в системе учреждений,например в школе, университете, клинике или государственных органах,и психологов, занимающихся частной практикой. Поскольку практикую-щий психолог менее зависим от оценок и суждений квалифицированныхколлег, чем психолог, работающий в учреждении, он должен отвечатьболее высоким требованиям профессиональной квалификации. Это жесправедливо в отношении психологов, осуществляющих контроль за ра-ботой психологов в различных организациях или консультирующих ихперсонал. Значительным шагом, повысившим профессиональные нормы и дав-шим общественности критерий для определения уровня квалифицирован-ности психолога, было принятие штатами законов о лицензиях и атте-стации психологов. В настоящее время почти все штаты имеют такиезаконы. Хотя термины и часто используютсякак равнозначные, в психологии аттестация обычно означает официаль-ное присвоение, звания психолог, в то время как предоставление лицен-зий относится к регулированию психологической практики, а это значит,что в законы о лицензиях должно быть включено ее определение. Но ив том и в другом случае законом обычно требуется степень доктора фи-лософии по психологии, определенное знакомство с практической дея-тельностью и удовлетворительная сдача квалификационного экзамена.Нарушение этического кодекса Американской психологической ассоциа-ции дает основание для отмены лицензий или аттестации. Посколькубольшинство штатов приняло лишь более простые законы об аттеста-ции, предпринимаются усилия добиться утверждения закона о лицензиях. На более высоком уровне аттестация психолога осуществляется аме-риканским Советом по профессиональной психологии. При высокомуровне подготовки, опыте работы по специальности Совет присуждаетдипломы в таких областях деятельности, как клиническая психология,психологическое консультирование, промышленная психология и психо-логия управления, а также педагогическая психология. В биографическомсправочнике Американской психологической ассоциации перечисляютсявсе специалисты, имеющие такие дипломы, их список можно также полу-чить, запросив его в самом Совете, основная функция которого-выдачанеобходимой информации о квалифицированных психологах. .РешенияСовета как узкопрофессиональной организации не имеют той обязатель-ной силы, которая есть у организаций, выдающих лицензии и осущест-вляющих аттестацию психологов. Соответствует степени к-янпигтятя nr-uvrir53 СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯПРОЦЕДУРЫ И МЕТОДИКИ ТЕСТИРОВАНИЯПраво на приобретение тестов обычно представляется лицам, имеющимопределенную квалификацию. В каталогах основных издателей тестовприводятся те требования, которым должны удовлетворять их покупате-ли, обычно правомочными признаются или профессиональные психоло-ги, или специалисты, чье образование может быть приравнено к психоло-гическому. Некоторые издатели распределяют тесты в зависимости отуровня квалификации использующих их людей, начинают с тестов дости-жений в учебной деятельности и тестов профессиональной пригодности,затем помещают тесты интеллекта и опросники по интересам и заканчи-вают клиническими методиками типа индивидуальных тестов интеллектаи основных личностных тестов. Меры по ограничению распространения тестов преследуют двоякуюцель: неразглашение тестовых материалов и предупреждение их непра-вильного применения. гласят: (Ethical…,1981, принцип 13); (там же, принцип 14). Следует отметить, что хотя распространители тестов прилагают всеусилия к выполнению этих требований, контроль, который они в состоя-нии осуществить, неизбежно ограничен. Основная ответственность занадлежащее использование тестов лежит на использующих их лицахи организациях. Очевидно, например, что степень магистра или дажедоктора психологии, государственные лицензии и дипломы, выданныеСоветом по профессиональной психологии, не обязательно означают,что индивид достаточно квалифицирован для того, чтобы использоватькакой-то конкретный тест, или что его подготовки достаточно для пра-вильной интерпретации его результатов. Профессиональная ответственность связана также с распростране-нием психологических тестов, осуществляемым авторами и издателями.Не следует выпускать для общего применения неподготовленные тесты.Недопустимы какие-либо заявления о достоинствах теста при отсутствиидостаточно объективных оснований. Когда тест распространяется толькос исследовательскими целями, это условие должно быть оговорено,а распространение теста соответственно ограничено. В руководстве поиспользованию теста следует приводить как данные, позволяющие оце-нить тест сам по себе, так и полную информацию о проведении, спосо-бах вычисления показателей и нормах теста. Руководство должно даватьфактическое представление о том, что известно о тесте, а не быть сред-ством его рекламы, представляющей тест в выгодном свете. Обязан-ностью автора и издателя тестов является достаточно частая перепро-верка тестов и их норм с тем, чтобы предупредить их старение.Разумеется, время, за которое тест устаревает, весьма различно и зави-сит от природы теста, Тесты или большую их часть не следует печатать в газетах, попу-лярных журналах или брошюрах ни в целях описания, ни для использо-вания их при самооценке. В этих условиях самооценка может не толькопривести к признанию бесполезности теста, но и оказаться для индивидапсихологически вредной. Более того, любая гласность тестовых заданий54iкHXO..TOI!l lи i скачанному мож;.: p:." "аким способом >.i:.]психологическою lcc;!lpoьal!";наивнуто доверчивость, лиГг) .)логического т,-c:n"o.нlи!. Lm.c одним .; i:(:i !).xcиoи,1.пьным испольо";шпем тестов являетсягестнринапис по почю. )u0!:.:j" ипдш.собностей или личностных тесюй не можсч: помощью тестор.!лх б.г1;)нк-ов, высылает"- : !.-;, но н linecyT пред.СОХРАН КН И L ТЛ П! ! WВ связи с есгамп. ..cinio личностными, r,"l.i,:;cт вопрос о посяга-тельстчс "; ,;;:) )cni. Поскольку ;…:;..:ые тесты на эмоцио-нальные II M .люгиe те-..! ни своей технике попадают в этукатегорию. pa.ipaGolKa таких H(;iip::vii.>ix методов тестирования налагаетсерьезную огнетствепиость на ll:l.!-зующиx их психологов. Для эффек-тивности тсстирова,:.. :-;;-!:r h- ., lt,бx".o скрывать от испытуе-мого сисчфу ин-….;:) . :; oi.ci)i.. г;; не менее личность недолжна о/жср.атьс :.!Ko.i_; .i.] то ни было тестированию обманнымпутем. В ")1оп СР.; 1; чернейшая обязанность .экспериментатора довестидо созна1!!я ш-нытусмого оуду11!ее использование результатов теста. Этообегоячиьство специально оговорено в Ethical…, 1981, принцип 7d): :1Н11Я сведения о его личное> и или допускающин. чтобы ему доверяли эту ин-формацию. .ic.aei эго ro.ll..l." :c тою, когда отвечающсг ..пю IIO.IIHOCII,[<> осочиало це-ли 11И1срН1>1011рования, юсп..ппиия или оценивания, а такя..; способы иснольаоняния та-кой информации>. Хотя сказанное по большей части касас.ся личностных тесто>, нологично распространить это на все типы тестов. Конечно, любой из тес-тов интеллекта, способностей н достижений может выявить такие про-белы в навыках и зi!!"x.. которые индивид ilpt;дi!.!r;л бы скрыть. Болеетого, любое наблюдение за поведением индивида во время интервью, бе-седы и других исследований личности может открыть такую информа-цию об ..идиииде, которую он не хотел бы выдавать и обнаружил не-вольно. Тот факт, что психологические тесты часто фигурируютв рассуждениях о посягательстве на тайну личности, означает лишь оши-бочные 11редстав.г-.-ннп о те(-тах. Если тесты понимались бы как измере-ние выборки поведения, а не как мистическая сила, проникающая за гра-ницы поведения, то обччпы" опасения н подозрения были бы не стольвелики. Отметим, что любое исследование поведения, и не обязательно55СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯтестирование или наблюдение, таит в себе возможность проникновенияв тайну личности. Как ученые, психологи преследуют цель развития знаний о человече-ском поведении. В принципе 1а провозгла-шается: . Вместе с тем некоторые принципы напра-влены на защиту тайны личности и ненанесение ей ущерба (см., напри-мер, Ethical…, 1981, принципы 7d, 8а, 16). Возникающее при этом проти-воречие между разного рода ценностями каждый раз должно разрешать-ся конкретно. Множество примеров разрешения таких конфликтовприводится в уже упоминавшихся (Ethical Principles in the Conduct.., 1973). Проблема, очевидно, не столь проста, и ее решение требует большойосторожности со стороны психологов и других специалистов. В докладепод названием (Privacy andBehavioral Research, 1967), подготовленном для службы по науке и техни-ке, право на тайну определяется как , и далее оно характеризуется как . Обеспечение тайны личности никакие универсальные правилагарантировать не могут, они только служат общими ориентирами, нов конкретном случае эти ориентиры не в состоянии заменить этическуюсознательность и профессиональную ответственность самого психолога,принимающего свои решения в соответствии с частными обстоятель-ствами. Одним из релевантных факторов является цель, с которой проводит-ся тестирование-индивидуальная консультация, отбор и распределениеперсонала или научное исследование. В условиях клиники и при индиви-дуальной консультации обследуемый обычно стремится раскрыть себяс тем, чтобы получить необходимую ему помощь. В этом случае ни кли-ницист, ни консультант не вторгаются в тайну личности, поскольку ихв эту тайну посвящают добровольно. Впрочем, даже при этом условииклиент должен быть предупрежден, что в ходе тестирования или ин-тервьюирования он может выдать о себе такие сведения, о которых и неподозревает, или проявить чувства, которых не осознает. Когда тестирование проводится в интересах какого-то учреждения,обследуемый должен быть полностью проинформирован относительноиспользования его тестовых показателей. Желательно также объяснить,что правильная оценка будет выгодна самому испытуемому, так как емуне принесет пользы, если он займет место, на которое в дальнейшему него не хватит сил, или он поймет, что оно ему не подходит. Резуль-таты тестов, проведенных в клинике или при консультировании, не могутиспользоваться в интересах какого-либо учреждения, пока испытуемыйне даст на это своего согласия. Когда тесты используются в исследовательских целях, анонимностьнеобходимо сохранять настолько, насколько это возможно, а о дей-ствиях, гарантирующих ее, следует заранее рассказать испытуемому.Анонимность, впрочем, не решает проблемы сохранения тайны в науч-ном исследовании. Некоторых испытуемых может раздражать раскрытиезадевающих их фактов, даже при сохранении полной конфиденциально-56 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯста. Однако в большинстве случаев содействия испытуемых можно до-биться, если их убедить в необходимости для исследования предоста-вляемой ими информации и если они доверяют честности и компетент-ности исследователей. Любое изучение человеческого поведения, исполь-зуются в нем тесты или нет, может вызвать конфликт систем ценностей.Свободе исследования, столь существенной для развития науки, должныбыть противопоставлены права индивида. Исследователь должен учиты-вать различные системы ценностей, и ему следует тщательно взвешиватьсвои решения (Ethical Principles.., 1973; Privacy and Behavioral Reseach,1967; 0. M. Ruebhausen, О. С. Brim, 1966). Какой бы ни была цель тестирования, охрана прав личности подра-зумевает соблюдение двух принципов: соответствия и осведомленногосогласия. Сведения, которые запрашивают у индивида, должны соответ-ствовать поставленным целям тестирования. Важное следствие принци-па соответствия состоит в том, что все практические усилия должныбыть направлены на выявление валидности тестов, используемых дляконкретной диагностической или прогностической цели. Только метод,несомненно валидный данной цели, обеспечивает соответствующую ин-формацию. Экспериментатору также важно быть уверенным в правиль-ности интерпретации тестовых показателей. Вероятно, индивид ощущаетсебя менее задетым, когда оценивается его готовность к овладениюучебным предметом, чем если якобы измерялся . Принцип осведомленного согласия необходимо пояснить. Его приме-нение в конкретных случаях может требовать умения убеждать (EthicalPrinciples…, 1973; О. M. Ruebhausen, О. С. Brim, 1966). Конечно, тести-руемый должен быть осведомлен о цели тестирования, типе требуемыхданных и о том, как будут употреблены тестовые показатели. Это, одна-ко, не означает, что ему заранее будут показаны тестовые задания илисообщено, как будут оцениваться его ответы. Не следует также показы-вать тестовые задания родителям, если исследуются несовершеннолет-ние. Такая информация обычно делает тест невалидным и не толькосерьезно ухудшает пригодность тестов способностей, но также искажаетответы во многих личностных тестах. Например, если индивиду заранееизвестно, что его самоотчет будет оцениваться по шкале , то его ответы, скорее всего, будут подгоняться к стерео-типным (и часто ошибочным) представлениям о такой черте характераили же к ложным и искаженным представлениям о самом себе. Тестирование детей осложняет и такая проблема, как согласие роди-телей. Обмен мнениями специалистов по различным дисциплинам при-вел к созданию серии (Russel Sage Foundation, 1970). Чтокасается осведомленного согласия, то эти различают индиви-дуальное согласие, данное ребенком, его родителями или и тем и други-ми, и согласие правомочных представителей, таких, как опекуны илишкольный совет. При тестировании профессиональной пригодностии достижений рекомендуют и считают достаточным получе-ния согласия правомочных представителей; в случае же оценки личностинеобходимо индивидуальное согласие. Полезной особенностью этих являются содержащиеся в них образцы заявлений и бланковдля получения письменного согласия. В них также приводится библио-графия по этическим и правовым аспектам сбора школьных данных.57СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯ Тестовым процедурам и экспериментальным замыслам противо-стоит право индивида отказаться от участия в тестировании и темсамым оградить тайну своей личности. При получении научно значимыхданных осуществление этого права задает сложную задачу изобретатель-ности психолога. Однако при правильном взаимопонимании и созданииустановки взаимоуважения число отказов от участия в тестировании мо-жет стать ничтожно малым. Это также поможет избежать техническихтрудностей эксперимента, связанных с систематической ошибкой выбор-ки и ошибками испытуемых, добровольно принявших участие в исследо-вании. Данные национальных обследований и обследований в пределахштата подтверждают, что эта цель может быть достигнута как при те-стировании успешности обучения, так и при более тонком исследованииличности (W.H.Holtzman, 1971; F.B.Womer, 1970). Имеются опреде-ленные данные, свидетельствующие о том, что число испытуемых, во-спринимающих личностные опросники ак посягательство на тайну лич-ности, а некоторые из заданий как оскорбительные для себя, значительносокращается, если тест предваряет простое и откровенное объяснение то-го, как отбирались задания и как будут интерпретироваться показатели(А.М. Fink, J.N. Butcher, 1972). Нужно добавить, что с точки зрения те-стовой валидности такое объяснение не влияет на среднее значение про-филя показателей личностных опросников.КОНФИДЕНЦИАЛЬНОСТЬТак же как и сохранение тайны, связанная с ней проблема конфиден-циальности тестовых данных многоаспектна. Основной ее вопрос: Ответ на него в кон-кретных ситуациях определяется такими соображениями, как неразгла-шение содержания теста, опасность неверного понимания показателейтеста и заинтересованность разных лиц в его результатах. Растущее понимание права индивида на получение доступак данным своего тестирования, а также осознание, что он должен иметьвозможность комментировать содержание своего ответа и в случае необ-ходимости пояснить или исправить фактическую информацию, заста-вляет консультантов все больше делать клиента активным участникомсобственного обследования. Для этих целей тестовые результаты долж-ны быть представлены в удобной для понимания форме, свободной отспециальных терминов или профессионализмов и ориентированной нанепосредственные задачи тестирования. Против неправильного использо-вания и неверной интерпретации тестовых данных должны быть приня-ты соответствующие меры предосторожности (см. Ethical…, 1981, прин-цип 14). При тестировании несовершеннолетних следует также принимать вовнимание право родителей на получение тестовых данных ребенка.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Такоеправо может означать конфликт с собственным правом ребенка, особен-но старшего возраста, на сохранение этих сведений в тайне. Анализируяэту проблему, О. М. Рюбхаузен и О. С. Брим (О. М. Ruebhausen,О. С. Brim, 1966, р. 431-432) писали: (Russell Sage Foundation, 1970, p. 27) рекомендуютв случаях предоставлять право отказывать родителям в доступек своим тестовым данным. Однако такой рекомендации нужно следоватьс осторожностью, согласуя действия школы с законами штата, чтобы еевыполнение не привело к юридическим трудностям. Если не касаться возможных исключений, то вопрос не в том, сооб-щать ли родителям несовершеннолетних результаты тестирования, ав том, как это делать. Обычно родители имеют юридическое право наполучение информации о своем ребенке, и чаще всего они хотят полу-чить такую информацию. Более того, в некоторых случаях школьная не-успеваемость ребенка или затруднения эмоционального характера могутотчасти возникать из-за взаимоотношений между ребенком и родителя-ми. При этих условиях обращение психолога к родителям крайне важнодля получения анамнестических данных и установления с ними непосред-ственного контакта. При обсуждении конфиденциальности тестовых данных чаще рас-сматривается вопрос об их доступности третьему лицу, а не тестируемо-му индивиду (или родителям несовершеннолетнего) и экспериментатору(Ethical…, 1981, принцип 6; Russell Sage Foundation, 1970). Основной прин-цип состоит в том, что такие данные не должны передаваться без ведомаи согласия испытуемого. Если тестирование проводится в учреждении, например в школе, су-де или при оформлении на работу, индивид должен быть проинформи-рован о целях тестирования, о том, как будут использоваться его резуль-таты, и об их доступности заинтересованным официальным лицам.В этом случае дополнительного разрешения не требуется до тех пор, по-ка результаты используются внутри учреждения. Иное дело, когда те-стовые результаты запрашиваются посторонними людьми, напримеркогда возможный наниматель или колледж запрашивают результатытестирования, проведенного в школе. Здесь необходимо получить согла-сие индивида на передачу данных. Это же относится и к тестам, приме-няемым в условиях клиники, при консультировании или с исследователь-скими целями. В уже упоминавшихся (Russell Sage Foundation, 1970, р. 202_, данные о школьниках в зависи-мости от срока хранения распределяк-ся по трем категориям. Опреде-ляющим фактором ь л-ой классификации явли.-!: — ,Г1"нень o6uCimii,i!0-сти и проверяемости данных; кроме того, учн…-.1.1С1Ся их oi ношениек целям обучения. Было бы разумн!.1л1 .лl учрс,;….,.:;: любого типа вы-работать точные критерии для упи i . , . …г.я, с. ксния и доступнстнсведений об индивиде. Проблема сохранения, неразглач;.: .лл ". достунности тестовых ре-зультатов (и всех иных данных о J.>..-iJciti; усложняется в связи с по-явлением системы банков данных для вычислительных устройств.В предисловии к (Russel Sage Foundation, 1970,p. 5-6) О.М. Рюбхаузен писал: . Небывалые успехи в хранении, обработке и поиске данных, ставшиевозможными благодаря появлению счетно-вычнелительных устройств,iviolyi сослужить бесценную службу как при исследошняи, laiv : при не-посредственном разрешении социальных пробьем. К возможным посяга-тельствам на тайну личности и нарушение конфиденциальности необхо-димо относиться твепдо, конструктиЕно и вдумчиво. Вместо того чтобыпу1а1ься цситра.л1:;>…-..1 и эффективлиети сложных вычислительных сис-тем, следует лучше использовать их свойства при поиске более дей-ственных процедур, обеспечивающих неразглашение индивидуальных Примером того, чего можно достичв при соответствующем обору-довании, может служить система , разработанная Американскимсоветом по иоразовамию (A.W. Astia, F. Boruch, }970). По программелонгитюдных исследований влияния разных типов среды в колледжахежегодно обспедовались несколько сот тысяч первокурсников. Чтобысобрать катамнестические данные об одних и тех же л-к-дях ii для пре-дупреждения опознания их ответов кем-нибудь в будущем, была изобре-тена трехфаЯловая ;;!:,тс1…компьк.терпой записи. Псовая запись, содер-жащая ответы каждого студента, помеченные произвольным идентифи-кационным номером, легко доступна для исследовательских целей.Вторая запись, содержащая (фамилию и адреса студентов под теми жеидентификационными номерами, сначала помещалась в отдельном хра-нилище и использовалась только для печатания открыток, адресов при —.-".-._.". ."."".,".. " йгтor.,a.> . Такой файл содержит запись перво-начальных идентификационных номеров и новый ряд случайных чисел,которые подставлялись вместо первоначальных идентификационных но-меров в файл с записью фамилий и адресов. Файл был депони-рован в компьютерной системе другой страны с условием, что он никог-да и никому не будет предоставлен, даже Американскому совету пообразованию. Записи катамнестических данных посылались на перезапись в дру-гую страну, где осуществлялась замена одних кодовых номеров другими.Поскольку файлы декодирования и файлы с исследовательскими данны-ми находятся под контролем разных организаций, никто не сможетидентифицировать ответы индивидов на файле данных. Столь тщательноразработанные меры предосторожности по обеспечению конфиденциаль-ности, очевидно, осуществимы только при наличии банка многомернообработанных данных. Эта процедура могла быть более простой, еслибы запись связующих данных при хранении внутри страны была быограждена от использования в судебных целях.СООБЩЕНИЕ РЕЗУЛЬТАТОВ ТЕСТАПсихологи много размышляли над тем, как сообщать результаты тестав доступной и пригодной для использования форме. Ясно, что информа-ция в том виде, в каком она получена, нуждается в пояснении психолога-профессионала. Например, когда родителям сообщают тестовые показа-тели их детей, рекомендуется устроить встречу с ними, на которойконсультант или школьный психолог объяснит цель и характер тестов,тип выводов, которые действительно следуют из полученных результа-тов, и границы их использования. Затем записи данных можно раздатьродителям и с теми из них, кто пожелает обсудить эти записи подробнее,провести соответствующую беседу. Независимо от вида сообщаемыхтестовых данных, важно представить их в терминах описания уровнейвыполнения, а не только в виде числовых показателей. Это особенносправедливо для тестов интеллекта, которые по сравнению с тестами до-стижений чаще интерпретируются неверно. Сообщая результаты учителям, школьному руководству, работода-телям и другим лицам, следует принимать те же меры. Сведения об об-щем уровне выполнения и качественные описания, приводимые на до-ступном языке, предпочтительней специфических числовых данных, заисключением тех случаев, когда результаты сообщаются психологу-про-фессионалу. Даже хорошо подготовленный неспециалист может спутатьпроцентили с процентными показателями или с IQ, нормы со стандарта-ми и оценки по интересам с показателями способностей. Серьезныеошибки в интерпретации делаются при выводах из тестовых результатовдаже в случае, если их техническая сторона правильно понята. Яркимпримером этому служит распространенное убеждение, что IQ выявляет61СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯформации о любых тестах желательно учитывать особенности того чело-века, которому она передается. Эмоциональная причастность родителейили учителей к жизни ребенка может препятствовать разумному по-ниманию фактической информации. Последней, но никак не самой незначительной является проблемасообщения тестовых результатов самому индивиду, ребенку или взросло-му. В этом случае применяются те же меры предосторожности противнеправильной интерпретации, что и при сообщении данных третьему ли-цу. Конечно, в этом случае индивидуальная эмоциональная реакция наинформацию особенно важна, если индивида интересуют собственныедостоинства и недостатки. Когда индивиду сообщают его тестовые ре-зультаты, их должны интерпретировать достаточно подготовленные лю-ди, при этом важно обеспечить индивидуальную консультацию каждого,кого такая информация эмоционально обеспокоит. Например, студентколледжа может быть серьезно озадачен, узнав о том, что он плохо вы-полнил тест способности к обучению. Одаренный школьник может при-учиться к лености и безынициативности или может стать упрямыми плохим товарищем, если обнаружит, что он гораздо способнее своихсверстников. Серьезные нарушения в развитии личности могут быть усу-гублены, если больному сообщить результаты его личностного теста.Столь нежелательные воздействия не зависят, конечно, от правильностиили неправильности самого показателя. Даже если тест тщательно про-веден и верно интерпретирован, знание тестовых результатов без воз-можности обсудить его более подробно может повредить индивиду. Консультирующие психологи особенно заинтересованы в поиске эф-фективных способов передачи тестовых данных своим клиентам (L. Gold-man, 1971, гл. 14-16). Хотя детальное рассмотрение этого процесса невходит в круг обсуждаемых здесь вопросов, два ведущих подхода заслу-живают особого упоминания. При первом сообщение результатов тести-рования рассматривается как неотъемлемая часть сложного процессаконсультирования и соответственно включается в общие отношения кон-сультанта и клиента. При втором результаты геста предлагается, на-сколько это возможно, сообщить в виде OIDCIOB на специфические во-просы консультирующегося. Важным моментом консультированияявляется восприятие клиентом предоставляемой ему информации, еслион по какой-либо причине отвергает сообщаемую ему информацию, она,по-видимому, была получена впустую.ТЕСТИРОВАНИЕ И ГРАЖДАНСКИЕ ПРАВА МЕНЬШИНСТВПоложение. После 50-х гг. возрос интерес общественности к правамменьшинств, что нашло отражение в принятии закона о гражданскихправах федеральными и общегосударственными законодательствами.В связи с поиском способов улучшения образовательных и профессио-нальных возможностей меньшинств специалисты по психологическомутестированию уделяют этому вопросу особое внимание. В психологиче-ской литературе 60-х-начала 70-х гг. обсуждение этой темы приняло Хотя женщин, согласно статистике, никак нельзя отнести к национальным мень-шинствам, но в правовом отношении, по роду своих занятий и т. п. они разделяют с мень-тттинствями многие из их пооблем. Вот почему, когда в этой книге речь идет о меньшин-62 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯмассовый характер. Среди работ позитивного плана можно упомянутьдоклады, подготовленные профессиональными ассоциациями (AmericanPsychological Association.., 1969; Т.А.С1еагу, L.G. Humphreys, S.A.Ke-ndrick, A.Wesman, 1975; M.Deutsch, J.A.Fishman, L.Kogan, R. North,M.Whiteman, 1964; The Responsible use of test.., 1972; R.L.FIaugher,1974). Много внимания в исследованиях уделяется снижению тестовых ре-зультатов из-за возможного влияния культурных условий, отражающих-ся на развитии способностей, интересов, мотивации, установках и другихпсихологических особенностях представителей меньшинств. На неко-торых из предложенных решений этой проблемы сказывается неверноепонимание природы и функций психологических тестов. Различия прош-лого опыта групп или отдельных индивидов неизбежно проявляются привыполнении тестов. Каждый психологический тест измеряет выборку по-ведения. Поскольку культура влияет на поведение людей, ее влияние бу-дет и должно обнаруживаться тестами. Если Mbi исключим из теста всекультурные различия, мы тем самым можем уменьшить его валидностьв той области поведения, для оценки которой он предназначен. В этомслучае тест не сможет обеспечить нас информацией, необходимой дляисправления тех условий, которые ухудшили его выполнение. Поскольку тестирование меньшинств есть частный случай более об-щей проблемы тестирования межкультурных различий, основные теоре-тические положения и методы тестирования меньшинств более полно об-суждаются в гл. 12. Подробный анализ понятия систематическая ошибкаприводится в гл. 7 в связи с валидностью теста. В этой главепреимущественно рассматриваются основные исследования по тестиро-ванию меньшинств и их социальные последствия. Факторы тестирования. При тестировании лиц с различнойкультурой важно разделять межкультурные факторы, влияющие как насам тест, так и на критериальное поведение, и факторы, влияние которыхограничивается лишь тестом. Последние снижают валидность теста.В качестве примера таких факторов можно назвать опыт участия в те-стах, стремление хорошо выполнить тест, отношения с экспериментато-ром и другие влияющие на выполнение конкретного теста перемены, несвязанные с используемым критерием. Если тестируются лица с несхо-жими культурами, то необходимо сделать все, чтобы уменьшить дей-ствие относящихся к тесту факторов. Желательно создать сходные отно-шение к тесту и степень знакомства с ним (см. об этом в гл. 2). Дляиспытуемых с низкими тестовыми результатами, имевшими незначи-тельный опыт в тестировании или не имевшими его вовсе, рекомендует-ся повторное тестирование с помощью параллельной формы. Содержание теста также может повлиять на тестовые показателиспособами, которые не связаны с критерием выполнения. Например,в тесте на арифметическое рассуждение использование названий или изо-бражений предметов, неизвестных в какой-либо культурной среде, разу-меется, затруднит его выполнение представителем этой культуры. Спо-собность выполнять счетные операции не зависит от знакомства с ихназваниями. Вместе с тем, если само развитие арифметических способно-стей больше поощряется в одной культуре, чем в другой, разницу в ре-зультате по арифметическому тесту не следует преуменьшать илискрывать. Еще менее заметные способы, которыми содержание конкретного63СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯтеста может повлиять на его выполнение, связаны с эмоциональнымии установочными реакциями испытуемого. Например, рассказы или кар-тинки, изображающие типичные для людей среднего класса семейныесцены, могут насторожить ребенка, живущего в необеспеченной семье.Изображение в тестовых рисунках физических черт только одной расыможет также сказаться на их восприятии этническим меньшинством. Поэтой же причине женские организации протестовали против ставшегостереотипным изображения в тестах мужчин, например, врачами илидолжностными лицами, а женщин-медицинскими сестрами или секре-таршами. Также могут показаться обидными для представителей мень-шинств значения некоторых слов. Как справедливо заметил один изда-тель тестов, (T.J. Fitzgibbon, 1972.р. 2-3). Большинство издателей тестов теперь прилагают специальные уси-лия, чтобы очистить тест от неподходящего содержания. Их собственныйперсонал, занимающийся разработкой тестов, специально тренируется наумении выявлять материал, задевающий нациинальные чувства, рассчи-танный на определенную культуру или в чем-то стереотипный. Предста-вители разных этнических групп принимают участие в создании тестовлибо как постоянные служащие, либо как консультанты. Проверка содер-жания теста с точки зрения возможного участия меньшинств являетсянепременным этапом в процессе создания теста. Примером примененияэтих методов при построении и проверке заданий теста служит издание1970 г. (T.J. Fi-tzgibbon, 1972; Harcort Brace Jovanovich …, 1972). Интерпретация и использование тестовых результа-тов. Одной из наиболее важных проблем в тестировании лиц с различ-ной культурой, как и вообще в тестологии, является проблема интерпре-тации тестовых результатов. Наиболее часто нарекания в применениитестов к представителям меньшинств вызывает неправильная интерпре-тация показателей. Если представитель национального меньшинства по-лучает низкий показатель по тесту способностей или отклонение в пока-зателе по личностному тесту, важно выяснить, как это получилось.Например, низкий показатель в арифметическом тесте мог быть резуль-татом нежелания выполнять тест, неумения хорошо читать или, средипрочих причин, неадекватного знания арифметики. Следует также обра-тить внимание и на тип нормы, используемый при оценке индиви-дуальных результатов. В зависимости от цели тестирования за соответ-ствующую норму могут быть приняты общие нормы, нормы дляподгруппы, состоящей из лиц с одинаковым опытом в тестировании, илиполученные ранее показатели данного индивида. При предсказании, например, способности к выполнению какой-тоработы или успешности овладения учебной программой мы также дол-жны учесть эффективность тех или иных методов обучения, компенсации.Одним из вкладов теории решений в психометрию являются ее методыобъединения различных типов трактовок для предсказания конечного ре-зультата, составляемого на основе тестовых показателей (гл. 7). Напри-64 СОДЕРЖАНИЕ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯдом со специфической культурой, то каковы будут его оценки в коллед-же, если ввести корригирующие программы, предназначенные изменитьподготовленность к обучению и его мотивацию, или другие подходящиеспособы компенсации. Тесты предназначены показать, что может делать индивид в данныймомент времени. Они не могут сообщить нам, почему он выполняет тестименно так. Чтобы ответить на этот вопрос, нам необходимо исследо-вать условия его развития, мотивацию и другие существенные условия.Тесты не могут также сообщить, на что мог быть способен культурнонеразвитый или необразованный ребенок, если бы он вырос в более бла-гоприятной среде. Более того, тесты не могут компенсировать культур-ную депривацию, исключив ее влияние из своих показателей. Напротив,тесты призваны обнаруживать такие влияния, чтобы можно было пред-принять соответствующие корригирующие шаги. Скрывая последствиякультурной неразвитости отказом от тестов или пытаясь изобреститесты, нечувствительные к таким влияниям, можно только затормозитьподлинное решение социальных проблем. Такая реакция на тесты равно-сильна стремлению разбить термометр, поскольку он показывает темпе-ратуру тела 38,3Ї. Тестовые показатели должны использоваться кон-структивно: индивидом для лучшего самопознания и развития своейличности, а также при планировании своего образования и профессио-нальной деятельности; учителем для улучшения обучения и соотнесениясодержания обучения с потребностями ученика; работодателями длябольшего соответствия между человеком и выполняемым им делом. Приэтом следует помнить, что людей можно обучить, а работы спланиро-вать иначе. Тенденция к классификации и обозначениям, заменяя понимание,становится слишком распространенной. Диагностические понятия клас-сической психиатрии, посредством которых пациенты обозначались как или , до-статочно известны. Хорошо понимая бесчисленные недостатки такой си-стемы классификации, психологи-клиницисты все чаще обращаютсяк описаниям личности. В отличие от названия диагноза, эти описанияконцентрируют внимание на происхождении и индивидуальном значенииотклонений в поведении и создают более эффективную основу для тера-пии. Но от традиционных названий нелегко избавиться. Еще одним примером тенденции к классификациям являются рас-пространенные ошибки в интерпретации IQ. Обычная критика в адресинтеллектуальных тестов сводится к тому, что они способствуют жест-кой, негибкой и неизменной классификации индивидов. Низкий IQ,утверждают критики, ставит на ребенка несмываемый штамп неполно-ценности. При тестировании культурно неразвитых детей такой IQ бу-дет, следовательно, способствовать упрочиванию их недостатков. В зна-чительной степени вследствие постоянных нападок, которым подвергал-ся IQ, в 1964 г. было прекращено применение групповых интеллек-туальных тестов в общественных школах Нью-Йорка (Н.В. Gibbert,1966; J.O. Loretan, 1966). Сам факт, что необходимо отказаться от тестовдля того, чтобы избежать неправильных представлений о стабильности/б,-прекрасный комментарий к вопросу об устойчивости ошибочныхпредставлений. Следует также отметить, что использование индиви-дуальных тестов интеллекта, типа тестов Станфорд-Бине, которые пои-меняются и интерпоетипутч к".—65 СОЦИАЛЬНЫЕ И ЭТИЧЕСКИЕ АСПЕКТЫ ТЕСТИРОВАНИЯи школьными психологами, не было запрещено. Именно массовое тести-рование и установившаяся практика использования IQ относительно не-опытными лицами и оказались опасными. Согласно распространенному представлению, IQ есть показательврожденных интеллектуальных возможностей и представляет собой не-изменное свойство индивида. Как будет видно из гл. 12, этот взгляд неподтверждается ни теоретическими рассуждениями, ни эмпирическимиданными. Из правильно интерпретированных результатов теста интел-лекта никак не следует жесткая классификация людей, напротив, интел-лектуальные тесты (как и любые другие) можно сравнить с картой, накоторой указано положение индивида, занимаемое им в момент тестиро-вания. В сочетании с информацией о его жизненном опыте тестовые по-казатели должны облегчать эффективное планирование оптимальногоразвития индивида. Объективность тестов. Если социальные стереотипы и пред-рассудки могут исказить межличностные отношения, сами тесты даютнекоторые гарантии против произвольности или изменчивости решений.Комментируя использование тестов в школах, Дж. В. Гарднер (J. W. Ga-rdner, 1961, р. 489) писал: . В том же духе высказываются авторы Руководства по тестирова-нию детей меньшинств> (М. Deutsch et а1., 1964, p. 139): . , подготовленное Комиссией пообеспечению равных возможностей занятости, начинается следующимутверждением: . Короче, при тестировании культурно неразвитых лиц, впрочем каки любых других, тесты могут использоваться неправильно. Но если онииспользуются надлежащим образом, то помогают предотвратить не-справедливую и ненужную дискриминацию. Они также дают количе-ственное выражение степени культурной неразвитости, что являетсяпервым неооходимым шагом для осуществления корригирующей про-граммы . Краткое изложение основных измерений юридического порядка, происшедшихс начала 50-х гг., дано в работе Ц. Финчепа (С. Fincher. 19741. R пей тяк-хг ппмвпо-г/чтчасть 2ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГОТЕСТИРОВАНИЯГЛАВА 4. НОРМЫ И ИНТЕРПРЕТАЦИЯРЕЗУЛЬТАТОВ ТЕСТАПервичные результаты любого психологического теста остаютсябессмысленными без дополнительных данных. Сказать, что кто-то пра-вильно решил 15 задач в тесте на арифметическое мышление, опознал 34слова в лексическом тексте или собрал из элементов тестовый объект за57 с-значит ничего или почти ничего не сообщить, как у него развитасоответствующая функция. Обычные процентные показатели также недают удовлетворительного решения проблемы интерпретации результа-тов теста. Например, 65Їд правильных ответов по одному лексическомутесту могут означать то же, что 30Їо по другому или 80Їо по третьему.Значение показателя может иметь тот или иной смысл в зависимости оттрудности заданий, из которых состоит каждый тест. Как и все пер-вичные данные, процентные показатели могут быть истолкованы тольков рамках четко заданной и единой системы отсчета. Результаты психологических тестов чаще всего интерпретируютсясопоставлением их с нормами выполнения теста в выборке стандартиза-ции. Нормы, следовательно, устанавливаются эмпирически, сообразнотому, как выполняет задания теста некая репрезентативная группы испы-туемых. После этого соотнесением первичного индивидуального резуль-тата с распределением показателей, полученных в выборке стандартиза-ции, выясняется, какое место он занимает в этом распределении.Соответствует ли данный результат среднему выполнению в норматив-ной группе? Или он несколько ниже, а может быть значительно вышесреднего? Чтобы определить более точно положение результатов обследуемо-го относительно выборки стандартизации, полученный результат перево-дится в некую относительную меру. Таким образом преобразованные ре-зультаты (производные показатели) служат двум целям. Во-первых, ониуказывают положение обследуемого относительно нормативной выбор-ки, что позволяет оценить его выполнение теста на фоне выполнениядругих. Во-вторых, они позволяют непосредственно сравнивать данные,полученные по разным тестам.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Например, если обследуемый получил 40очков в лексическом тесте и 22 очка в тесте на арифметическое мышле-ние, то из этого, очевидно, нельзя узнать его относительную результа-тивности по этим двум тестам. Какой тест он выполнил лучше-лексиче-ский или арифметический-или оба одинаково хорошо? Посколькупервичные результаты по различным тестам обычно выражены в разныхединицах, прямое сравнение таких данных невозможно. Различие в степе-ни трудности еще больше усложняет сравнение первичных результатовсоответствующих тестов. Производные же величины могут быть выра-жены в одних и тех же единицах и относиться к одним и тем же иливесьма сходным нормативным выборкам для различных тестов. Такимобразом, оказывается возможным сравнение индивидуальных относи-тельных данных по многим различным функциям. Производные показатели, служащие двум сформулированным вышецелям, можно получить разными путями, которые в целом следуют67НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТАодному из двух направлений: (1) определение достигнутого уровня раз-вития и (2) установление относительного положения индивида в некото-рой группе. Соответствующие типы показателей, а также некоторые изих распространенных вариантов будут рассмотрены в специальных раз-делах этой главы. Но прежде необходимо освоиться с некоторыми ста-тистическими понятиями, лежащими в основе разработки и использова-ния норм. Цель следующего раздела-выяснить смысл несколькихтрадиционных статистических мер. Примеры с несложными вычисления-ми приводятся в нем лишь для иллюстрации и не предназначены дляобучения статистическим методам. Подробности вычислений и кон-кретные процедуры решения прикладных задач читатель зайдет в любомучебнике по статистике для психологов и педагогов.ОСНОВНЫЕ СТАТИСТИЧЕСКИЕ ПОНЯТИЯГлавная цель статистического метода-представить количественныеданные в систематизированной и сжатой форме с тем, чтобы облегчитьих понимание Колонка из 1000 тестовых показателей может произво-дить внушительное, даже ошеломляющее впечатление. Но в таком видеона мало что говорит. Чтобы навести порядок в этом хаосе цифр, нужнопрежде всего составить таблицу частотного распределения (табл. 1). Дляэтого показатели группируются по заранее выработанным интерваламзначений. Когда же показатели распределены по группам, подсчиты-ваются число групп и число показателей в каждой из них. Полученноетаким способом число и есть частота (количество случаев) для соответ-ствующего интервала. Сумма всех частот равняется N-общему числуслучаев В табл. 1 даны результаты 1000 студентов по тесту на усвоение кода, в котором производилась замена искусственных слов или бессмысленных Таблица 1 слогов из одного набора аналогичнымиЧастотное распределение результа- элементами ИЗ Другого набора. Значениятов у 1000 студентов по тесту ус- первичного показателя (число правильныхвоения кода (A. Anastasi, 1934, р. 34) ответов, данных испытуемым за 2 мин)-1- уложились в пределы от.8 до 55. Этот Классы (интервалы) Частота ДИВЛаЗОН был разбит На ИНТСрВаЛЫ ПО jjf 1 4 очка в каждом: от 8-11 до 52-55. 48-51 1 Из колонки частот видно, что результаты 44-47 20 двух испытуемых находятся в интервале _ между 8 и II, трех-между 12 и 15 и т.д. з2_з5 328 Информация, содержащаяся в частот- 28-31 244 ном распределении, может быть также 24-37 136 представлена графически в виде кривой _ распределения На рис. 1 данные из 1абл. 1 ii_ij з изображены с помощью графика. ДПо го- 8-11 2 ризонтальной оси отложены интервалы gQ looo значений тестового показателя, а по вер-____________________ тикальной-частота, или число случаев, См., например: Г. В. Суходольский. Основы математической статистики для психо-логов. Л., 1972; Дж. Гласе, Дж. Стэнли. Статистические методы в педагогике и психоло-гии. М.. 1976: М.И. Грабарь. К. А. Краснянская. Применение математической статистики68ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯпопадающих в каждый класс. График может строиться двумя спосо-бами, каждый из которых достаточно распространен. На гистограммевысота столбцов, вычерченных над каждым интервалом, соответствуетчислу людей, чьи результаты попали в этот интервал (их количествоопределяет высоту столбца). В полигоне частот число испытуемыхуказывается точкой, расположенной над серединой интервала на высоте,соответствующей его частоте, а сами точки последовательно соеди-няются прямолинейными отрезками. Если не считать незначительных отклонений, распределение, пред-ставленное на рис. 1, напоминает колоколообразную нормальную кри-вую. Идеальная нормальная кривая изображена на рис. 3. Этот тип кри-вой обладает важными математическими свойствами, и на ней основанымногие виды статистического анализа. Для наших целей, однако, важнылишь некоторые из них. По существу эта кривая означает, что число слу-чаев максимально в середине распределения и постепенно спадает к еекраям. Кривая симметрична и имеет единственный пик в центре. Боль-шинство распределений численных показателей-от роста и веса д /" 43 )+209случаев J41+1t41+i ->1Медиана == 40,540Ї 0.438-24 J/o 36-}-20 16случаев )34-3632-8 )64SX = 4001И =40 == 244ZX400М40 N1021х1 Среднее отклонение = — = -N40 — = 4 10?x"244Дисперсия-= o =N10= 24,4ПоказателиРис. 2. Частотные распределенияс одним и тем же средним значе-нием, но разным разбросомПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ ный тестовый результат. Формально, од- нако, модой является число 41, поскольку этот результат показали два человека, тогда как остальные результаты встре- чаются лишь по одному разу. Вторая колонка показывает, насколь- ко каждый результат отклоняется в ту или другую сторону от среднего значения (40). Сумма этих отклонений всегда равна нулю, так как положительные и отрица- тельные отклонения от среднего обяза- тельно уравновешивают друг друга ( + 20- -20 = 0). Отбросив знаки отклонений иусредняя их абсолютные значения, мы получаем меру, известную подназванием среднего отклонения. Символ х в формуле среднего от-клонения означает, что суммируются абсолютные значения при х.Хотя среднее отклонение и может служить в качестве средства опи-сания распределения, этот показатель не годится для математическогоанализа данных из-за произвольного отбрасывания знаков . П"ораздо более полезной мерой разброса является стандартное от-клонение, обозначаемое буквой ет. .При ее вычислении отрицательныезнаки устраняются благодаря возведению каждого отклонения в ква-драт, что видно из третьего столбца табл. 2. Сумма , т.е. теста, с помощью которого они были получены. При таком пониманиидля получения возрастных норм необходим достаточно представительный фактическийматериал. В связи с этим возникает несколько серьезных проблем, главной из которыхявляется проблема нормативной выборки. В настоящее время возрастные нормы, приво-димые в интеллектуальных тестах, по существу занижены, так как представляют собойсредние результаты, установленные для сложных выборок. В эти выборки входят, хотя ив небольшом количестве, дети с различными отклонениями в развитии (умственно от-сталые, с речевыми нарушениями и др.), низкие результаты которых средниепоказатели: средний результат для группы детей, не имеющих отклонений, будет, есте-ственно, выше, чем для всей выборки. Что же считать возрастной нормой? Как подходитьк ее определению? Ответ на эти вопросы особенно необходим в тех случаях, когда тесты72 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯне среднего 10-летнего ребенка, имеет умственный возраст (МЛ) 10 лет.Значение МА умственно отсталого взрослого, выполняющего эти зада-ния на том же уровне, будет также 10 лет. Аналогично можно сказатьо четверокласснике, что он достиг нормы шестого класса по тесту чтенияи нормы третьего класса по арифметическому тесту. В других системахэтого типа используются более качественные описания развития опреде-ленных функций, начиная от сенсомоторной активности и кончая форми-рованием понятий. Но независимо от способа выражения, показатели,основанные на возрастных нормах, довольно грубы и плохо поддаютсяточной статистической обработке. Тем не менее они достаточно на-глядны, особенно при клиническом обследовании, а также при решенииряда научных проблем. Умственный возраст. Как отмечалось в главе 1, термин получил широкое распространение благодаря раз-личным переложениям и адаптациям шкал Бине-Симона, хотя сам Бинепользовался более нейтральным термином .В возрастных шкалах типа шкал Бине и их модификациях тестовые зада-ния группируются по возрастам. Например, задания, посильные длябольшей части выборки стандартизации 7-летних детей, относятсяк уровню 7-летних детей; задания, выполняемые большинством 8-летнихдетей,-к уровню 8 лет и т.д. Тестовый показатель ребенка будет в этомслучае соответствовать самому высокому возрастному уровню тех зада-ний, с которыми он справляется. Действительное выполнение индивидомтестов не столь однозначно. Иными словами, испытуемый может несправиться с некоторыми тестами ниже его умственного возраста и вы-полнить задания-рассчитанные на более высокий умственный возраст.По этой причине .принято сначала устанавливать базовый возраст обсле-дуемого, т.е. максимальный возрастной уровень, для которого и нижекоторого все тесты оказываются доступными ребенку. Все выполненныезадания, рассчитанные на более высокие возрастные уровни, приписы-ваются как в виде определенного числа месяцев. Ум-ственный возраст ребенка, таким образом, определяется как сумма базо-вого возраста и дополнительных . Возрастные нормы используются и в тестах, не подразделенных навозрастные уровни. В этом случае нормы устанавливаются для значенийпервичного результата теста, такого, как общее число правильных отве-тов, время выполнения заданий, число ошибок или же некоторая комби-нация таких показателей. Значения первичных результатов, полученныхна выборке стандартизации для каждого возрастного уровня, и соста-вляют возрастные нормы такого тестаНапример, средний показатель8-летних детей является нормой для возраста 8 лет. Если показатель обс-ледуемого равен среднему значению первичного результата для этоговозраста, то его МА составляет 8 лет. Подобным образом могут бытьвыражены любые первичные показатели такого теста. Следует отметить, что единица умственного возраста не остаетсяпостоянной и с годами сокращается. Так, ребенок, отстающий в разви-тии на один год в 4-летнем возрасте, к 12 годам будет отставать пример-но на 3 года, т. е. один год умственного роста между 3 и 4 годами равно-силен 3 годам роста между 9-м и 12-м годом жизни. Поскольку развитиеинтеллекта идет быстрее в более ранние годы и постепенно замедляетсяпо мере взросления ребенка, единица умственного возраста соответ-73 НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА развитие ребенка в виде возрастной ростовой шкалы. Разница в росте (в см) для возраста 3 и 4 года будет большей, чем для возраста 10и11 лет. В силу постепенного сокращения единицы МА, один год опережения или задержки развития в возрасте, скажем, 5 лет означает большее отклоне- ние от нормы, чем тот же год в возрасте 10 лет.1 1 Эквивалентный класс. Показатели тестов достижений в обуче- нии"часто интерпретируются с помощью понятия эквивалентный класс, введение которого объясняется тем, что все тесты этого типа приме- няются для обследования учащихся Так, говорят, что ученик достиг уровня VII класса по орфографии, уровня VIII класса по технике чтения и уровня V класса по арифметике, и такая характеристика оказывается столь же наглядной, как и умственный возраст в обычных тестах интеллекта. Нормы классов определяются подсчетом среднего первичного ре- зультата, полученного детьми соответствующего класса.Так, если сред- нее количество правильно решенных задач арифметического теста в вы- борке стандартизации четверокласснику равно 23, то число 23 соответствует эквивалентному IV классуЛПромежуточные эквивалентные классы, представляющие как бы доли класса, обычно определяются пу- тем интерполяции, хотя их можно получить и непосредственно, тестируя детей несколько раз в учебном году. Поскольку учебный год длится 10 месяцев, на каждый из них приходится по 0,1 года. Например, число 4,0 означает среднее выполнение теста в начале IV класса (сентябрьское те- стирование), 4,5 соответствует февральскому тестированию и т.д. Несмотря на их популярность, классные нормы имеют ряд недостат- ков. Во-первых, содержание обучения меняется от класса к классу. По- этому такие нормы применимы только к общеобразовательным предме- там, обучение которым ведется на всех уровнях, охватываемых данным тестом. Они, вообще говоря, неприменимы в старших классах, где мно- гие предметы изучаются только один или два года. Даже если предмет преподается на протяжении всего обучения в школе, его значение может меняться от класса к классу и, следовательно, скорость его изучения мо- жет быть различной. Иными словами, единицы шкал эквивалентных классов явно не равны друг другу, причем отсутствует определенная за- кономерность в их изменении для разных предметов. Классные нормы могут быть неверно истолкованы, если упустить из виду способ их получения. Например, если четвероклассник в шкале эк- вивалентных классов получил оценку 6,9 по арифметике, то это не озна- чает, что он овладел этим предметом в объеме VI класса. Вне всякого сомнения, он показал такой результат главным образом благодаря от- личному знанию арифметики, проходимой в IV классе. И конечно, нель- зя считать, что он уже готов к ее изучению по программе VII класса. На- конец, классные нормы иногда ошибочно трактуются как нормативы выполнения теста. Учительница VI класса, например, может решить, что все ее ученики должны иметь в тестах достижений результаты, близкие к норме VI класса. Такое представление не удивительно, если исполь- зуются классные нормы, хотя индивидуальные различия в пределах одного класса таковы, что диапазон распределения результатов теста до- стижения будет обязательно включать несколько классов. 1 1Цклы порядка. Еще один подход к нормам развития связан с исследованиями по детской психологии. Благодаря эмпирическим на- fimTiMinaM чя пячнитием млапенцев и дошкольников был накоплен об-74 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯширный материал, позволяющий описать типы поведения для различныхвозрастов по таким функциям, как моторика, сенсорика, речевое обще-ние, формирование понятий. В качестве первого из таких исследованийможно назвать работу А. Гезелла и его коллег по Йельскому универси-тету (L.B. Ames, 1937; A. Gesell et al., 1940; A. Gesell, C.S. Amatruda, 1947;H. M. Halverson, 1933). В таблицах развития А. Гезелла показан по меся-цам приблизительный уровень развития ребенка в каждой из четырех ос-новных сфер его поведения: моторики, языка, адаптивного и личностно-социального поведения. Сами уровни определялись сравнением поведе-ния ребенка с поведением, характерным для восьми ключевых возрастов,начиная с 4 нед до 36 мес. А. Гезелл и его сотрудники отметили последовательный характерраннего развития поведения. Они приводили обширные данные, свиде-тельствующие о единообразии последовательности развития, об упоря-доченности изменений в поведении. Например, реакции ребенка на не-большой предмет, помещенный перед ним, обнаруживают характернуювременную последовательность фиксации взгляда, а также движений ру-ки и пальцев. Попытки захватить предмет всей ладонью предшествуют,использованию большого пальца, за чем, в свою очередь, следует за-хватывание с помощью большого и указательного пальца. Аналогичныеэтапы обнаруживаются и в развитии ходьбы, подъеме по лестнице ив большей части сенсомоторного развития первых лет жизни. Шкалы,разработанные по этим данным, являются шкалами порядка в том смыс-ле, что этапы развития наступают в определенной последовательности,причем каждый новый этап предусматривает предварительное усвоениетипов поведения, характерных для предыдущих этапов В 60-х гг. резко возрос интерес к теориям развития щвейцарскогодетского психолога Жана Пиаже (J.H.FIavell, 1963; H.Ginsburg.S. Opper, 1969; D.R. Green, M.P. Ford, G.B. Flamer, 1971). ИсследованияЖ. Пиаже были сосредоточены на развитии когнитивных процессов отмладенчества до старшего подросткового возраста. Его больше интере-совали конкретные представления ребенка, нежели способности в широ-ком смысле слова. Примером такого представления является постоян-ство объекта, благодаря которому ребенок сознает идентичностьи непрерывность существования объекта, когда он виден под разнымиуглами или находится вне поля зрения. Еще одним широко изучаемымпредставлением является сохранение, т.е. сознание того, что тот илииной признак остается константным, несмотря на изменения в его во-сприятии, возникающие, например, когда одно и то же количество жид-кости наливается в сосуды разной формы или когда палочки одинаковойдлины по-разному располагаются в пространстве. Методики Пиаже широко применяются в возрастной психологии.Некоторые из них были использованы в качестве стандартизованных Данное значение термина отличается от принятого в статистике, где он обозначает любую шкалу, допускающую упорядочение объектов без учета степени различия между ними. В статистическом смысле шкалы порядка противопоставлены шка-лам с фиксированной единицей измерения. Шкалы порядка, в которых выражается разви- тие ребенка, фактически построены согласно модели шкалы, или симплекса Л. Гутмана (L. Guttman, 1944), в которой соответствие объекта какому-либо уровню автоматически означает соответствие его и всем другим более низким уровням. Модификация этого под- хода, включающая нелинейные иерархические системы типа шкал Пиаже, описана в рабо- _- т> тч тг""" " тт п А>ип"",то /w Bi, о и; Дч-осШп ioid.)75НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА шкал, о которых идет речь в главах 10 и 14 (M.L.Goldschmid, R.M. Bentler, 1968; J.O. Loretan, 1966; A. Pinard, M.A. Laurendeau, 1964; I.C.Uzgiris, J. Hunt, 1975). Согласно подходу Ж.Пиаже, эти методики являются шкалами порядка, в которых достижение какого-либо уровня невозможно без успешного прохождения более ранних этапов развития. Методики построены так, чтобы выявить важнейшие аспекты каждого этапа развития. Только после этого собираются эмпирические данные относительно возраста, характеризуемого тем или иным этапом. В этом отношении процедура отличается от процедур, применяемых при по- строении возрастных шкал, в которых задания отбираются прежде всего по их способности дифференцировать смежные возрасты. Итак, щкалы порядка предназначены для выяснения того, на какой стадии развитйяЧйяхОдйтсятаГили иная конкретная психическая функция. Хотя показатели могут описываться в терминах возрастных уровней, : в таком виде они имеют второстепенное значение по сравнению с каче- ственным описанием характерных черт поведения ребенка. Слово , входящее в название данного типа шкал, указывает на существова- ние единообразия в развитии, проходящем через последовательные стадии. Эти шкалы обычно состоят из описаний того, что ожидается от обследуемого на том или ином этапе (например, умение взобраться по лестнице без посторонней помощи или догадаться, что в сосуды разной формы налито одинаковое количество жидкости), т. е. обладают теми же.; существенными чертами, что и критериальные тесты, обсуждаемые ; в одном из следующих разделов.; ВНУТРИГРУППОВЫЕ НОРМЫ > Описания почти всех современных стандартизованных тестов в той или 1 иной форме содержат данные о внутригрутовых нормах./С помощью 1 таких норм индивидуальное выполнение оценивается в соответствии и с выполнением наиболее сопоставимой нормативной группы Например, 1 первичный показатель ребенка сравнивается с показателямйдетей того же возраста или того же года обучения. Внутригрупповые показатели 1 имеют единый и четко определенный количественный смысл и могут 1 быть надлежащим образом использованы в рамках большинства мето- ( дов статистического анализа. Процентили. Процентиль — это процентная доля индивидов из выборки стандартизации, первичный результат которых ниже данного первичного показателя. Например, если 28Ї" людей правильно решают 15 задач в тесте на арифметическое мышление, то первичному показате- лю 15 соответствует 28-й процентиль (Pg).) Процентили указывают на относительное положение индивида в выборке стандартизация. Их также можно рассматривать как ранговые градации, общее число которых рав- но 100, с той разницей, что при ранжировании принято начинать отсчет сверху, т.е. с лучшего члена группы, получающего ранг 1. Напротив, в случае процентилей отсчет ведется снизу, так что чем ниже процентиль,t тем хуже позиция индивида. 50-й процентиль (Рдо) соответствует медиане-одному из упомя- ? нутых выше показателей центральной тенденции. Процентили свыше 50 представляют показатели выше среднего, а те, которые лежат ниже 50,-сравнительно низкие показатели, 25-й и 75-й процентили известны тягжр пптт нячвянием 1-го и 3-го квартилей (Q, и ()з), поскольку они вы-76ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯделяют нижнюю и верхнюю четверти распределения. Как и медиана, ониудобны для описания распределения показателей и сравнения с другимираспределениями. Процентили не следует смешивать с обычными процентными пока-зателями. Последние являются первичными показателями и предста-вляют собой процент правильно выполненных заданий, тогда как про-центиль-это производный показатель, указывающий на долю от общегочисла членов группы. Первичный результат, который ниже любого пока-зателя, полученного в выборке стандартизации, имеет нулевой процен-тильный ранг (РО). Результат, превышающий любой показатель в выбор-ке стандартизации, получает процентильный ранг 100 {Pioo)- Этипроцентили, однако, не означают нулевого или абсолютного результатавыполнения теста.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Процентильные показатели обладают рядом достоинств. Их легкорассчитать и понять даже сравнительно неподготовленному человеку. Ихприменение достаточно универсально, они одинаково применимы какк детям, так и взрослым и подходят к любому типу теста, измеряет онспособности или свойства личности. Главный недостаток процеитилей связан с неравенством их как еди-ниц измерения, особенно на краях распределения. Если распределениепервичных показателей приближается к нормальной кривой, что справед-ливо для большинства тестовых показателей, то различия между пер-вичными показателями вблизи медианы или центра распределенияв процентильном выражении преувеличены, тогда как аналогичные раз-личия вблизи краев распределения сильно занижены (см. рис. 4). Напом-ним, что в нормальной кривой случаи тесно сгруппированы в центреи по мере приближения к краям рассеиваются. Следовательно, каждыйданный процент случаев вблизи центра соответствует более короткомурасстоянию по оси абсцисс, чем тот же процент ближе к краям распреде-ления. На рис. 4 это расхождение в промежутках между рангами процен-тилей (РП) хорошо заметно, если сравнить расстояние между РП = 40 иРП == 50 с расстоянием между РП == 10 и РП = 20. Еще более разитель-но расхождение ежду этими расстояниями при РП = 10 и РП = 1. (Втеоретической нормальной кривой нулевой процентиль достигаетсяРис. 4. Ранги процентилей при нормальном распределении QI зрп 1_______________10 20130 40 50 60 70 80 9077НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТАлишь в бесконечности и поэтому не может быть показан на графике.) Тоже соотношение получится, если процентили отмечать интервалами оди-наковой длины (7, откладывая их влево и вправо от пика нормальнойкривой. Такие процентили выписаны в нижней части рис. 4. Мы видим,что разность процентилей между пиком и +1ст равна 34 (84-50), а ме-жду +1(7 и+ 2ст-всего 14 (98-84). Ясно, !что процентили показывают относительное положение каждо-го индивиДа в нормативной выборке, а не величину различия между ре-зультатамиНо если результаты, выраженные в процентилях, наноситьна так называемую линейно-вероятностную масштабную бумагу, то про-центили также создадут адекватно зрительную картину различий междупоказателями. Линейно-вероятностная бумага разграфлена так/что вер-тикальные линии отстоят друг от друга так же, как и процентили на нор-мальной кривой, тогда как горизонтальные линии следуют через одина-ковые интервалы (рис. 4)-или наоборот, как показано на рис. 5. Такиенормальные процентильные бланки могут быть использованы для графи-ческого представления показате-лей, полученных разными людьмипо одному и тому же тесту илиданных одного и того же лицапо разным тестам. В обоих слу-чаях фактическое различие междупоказателями будет представленоправильно. Этот способ использу-ется теперь во многих батареяхтестов способностей и достиженийдля вычерчивания профиля резуль-татов, показывающего индивиду-альное выполнение каждого теста.В качестве примера можно привес-ти индивидуальный отчет из тес-тов различных способностей, изо-браженный на рис. 13 из гл. 5. Стандартные показате-ли. Все большее использование всовременных тестах стандартныхпоказателей объясняется их при-годностью во многих отношениях.Такиепоказатели выражают от-клонение индивидуального резуль-тата от средней нормы в единицах,пропорциональных стандартномуотклонению распределения. Стандартные показатели мо-гут быть получены как линейным,так и нелинейным преобразова-нием первичных показателей. Ес-ли используется линейное преоб-.разование, то при этом сохраня-ются соотношения между первич-ными показателями, посколькуРис. 5. Нормальный процентильный бланк.Процентили размещены так, чтобы соответ-ствовать равным интервалам при нормаль-ном распределении. Сравним расстояниемежду результатами Джона и Мери, с од-ной стороны, и Элен и Эдгара-с другой.Разность процентилей и в том и другомслучае равна 5 единицам, а разность резуль-татов Джейн и Дика, так же как и Биллас Дебьи, составляет 10 единиц78 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯкаждого первичного показателя одной и той же величины с после-дующим делением результата на другую постоянную величину. От-носительная величина разницы между стандартными показателями,полученными при таком линейном преобразовании, в точности соответ-ствует относительной величине различия первичных показателей. Всесвойства первоначального распределения показателей полностью во-спроизводятся в распределении линейных стандартных показателей. Поэтой причине любые вычисления, которые можно производить с ис-ходными данными, могут также выполняться и с линейными стан-дартными показателями без какого-либо искажения конечных результа-тов. Линейно преобразованные стандартные показатели часто именуютсяпросто как стандартный показатель или z-показатель. Чтобы вычислить2., находят разность между индивидуальным первичным результатоми средним значением для нормативной группы и затем делят эту раз-ность на (т нормативной группы. На табл. 3 приводится вычисление -по-казателей для двух испытуемых, z одного из них приходится на отметку1(7 выше группового среднего значения, а z другого составляет 0,4(7. Вся-кий первичный показатель, в точности равный среднему значению, имеетz = 0. Очевидно, что получающиеся при таком вычислении отрицательныепоказатели означают, что выполнение тестов индивидом было нижесреднего. Более того, поскольку для большинства групп область значе-ний умещается в пределах от 3(7 ниже и выше среднего значения, удовле-творительное различение индивидуальных показателей возможно, толькоесли z вычисляется с точностью хотя бы до одной десятой. Все это де-лает показатель z неудобным для вычислений и сообщения результатов.Поэтому обычно применяется еще одно линейное преобразование, един-ственная цель которого придать показателям более удобную форму. Так,показатели теста способности к обучению Совета по приемным экзаме-нам в колледжи представляют собой z, пересчитанный с таким расчетом,чтобы среднее значение равнялось 500, а (7 100. Таким образом, z =- 1в этом тесте мог бы соответствовать цифре 400 (500 — 100). Точно также z = 1,5 соответствует значение 650 (т.е. 500 + 1,5 х 100). Чтобы пере-вести z в новую шкалу, необходимо просто умножить его на выбраннуювеличину (7, в данном случае 100, и полученное произведение прибавить(с учетом знака при 2) к выбранному среднему значению М (в данномпримере 500). При желании в качестве М и (7 можно выбрать любые дру-гие удобные значения, например показатели отдельных субтестов в шка- Таблица з -T интеллекта Вексле-Вычисление эначений стандартных показателей Р Преооразуются так, что М == 10, а 16,0 6,3 1,6 5,1 8,5 15,4 21,0 21,0 ] 15,4 8,5 5,1100,083НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТАуже уловил определенную общность между ними Процентили постепен-но приобрели, по крайней мере графически, сходство с нормализованны-ми стандартными показателями. Линейные стандартные показатели ока-зались неотличимыми от нормализованных, если исходное распределе-ние первичных результатов теста близко к нормальному. Наконец,стандартные показатели обратились в IQ, и наоборот. Последнее обстоя-тельство позволило переосмыслить значение относительного IQ тестовСтанфорд-Бине и трактовать его как стандартный показатель Если рас-пределение IQ имеет М = 100 и ст -= 16, то отсюда следует, что IQ = 116находится на расстоянии в 1ст справа от среднего значения и соответ-ствует стандартному показателю z, равному + 1,0. Аналогично IQ = 132соответствует z == 2,0, IQ = 76- z == -1,5 и т.д. Более того, IQ = 116отвечает примерно 84 процентилям, поскольку в нормальном распреде-лении на область слева от отметки 1ст приходится приблизительно 84Ї/"случаев (рис. 4). На рис. 6 изображены соотношения при нормальном распределенииРис. 6, Соотношения различных типов тестовых показателей при нормальном распре-делении z-показатепь 1"..-.111 1….. )l-4-3-21 0+1+-2+3+4Т-показатель 11 1. l.l 10 20 30 40SAT-показательJ_60 701i111. . . . J "- "1i1200300400500600700800Стандартный 1IQ(o-=15) 11 ..111Станайн70 85 100 115 130 1454% 7% 12% 17% 20%17% 12% 7% llllllll2 3456 78Процентильi i1 5102030406070809095 99 5084 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯобсуждавшихся в этой главе различных типов показателей, таких, как z-,Т-, и ХЛТ-показатели, векслеровский IQ (ст = 15), станайны и процентили.Относительный IQ любого теста, если он распределен нормальнои имеет ст, равное 15, совпадает с приведенной здесь шкалой IQ. В диа-грамму можно было бы включить любой другой нормально распреде-ленный IQ с известным ст. Если, например, те-стами, которые они проходили в своих школах. Точно так же относительная позиция индивида по различным функ-циям может быть неверно интерпретирована из-за несопоставимости те-стовых норм. Предположим, учащемуся для определения уровня разви-тия некоторых его навыков были даны тесты на понимание слови пространственное восприятие. Если первый из этих двух тестов стан-дартизован на случайной выборке учеников старших классов, а второй-на группе мальчиков из ремесленного училища, то можно ошибочно за-ключить, что индивид гораздо более развит в вербальном, чем простран-ственном отношении, тогда как на самом деле может иметь местообратное. Подобная ситуация может возникнуть при лонгитюдном сравнениивыполнения теста одним и тем же индивидом. Если в личном делешкольника содержатся IQ 118, 115 и 101, относящиеся соответственнок IV, V и VI классам, то первый вопрос, который необходимо задатьпрежде, чем интерпретировать эти изменения, должен быть таким: Очевидное снижение результа-тов может отражать всего-навсего различие между тестами. В этом слу-чае результаты остались бы теми же, даже если бы эти три теста былипроведены с интервалом в одну неделю. Существуют три основные причины систематических изменений ре-зультатов, полученных одним и тем же индивидом в различных тестах.Во-первых, тесты, даже если одинаково именуются, могут различаться- Av,,w Мнп-ж-рттвп ппимеоов тому мы находим среди так назы-85НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА именем, хотя одни из них включают в себя только вербальные задания, другие связаны с пространственными навыками, третьи содержат вер- бальные, пространственные и числовые задания. Во-вторых, могут ока- заться несравнимыми единицы измерения. Как уже объяснялось, если fQ одного теста построен при z == 12, а другого-при z = 18, то испы- туемый, который в первом тесте получит IQ 112, во втором, скорее все- го, будет иметь IQ 118. В-третьих, характер выборок стандартизации, ис- пользованных при определении норм для разных тестов, может оказаться различным. Очевидно, один и тот же индивид будет выглядеть лучше на фоне более слабой, чем более сильной группы. Несопоставимость содержания тестов или единиц измерения обычно выявляется при рассмотрении самого теста или руководства по его ис- пользованию. Но несоответствие нормативных выборок -заметить труд- нее, и оно, вероятно, и является причиной многих не поддающихся ино- му объяснению расхождений в результатах теста. Нормативная выборка. Любая норма, в чем бы она ни выра- жалась, ограничивается конкретной совокупностью людей, для которой она вырабатывалась. Пользующийся тестом всегда должен знать способ, которым устанавливались нормы теста. Применительно к психологиче- ским тестам они никоим образом не абсолютны, не универсальны и не постоянны. Они просто отражают выполнение теста испытуемыми из выборки стандартизации. При формировании такой выборки обычно стремятся получить репрезентативный срез популяции, на которую ориентирован тест. В статистике принято различать выборку и популя-1 цию. Первый из этих двух терминов обозначает группу, которая реально1 подвергается тестированию. Второй относится к более широкой, но1 имеющей тот же состав группе людей, из которой формируется выборка. Например, если мы хотим установить нормы выполнения теста для мальчиков 10 лет, живущих в городах и посещающих общественную школу, то нам нужно протестировать, скажем, 500 десятилетних мальчи- ков, посещающих такие школы в нескольких американских городах. Их выборка, чтобы быть репрезентативной для данной популяции, должна быть выверена по географическому распределению, социоэкономическо- му уровню, этническому составу и другим существенным характеристи- кам. При разработке и применении тестовых норм на выборку стандар- тизации следует обращать особое внимание. Очевидно, что для обеспече- ния стабильных значений выборка, на которой основываются нормы, должна быть достаточно большой. Другая выборка, отобранная по- добным образом из этой же популяции, не должна приводить к нормам, заметно отличным от полученных. Ясно, что с точки зрения интерпрета- ции результатов теста нормы мало чего стоят, если они определены с большой выборочной ошибкой. Столь же важно, чтобы выборка была репрезентативна рассматри- ваемой популяции. Необходимо тщательно исследовать даже незначи- тельные факторы, влияющие на отбор и делающие выборку нерепрезен- тативной. Ряд таких факторов может быть продемонстрирован на выборках по социальной и профессиональной принадлежности. Исполь- зование таких выборок ввиду их доступности и возможности привлече- ния большого числа испытуемых представляется заманчивым для сбора нормативных данных. Однако нужно внимательно проанализировать гтгктпх/ттгм "ГТ-ТХЛ T11_TiptfrvЯ6 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯсвойственно постепенное от класса к классу повышение уровня испы-туемых, вследствие отсева менее способных учеников. В различных под-группах это явление выражено неодинаково. Например, процент выбыв-ших выше для мальчиков, чем для девочек. Он также выше длясоциальных групп, находящихся на более низком экономическом уровне. Факторы отбора действуют и в таких выборках, как сформиро-ванные, например, из заключенных, пациентов психиатрической лечеб-ницы или из умственно отсталых, помещенных в специальные дома.Благодаря конкретным причинам, определившим помещение индивидав специальное учреждение, упомянутые группы не репрезентативны всейпопуляции преступников, душевнобольных или умственно отсталых. Так,умственно отсталые, страдающие физическими недостатками, чащеоказываются в специальном учреждении, чем физически полноценные.Соответственно относительное число лиц с глубокой умственной отста-лостью будет намного большим в выборке такого типа, чем в популяциив целом.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
К вопросу о репрезентативности выборки непосредственно относит-ся необходимость определения специфической популяции, к которой при-менимы полученные нормы. Очевидно, одним из способов обеспечениярепрезентативности выборки является ограничение популяции сообразноособенностям выборки. Например, если определить популяцию как14-летние школьники, а не 14-летние дети, то школьная выборка будетрепрезентативной. В идеале, разумеется, желаемая популяция должнафиксироваться заранее, исходя из целей теста, а затем формируетсянадлежащая выборка. Невозможность привлечь нужных испытуемых мо-жет, однако, сделать эту цель недостижимой. В таком случае лучше су-зить определение популяции, чем утверждать, что нормы относятся к по-пуляции, которая не была адекватно представлена в нормативной выбор-ке. Фактически подавляющее большинство тестов стандартизовано дляне столь широких популяций, как многие полагают. Тестовых норм, дей-ствительных для всего рода человеческого, не существует! Сомнительнотакже, чтобы по какому-либо тесту имелись адекватные нормы длястоль обширных популяций, как , и т.п. Следовательно, выборки, по-лучаемые различными создателями тестов, часто не вполне репрезента-тивны популяции, для которой предназначены, и смещены в тех илииных отношениях. Отсюда и несопоставимость получаемых норм. Согласование норм. Один из подходов к решению проблемысопоставимости тестов заключается в составлении таблиц эквивалентно-сти показателей разных тестов. Такие таблицы могут быть составленыэквипроцентильным методом, и тогда показатели считаются эквива-лентными, если они имеют равные процентили в данной группе. Напри-мер, если 80Ї"-ный процентиль в одной и той же группе соответствует IQ115 по тесту А и IQ 120 по тесту В, то IQ = 115 для теста А считаетсяэквивалентным IQ -= 120 для теста В. Этот метод в какой-то мере прак-тиковался некоторыми издательствами, выпускавшими таблицы эквива-лентности для некоторых из опубликованных ими тестов (R.T. Lennon,1966й). Смещенной (огностельно данной популяции) называется выборка, в которой те.или иные подгруппы популяции представлены непропорционально своей численности87НОРМЫ И ИНТЕРПРЕТАЦИЯ РГ-ЗУЛЬТАТОВ ТЕСТА Время от времени выдвигаются обширные проекты, предусматри-вающие калибровку каждого нового теста относительно единого эталон-ного теста, стандартизованного на весьма репрезентативной норматив-ной выборке в масштабе всей страны (R.T.Lennon, l966b). Конечно,никакой единый тест не может использоваться для обоснования нормвсех тестов, независимо от их содержания. Необходима батарея эта-лонных тестов, стандартизованных на одной и той же общеамериканскойвыборке. Любой новый тест мог бы после этого быть выверен -с по-мощью наиболее близкого к нему эталонного теста из этой батареи. Пока что ближе всего к реализации этого замысла (применительнок популяции старшеклассников средних школ) удалось подойти в рамкахосуществления программы TALENT (J.C. Flanagan et а1, 1964). Исполь-зуя случайную выборку, примерно 5Їо средних школ страны, исследова-тели применили рассчитанную на два дня батарею особым образом со-ставленных тестов способностей и достижений, интересов и темперамен-та приблизительно к 400000 учеников 1Х-Х11 классов. Нужно признать,что даже при наличии таких согласованных данных разработанные неза-висимо друг от друга тесты нельзя рассматривать как абсолютно взаи-мозаменяемые. В лучшем случае использование единых для всей странынорм сможет лишь заметно снизить несопоставимость тестов, но никакне устранить ее. Батарея TALENT были использована для калибровки некоторых ба-тарей тестов, применяемых в морских и военно-воздушных силах США.Процедура состоит в следующем. Вначале одной и той же выборкепредъявляются как батарея TALENT, так и тест, подлежащий калибров-ке. Далее с помощью корреляционного анализа из всей батареи TALENTвыделяется набор тестов, наиболее близкий к калибруемому тесту. Нако-нец, эквипроцентильным методом составляется таблица, устанавливаю-щая соответствие между показателями выделенного набора из батареиTALENTn данным тестом. Были также получены данные, необходимые для выделения из бата-реи TALENT набора, соответствующего каждому из тестов таких бата-рей, как дифференцированные тесты способностей, классификационныетесты профессиональной пригодности Дж. Фланагана и тесты общейпрофессиональной пригодности Службы занятости США. Особый интерес представляет исследование эталонных тестов, про-веденное Службой тестирования в образовании при содействии Амери-канского управления образования (R.M. Jaeger, 1973). Столь обстоятель-ное исследование было предпринято для разработки сопоставимыхи действительно репрезентативных общенациональных норм по 7 наибо-лее употребительным тестам навыков чтения, предназначенным для уче-ников средних классов. В соответствии с необычайно тщательно разра-ботанным экспериментальным замыслом в 50 штатах было обследованосвыше 300 000 учеников IV-VI классов. Эталонный тест состоял из субте-стов понимания текста и словарного запаса, входящих в национальныйтест школьных достижений, и для них в ходе исследования были уста-новлены новые нормы. При установлении эквивалентности норм каждо-му ребенку предъявлялись субтесты понимания текста и словарного за- В. X. Ангоффом (W.H. Angoff, 1964, 1966, 1971 а) блестяще проанализированы техни-ческие трудности, возникающие в связи с попытками добиться сопоставимости показате-88 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯпаса двух из семи батарей, каждая из которых составляла пару с любойдругой батареей. К некоторым группам применялись параллельныеформы двух субтестов из одной и той же батареи. В еще одних группахпредъявление пар тестов дублировалось в обратной последовательности,что позволяло контролировать влияние порядка предъявления тестов.Статистический анализ полученных данных эквипроцентильным мето-дом позволил составить таблицы эквивалентности показателей для семитестов, было также составлено руководство по интерпретации результа-тов тестов для их использования в школах заинтересованными лицами(P.O. Loret, A. Seder, J.C. Bianchini, С. A. Vale, 1974). Специфические нормы. Еще одним решением-и для большин-ства тестов, вероятно, более реалистичным-проблемы неэквивалентно-сти существующих норм является стандартизация тестов для более уз-кой популяции, выбираемой сообразно специфическим целям каждоготеста. В таких случаях границы нормативной популяции должны бытьчетко определены и приведены вместе с нормами. Так, можно указать,что данные нормы относятся к управленческому персоналу крупныхфирм или к первокурсникам технических колледжей. Для многих целейтестирования желательно иметь достаточно специализированные нормы.Даже когда имеются репрезентативные нормы для широкой популяции,часто оказываются полезными так называемые подгрутовые нормы. По-требность в них возникает, когда показатели теста заметно меняются отодной подгруппы к другой. Сами подгруппы могут формироваться попризнаку возраста, года обучения, типа школьной программы, пола, гео-графического региона, проживания в городе или в сельской местности,социоэкономического уровня и т.д. Характер использования теста опре-деляет наиболее существенный признак, а также и предпочтительностьобщих или специфических норм. Следует также упомянуть о локальных нормах, которые нередко раз-рабатываются пользователями тестов для конкретных социальных еди-ниц (social setting). Группы, к которым относятся такие нормы, еще болееспецифичны, чем даже обсуждавшиеся выше подгруппы. Так, нанимательможет выработать нормы, лучше отвечающие специфике предлагаемойим работы; администрация колледжей-нормы, рассчитанные на обуче-ние в данном колледже; а школа может оценивать выполнение тестовсвоими учениками в соответствии с собственным распределением показа-телей. Локальные нормы такого типа в большей степени, чем нацио-нальные, отвечают таким задачам тестирования, как предсказание дости-жений в труде или учебе, сравнение относительного уровня знаний детейпо различным предметам, исследование динамики их развития. Фиксированная референтная группа. Хотя большинствопроизводных показателей ориентировано на непосредственную норма-тивную интерпретацию выполнения теста, существуют и примеча-тельные исключения. Одно из них состоит в использовании фиксирован-ной референтной группы для обеспечения сопоставимости и преемствен-ности показателей без обращения к нормативным оценкам выполнениятеста. В этом случае для нормативной интерпретации данных необходи-мо сопоставить их с нормами, полученными для сходной популяции. Не-редко для этой цели используются локальные или иные специфическиенормы. Одним из наиболее очевидных примеров шкал, выработанных на/пгТТТЛГТЭМиЙ тчгттгг ппгггтмгм r,>nrn -89 НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТА способности к обучению (SAT) Совета колледжей (W.H.Angoff, 1962; 1971b). Между 1926 (когда SAT был применен впервые) и 1941 г. показа- тели этого теста выражались в нормативной шкале, для которой среднее значение и стандартное отклонение определялись по показателям абиту- риентов, полученным при очередном применении теста. В связи с увели- чением и качественным изменением числа колледжей, подчиненных Сове- ту, изменилась и популяция абитуриентов, но было решено сохранить преемственность шкалы SAT, ибо в противном случае индивидуальные показатели зависели бы от особенностей контингента, проходящего об- следование в том или ином году. Еще более серьезной причиной сохра- нения преемственности шкалы было различное действие селективных факторов на одних и тех же учащихся, в результате чего они выполняли SAT лучше или хуже в зависимости от периода года. Поэтому после 1941 г. все показатели SA Г выражаются в шкале, построенной согласно среднему значению и стандартному отклонению данных примерно 11000 абитуриентов, проходивших этот тест в 1941 г. Таким образом, эти аби- туриенты составили фиксированную референтную группу, относительно которой производится шкалирование всех последующих форм данного теста. Например, результат 500 любой формы SAT соответствует средне- му показателю для выборки 1941 г., показатель 600 приходится на 1ст выше среднего значения и т.д. Чтобы можно было переводить первичные показатели любой формы SAT та показатели этой фиксированной референтной группы, в каждую такую форму включается небольшой эталонный тест. С по- мощью этого теста каждая новая форма соотносится с одной или двумя более ранними формами, те, в свою очередь,-с другими, еще более ран- ними, и т.д., по цепочке, с формой 1941 г. Такие ненормативные показа- тели SAT затем можно интерпретировать, сопоставляя их с нужным рас- пределением показателей конкретного колледжа, типа колледжей, регио- на и т.д. Подобные специфические нормы более пригодны для принятия решений о приеме, чем ежегодные нормы; основанные на данных всей популяции абитуриентов. Более того, любые временные изменения попу- ляции абитуриентов может обнаружить только шкала фиксированных показателей. В отличие от ранее обсуждавшихся шкал, основанных на примене- нии национальных эталонных тестов, шкалы фиксированной референт- ной группы не требуют формирования единой достаточно репрезента-II тивной и адекватной вводимым нормам группы. Помимо практических1 трудностей, связанных с подбором такой группы, и необходимости об-1 новления норм оказывается, что многие задачи тестирования столь уни-Н версальных норм и не требуют. Шкалы, основанные на данных фиксиро-1 ванной референтной группы, в определенном отношении аналогичны1 шкалам, применяемым в физическом измерении. В этой связи В. X. Ан-1 гофф (W.H. Angoff, 1962, р. 32-33) пишет:X- .ИСПОЛЬЗОВАНИЕ ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИПРИ ИНТЕРПРЕТАЦИИ РЕЗУЛЬТАТОВ ТЕСТАКомпьютеры заметно изменили почти все этапы тестирования-от со-здания теста до его применения, подсчета первичных показателей реги-страции и интерпретации. Выигрыш, который дает использованиекомпьютеров, даже самых первых, связан с буквально небывалым увели-чением скорости, с какой осуществляется анализ данных, подсчет показа-телей. Однако гораздо важнее для психологического тестирования разра-ботка новых процедур и изыскание новых методов, которые были бынеосуществимы, не окажись такого гибкого и скоростного способа пере-работки данных, как использование компьютеров. Различные нововведения, явившиеся результатом применения элек-тронных машин, рассматриваются в соответствующих разделах настоя-щей книги. В этом разделе обсуждается применение вычислительной тех-ники при интерпретации показателей тестов. На элементарном уровнебольшинство современных тестов, особенно тех, что предназначены длягруппового применения, теперь приспособлены к машинной обработкетестовых показателей (F. В. Baker, 1971). Некоторые издатели тестов,а также ряд организаций по обработке тестовых данных принимают за-казы на машинную обработку результатов тестирования. Хотя при этомобычно используются особые бланки ответов, в вычислительных центрахимеется аппаратура оптического сканирования, позволяющая считыватьответы непосредственно с тестовых тетрадей. Такие новшества, как диаг-ностическая обработка данных и динамический анализ (фиксация дости-жений учащихся на различных этапах обучения), еще только входятв употребление. Несколько более высокий уровень использования компьютеров свя-зан с приспособлением тестов к машинной интерпретации их показате-лей, которая теперь обеспечивается для ряда тестов. В подобных случаяхопределенные серии ответов связываются машинной программой с темиили иными словесными формулировками, хранящимися в памяти ма-шины. Этот подход применяется как в личностных тестах, так и в тестахспособностей. Например, проводя обследование с помощью многоста-дийного личностного опросника, разработанного в штате Миннесота,ММР1 (см. гл. 17), применяющий тест наряду с числовыми данными мо-жет получить распечатку диагностических и интерпретационных форму-лировок о тенденциях личности испытуемого и его эмоциональном со-стоянии. Таким же образом тест различных способностей (см. гл. 13)снабжается сообщением о возможностях профессионального роста, со-стоящим из профиля результатов по отдельным субтестам и словесногозаключения. Последнее основано не только на данных теста, но и на ин-формации об интересах и намерениях учащихся, полученной из заполнен-ной ими анкеты будущей профессии. Применяемые в заключении форму-лировки похожи на то, что мог бы в индивидуальной беседе сказатьИСПЫТуеМОМУ КОНСУЛЬТант. ОЧНЯК-пмивтпнйа с п?"зл7тт1—т-сп-а1лтт -гд-т— (J.A. Harris, 1973;W.H. Holtzman, 1970; M.R. Katz, 1974; D.E. Super, 1970). Эффективностьсистем взаимодействия исследовалась применительно к выбору дальней-шего образования и работы. В подобной ситуации результаты тестовобычно присоединяются к базе машинных данных наряду с другой ин-формацией, поступающей от учащегося или консультирующего индиви-да. Важно то, что машина обрабатывает всю доступную информацию обиндивиде с учетом хранящихся в ее памяти данных об учебных програм-мах и профессиях, использует все относящиеся к делу сведения, отвечаяна вопросы испытуемого и помогая ему прийти к какому-то решению.В качестве примеров таких систем, находящихся на разных стадиях раз-работки, назовем системы образования и профориентации, разрабо-танные фирмами IBM и ETS. Предварительная проверка этих систем по-казала, что они были хорошо приняты старшеклассниками и ихродителями (J.A. Harris, 1973). Тестовые результаты также составляют неотъемлемую частьданных, используемых при обучении с помощью машин. Для тогочтобы предъявить учебный материал, соответствующий уровню разви-тия ученика, компьютер должен каждый раз воспроизводить результатыи оценивать его ответы по предыдущему материалу. На основе тенден-ции ответов, поступивших от него во время сеансов машинного обуче-ния, ученик либо переводится на изучение более сложного материала, ли-бо продолжает упражняться на прежнем уровне, либо проходит обучениена более элементарном подготовительном материале. Предусмотренныйпрограммой диагностический анализ ошибок позволяет выявить и скор-ректировать свойственные данному ученику трудности в обучении. Менее дорогостоящим и технически более доступным является ис-пользование компьютеров как вспомогательного средства (R. К. НатЫе-ton, 1974). В таких системах обучающийся не взаимодействуетс машиной непосредственно. Ее назначение-помочь учителю в разработ-ке плана индивидуального обучения, предусматривающего использова-ние специальных пакетов с учебными материалами или более тради-ционных пособий. Компьютер главным образом производит обработкупоступающего ежедневно громадного массива данных, касающихся ра-боты учеников в классе, где каждый может быть занят выполнением ин-дивидуального задания, и для каждого из них предписывает следующийшаг обучения. Примером такого типа обучения может служить разрабо-танная в Питтсбургском университете система индивидуального обучения(W.W. Cooley, R. Glaser, 1969; R. Glaser, 1968) и программа PLAN (по-строение обучения в соответствии с потребностями), полученная в амери-канских исследовательских институтах (J.C.FIanagan, 1971; J.C.FIana-gan, W.M.Shanner, H.J.Brudner, R.W. Marker, 1975). Система PLANпомимо обучения предметам, проходимым в V-XII классах, включаетв себя программы самопознания, индивидуального развития и проф-ориентации.92 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯКРИТЕРИАЛЬНО-ОРИЕНТИРОВАННОЕ ТЕСТИРОВАНИЕПрирода и назначение. Метод тестирования, вызвавший волну ак-тивности. особенно в педагогике, обычно именуется критериально-ориен-тированным тестированием. Этот термин, впервые предложенныйР. Гласером (R. Glaser, 1963), все еще употребляется не вполне однознач-но, и различные авторы определяют его по-разному. Более того, неко-торые альтернативные термины, указывающие на отнесение результатовтеста к его содержанию, области определения, цели, иногда употребля-ются как синонимы термина с не-сколько различными оттенками значения. Однако термин , по-видимому, занял господствующее положение,хотя он и не самый удачный. Как правило, в критериально-ориентированном тестировании в_каче-_стве интерпретационной системы отсчета.. используется конкретнаяобласть содержания, а не та или иная популяция людей. В этом отноше-нии оно отличается от обычного ориентированного на нормы тестирова-ния, в котором индивидуальный показатель сопоставляется с показателя-ми других индивидов, выполнявших тот же самый тест. В критериально-ориентированном тестировании, например, выполнение теста испы-туемым описывается в терминах освоенных арифметических операций,объема словаря, уровня трудности доступного пониманию текста (от ко-миксов до литературной классики), вероятности достижения определен-ного уровня выполнения будущей деятельности на работе или в учебномзаведении. Кригсрицльно-орнснтироьаиное тестирование пока что применяетсяглавным образом лишь в последних педагогических новшествах-в си-стемах прямого и косвенного машинного обучения и в других индиви-дуализированных саморегулирующихся системах. Во всех таких системахтестирование полностью интегрировано с обучением и проводится до, вовремя и после выполнения каждого учебного задания для проверки нали-чия необходимых умений, выявления иозможных затруднений и выбора.последующих педагогических действий. Упомянутая ранее программаPLAN и система индивидуального обучения Питтсбургского университе-та построены именно таким образом. Еще одним аспектом применения критериально-ориентированныхтестов является их использование службами по образованию, типа На-ционального совета по достижениям в образовании (F.B. Womer, 1970),а также при подготовке материалов учебной отчетности (N.E. Gronlund,1974). Иллюстрацией критериально-ориентированного тестирования мо-гут служить квалификационные испытания водителей и пилотов для вы-дачи им прав на вождение автомобиля или самолета. Наконец, отметим,что знание принципов критериально-ориентированного тестирования по-зволяет усовершенствовать обычные тесты, составляемые самими учите-лями для использования в классе. Н. Гронлунд (N.E. Gronlund, 1973) раз-работал полезное руководство по составлению и проведению такихтестов с простым и хорошо построенным введением в критериально-ориентированное тестирование. Краткое, но блистательное обсуждениеосновных недостатков такого тестирования приводится в работеP..Я. И бела sR.L.Ebel, 1972в). Содержание. Отличительной чертой критериально-опиентиппнян-1ГОГО TfilTHnrinJirrin {,,…. !—93 НОРМЫ И ИНТЕРПРЕТАЦИЯ РЕЗУЛЬТАТОВ ТЕСТАнием ни выступало) является интерпретация выполнения теста с точкизрения его содержательного смысла. Упор делается на то, что индивидможет делать и что он знает, а не на то, какой выглядит на фоне дру-гих. Главное требование, которое необходимо соблюдать при составле-нии теста такого типа, состоит в четком определении области знанийи умений, к которой он относится. Чтобы показатели такого теста имеликоммуникативное значение, необходимо выбрать содержательнуюобласть, признаваемую всеми как важную. Выбранная область подразде-ляется на небольшие единицы, описываемые в терминах деятельности.В контексте школьного обучения таким единицам соответствуют зада-ния типа или . В програм-мах индивидуального обучения число таких заданий достигает несколь-ких сот по одному только предмету. Сформулировав цели каждого этапаобучения, нужно составить задания, обеспечивающие выборочную про-верку достижения каждой из таких целей. По общему признанию, проце-дура эта достаточно трудна и поглощает много времени. Но без тща-тельной конкретизации и проверки содержания заданий результатытестирования легко могут превратиться в плохо различимую и неинтер-претируемую мешанину. Критериально-ориентированное тестирование, если его проводитьпо всем правилам, лучше всего приспособлено для определения на эле-ментарном уровне развития основных навыков (например, в чтениии арифметике). В этих областях знаний цели обучения могут быть упоря-дочены в иерархическую последовательность так, чтобы усвоение болееэлементарных навыков служило предпосылкой для формирования навы-ков более высокого уровня. Однако применительно к более высокимуровням знаний в сравнительно мало структурированных областях труд-но и, по-видимому, нежелательно формулировать цели с предельной кон-кретностью. В этих случаях как само содержание, так и последователь-ность его усвоения, вероятно, должны быть более гибкими. Вместе с тем своим акцентом на содержательном смысле интерпре-тации тестовых показателей критериально-ориентированное тестирова-ние может оказать благотворное влияние на тестирование в целом. Оттакого подхода выигрывает, например, интерпретация показателей те-стов интеллекта. Если выполнение ребенком заданий таких тестовописывать в терминах специфических интеллектуальных навыков и зна-ний, то это устранило бы многие нападки на IQ, вызванные недоразуме-ниями и неправильными представлениями. В общем виде критериально-ориентированный подход равносилен интерпретации тестовых результа-тов соответственно доказанной валидности конкретного теста, а непосредством неких туманных сущностей, лежащих в его основе. Разуме-ется, такая интерпретация может сочетаться с отнесением результатовк нормам. Тестирование овладения навыком. Второй важной особен-ностью почти любого критериально-ориентированного теста является ме-тодика тестирования овладения навыком. Существенно, что оценка вы-полнения заданий в этом случае производится по принципу делались попытки более точно описать выполнение теста с точки зрения его содержания (R.L. Ebel, 1962; J.C. Flanagan, 1962; A. Anastasi, 1968, p. 69-70). Другим примером могут служить первые шкалы продук- тивности, оценивавшие качество почерка, сочинений или рисунков сопо- ставлением индивидуальной работы с серией стандартных эталонов. Бо- лее того, Р. Л. Ибел (R.L. Ebel, 1972Ь) заметил, что в педагогике понятие , означающее усвоение определенных единиц зна- ния по принципу , было достаточно популярным в 20-30-х гг. нашего столетия, но позднее было забыто. В том или ином виде нормы всегда дают о себе знать независимо от того, как выражаются показатели теста (W.H. Angoff, 1974). Сам выбор содержания или навыков, подлежащих измерению, определяется знанием экспериментатора, чего можно добиться от испытуемого на определен- ном уровне его развития или обучения. Такой выбор предполагает нали- чие сведений о том, как в подобных ситуациях действовали другие испы- туемые. Более того, наложение дихотомии на континуум умений не снимает индивидуальных различий. Например, ес- ли уровень понимания текста задается формулировкой , то все еще остается достаточно места для значительных индивидуальных различий в степени понимания. Прогностические таблицы. Результаты теста можно также интерпретировать в соответствии с критерием ожидаемого выполнения предстоящей программы обучения или работы. В этом случае термин употребляется сообразно тому, как это вообще принято в психометрии, т. е. так, как, скажем, в выражении (см. гл. 2). Строго го- воря, термин должен был бы относиться к этому типу интерпретации выполнения теста, тогда как другие подходы, обсуждавшиеся в этом разделе, правильнее было бы назвать отнесением к содержанию. Собственно, именно эта терминоло- гия и используется в тестовых стандартах Американской психологиче- ской ассоциации (Standards.., 1974). В прогностической таблице приводится вероятность различных кри- териальных результатов испытуемых в зависимости от полученного ими результата теста. Например, если учащийся в тесте SAT показал резуль- тат 530, то каковы шансы на то, что первый курс колледжа он закончит со средней оценкой А, В, С, D или f? Информацию такого рода можно получить, сверив двумерное распределение показателей предиктора В американских колледжах и старших классах средних школ принята следующаясистема оценки успеваемости. По каждому предмету учащийся получает итоговую оценкупо пятибалльной системе А, В, С, D и F. Эти балльные оценки переводятся в цифровуюформу: А приравнивается к 4 (наивысший балл), В-к 3, С-к 2, D-к 1 и. наконец, FK 0.Каждая из полученных оценок в цифровом выражении умножается на зачетное число ча-сов по соответствующему предмету.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Все такие произведения складываются, и результатделится на сумму зачетных часов по всем предметам. Полученная таким образом средняя90 11"ИНЦИ11Ы ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ(SAT) с критерием будущего статуса (средняя оценка успеваемости пер-вокурсника). Заменив число случаев в каждой ячейке такого двумерногораспределения на проценты, мы получим прогностическую таблицу.Примером может служить табл. 6, в которой представлены данные, по-лученные мальчиками-старшеклассниками (всего 171 человек), записав-шимися на курс истории США. В качестве предиктора здесь использо-ван показатель теста словесного мышления из батареи DAT, применен-ного в начале курса, а в качестве критерия будущего статуса-оценки, по-лученные по окончании курса. Корреляция между показателем тестаи данным критерием составила 0,66. В первой колонке табл. 6 приведены тестовые результаты, распреде-ление на классы интервалов, во второй-число учеников, результаты ко-торых попали в тот или иной интервал. Остальные цифры таблицыуказывают процент учеников из каждого интервала значений предикто-ра, получивших ту или иную оценку по окончании курса. Так, из 46 уче-ников, получивших в тесте на словесное мышление 40 и более очков, 15Їополучили оценки в 100-балльной системе в интервале 70-79, 22Їо-в ин-тервале 80-89 и 63Їо-90 и выше. С другой стороны, из 46 учеников, по-казавших в тесте результат ниже 20, 30Ї получили оценки ниже 70,52Їо-между 70 и 79 и 17Їо-между 80 и 89. В пределах рассматриваемыхданных эти проценты лучше всего выражают вероятность получения ин-дивидом того или иного критериального балла. Например, если новыйученик получит тестовый показатель 34 (т.е. попадет в интервал 30-39),то его шансы получить балл 90 и выше составляет 17 из 100, шансы по-лучить балл в интервале 80-90 будут равны 39 из 100 и т.д. На практике критерий будущего статуса может быть замененбинарным критерием-предсказанием успеха или неудачи в работе,в прохождении учебного курса и т.д. Вероятности успеха или неудачи покаждому интервалу значений показателя прогностического теста могутбыть представлены в виде так называемой карты прогноза. Рис. 7 естьпример такой карты, составленной для батареи отбора пилотов, разра-ботанной для военно-воздушных сил США, на которой для каждого ста-найна показан процент курсантов, не закончивших начального курса лет-ной подготовки. Так, в процессе подготовки отсеялось 77Їд, получившихстанайн 1 и только 4% получивших станайн 9. В пределах этих крайнихзначений от более низких к более высоким станайнам процент отсева по- стоянно уменьшается. С помощью этой карты про- гноза можно, например, предсказать, что примерно 40"о курсантов, получив- ших станайн 4, потерпят неудачу и приблизительно 60% из них удовлетвори- тельно завершат началь- ный курс. Аналогичные прогнозы по каждому ста- найну можно строить и от- носительно вероятности успеха или неудачи от- дельных курсантов. Так,Таблица 6Прогностическая таблица соотношении результатов те-ста словесного мышления и оценок, полученных по кур-су истории США, 171 мальчиком >i XI классаС разрешения Психологической корпорации штатаНью-ЙоркРезультат тестаЧисло случаевllpoueui получивших критериальную оценкуниже 7070-7980-8990 и выше40 и выше 30-39 20-29 ниже 2046 36 6 43 12 46 3015 39 63 5222 39 21 1763 i7 597НАДЕЖНОСТЬ-г-..Станаин Число Процент отчисленных с курсов летной подготовкичеловек9 21,4741f,8 19,44410%17 32,1291 1.6 39,398i 15 34,9754 23,69940%13 11,209i i2 2,13957%1 9047%3 10 20 30 40 50 60 70 80 90 100 Рис. 7. Карта прогноза соотношения выполнения батареи по отбору пилотов и от-числения с к/рсов летной подготовки (J. С. Flanagan, 1947, р. 58)S сант имеет 60 шансов против 40, т.е. 3 шанса против 2, успешно за-. кончить начальный курс подготовки. Нетрудно видеть, что помимо кри-1 териально-ориентированной интерпретации тестовых показателей про-1 гностические таблицы и карты дают общее представление о валидности теста в предсказании по данному критерию.1 ГЛАВА 5. НАДЕЖНОСТЬПод надежностью понимается согласованность результатов теста, полу-чаемых при повторном его применении к тем же испытуемым в раз-i личные моменты времени, с использованием разных наборов эквивалентных заданий или при изменении других условий обследования. НаS понятии основывается вычисление ошибки измерения, кс. торая служит для указания вероятных пределов колебаний измеряемойвеличины, возникающих под действием посторонних случайных факто-ров.Понятие может относиться к различным аспек-1 там согласованности результатов. В самом широком смысле надежность1. геста показывает, в какой степени индивидуальные различия в тестовых6 результатах оказываются , а в какой могут быть приписаны1 случайным ошибкам. Говоря более специальным языком, измерение на-98ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯпоказателей, являющуюся дисперсией ошибки. Вопрос, однако, в том, чтосчитать дисперсией ошибки. Одни и те же факторы, которые примени-тельно к одним задачам являются посторонними, при решении другихпроблем уже считаются источниками различий. Например,если нас интересуют колебания настроения, то происходящие день отодня изменения в результатах теста эмоционального состояния могли от-носится к цели тестирования и, следовательно, к истинной дисперсии ре-зультатов. Но если тест предназначен для измерения более стабильныххарактеристик личности, то те же ежедневные колебания можно отнестик дисперсии ошибки. Существенно, что любые изменения условий, в которых проводитсятест, если они не имеют отношения к его цели, увеличивают дисперсиюошибки. Поэтому, придерживаясь единых условий тестирования (контро-лируя общую обстановку, временные ограничения, инструктирование ис-пытуемого, контакт с ним и другие аналогичные факторы), эксперимен-татор уменьшает дисперсию ошибки и повышает надежность теста. Нои в оптимальных условиях ни один тест не является абсолютно надеж-ным инструментом. Поэтому стандартный набор данных о тесте долженвключать в себя и меру надежности. Такая мера характеризует тест, ког-да он применяется в стандартных условиях и проводится с испытуемы-ми, похожими на тех, кто участвовал в нормативной выборке. Следова-тельно, необходимо также приводить сведения об этой выборке. Разновидностей надежности теста так же много, как и условий,влияющих на результаты теста, поэтому любые такие условия могутоказаться посторонними по отношению к какой-то цели, и тогда обусло-вленная ими дисперсия должна войти в дисперсию ошибки. Однакопрактическое применение находит лишь несколько типов надежности.В этой главе мы обсудим важнейшие способы измерения надежности те-стовых результатов, а также соответствующие им источники дисперсииошибки. Поскольку все типы надежности отражают степень последова-тельности или согласованности двух независимо полученных серий пока-зателей, то в качестве их меры может выступать коэффициент корреля-ции. Соответственно в следующем разделе рассматриваются некоторыеиз основных характеристик коэффициента корреляции, их назначениеи интерпретация. Более специальное обсуждение корреляции с под-робным описанием вычислительных процедур приводится в элемен-тарных учебниках по статистике для педагогов и психологов (J. P. Guil-ford, В. Fruchter, 1973).КОЭФФИЦИЕНТ КОРРЕЛЯЦИИПонятие корреляции. Коэффициент корреляции (г) выражает сте-пень соответствия или связи между двумя сериями показателей теста.Например, если испытуемый, получивший высший результат по перемен-ной 1, получает высший результат и по переменной 2, а испытуемый, по-лучивший второй лучший результат по переменной 1, получает такой жерезультат по переменной 2 и т.д. до самого низшего результата, тоимеет место полная корреляция между переменными 1 и 2. Коэффициенткорреляции будет при этом равен + 1,0. Рис. 8 иллюстрирует гипотетический случай полной положительнойкорреляции. На рисунке представлена диаграмма рассеяния, или двумер-ное распределение. Каждая палочка на этой диаграмме отмечает резуль-99НАДЕЖНОСТЬтат испытуемого как по переменной 1 (горизонтальная ось), так и попеременной 2 (вертикальная ось). Нетрудно заметить, что все 100 случаевраспределились вдоль диагонали, идущей из левого нижнего углав правый верхний угол диаграммы. Такое распределение означает по-лную положительную корреляцию ( + 1,0), поскольку из него видно, чтоотносительное положение каждого испытуемого по обеим переменнымодинаково. Чем ближе двумерное распределение к этой диагонали, темвыше положительная корреляция. На рис. 9 изображена полная отрицательная корреляция ( -1,0).В этом случае результаты по одной переменной полностью обратны ре-зультатам другой: лучший индивидуальный результат по переменной1 оказывается худшим по переменной 2, и наоборот, причем подобнаяобратимость воспроизводится по всему распределению. Из диаграммывидно, что все испытуемые распределяются по диагонали, идущей из ле-вого верхнего в правый нижний угол, т. е. перпендикулярно направлению,соответствующему полной положительной корреляции. Нулевая корреляция указывает на полное отсутствие связи. Если ме-сто каждого испытуемого по переменной 1 определить методом выта-Рис. 8. Двумерное распределение для гипотетической корреляции (4-1.0)90-9980-8970-79(N1 60-69г150-59Sуd 40-4930-39illMi-illWtwr чmm 4M-1т-мг M-w 4М-тм ш-iiiwtmWt 1//ст> Iо It-оюсп ст>in или , то имеют в виду следующее: существует не более одного шанса изста, что в популяции данный коэффициент равен нулю. Из этого следует,что обе переменные действительно коррелированы. Уровни значимостиуказывают риск ошибки, на который мы вынуждены пойти, делая вы-воды из полученных данных. Если корреляция значима на уровне 0,05, товероятность ошибки составляет 5 из 100. В большинстве психологиче-ских исследований применяются уровни 0,01 и 0,05, хотя по некоторым-опРшяжениям можно пользоваться и другими уровнями значимости.103НАДЕЖНОСТЬналичии 10 случаев трудно выявить общие закономерности. Для выбор-ки такого размера самая малая корреляция, значимая на уровне 0,05,равна 0,63. Любая корреляция ниже этой величины оставляет без ответавопрос о коррелированности двух переменных в популяции, из которойбыла извлечена выборка. Минимальные значения коэффициентов корреляции на уровнях 0,01и 0,05 для групп разной численности можно найти в таблицах значимо-сти корреляции, приводимых в учебниках по статистике. Для пониманияпроблематики этой книги требуется лишь общее представление об ос-новных вопросах. Добавим только, что уровни значимости ицтерпрети-руются подобным же образом и применительно к другим статистиче-ским мерам. Например, если различие между двумя средними значимона уровне 0,01, то отсюда можно сделать вывод (причем вероятностьошибиться равняется одному шансу из 100), что тестирование всей попу-ляции, из которой были взяты выборки, дает приблизительно ту же раз-ницу. Так, если в обследованной выборке мальчики получили заметноболее высокое среднее значение в тесте на понимание техники, чем де-Рис. 10. Коэффициент надежности 0,72 (A. Anostosi, J. Drake, 1954)75-79 70-74 65-69 60-64i155-59 50-54 i 1 45-49 И 1 40-44 1 35-39 30-35 25-29 20-24 15-19иiifM-iч11/иufniiiiliiitmililliiiii////ми114i/////mimiliiтчiiiii/illi/CT>inS001 Ю ГОf 0 in 0104 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯвочки, то можно заключить, что мальчики будут превосходить девочекпо этому тесту и в популяции в целом. Коэффициент надежности. Коэффициенты корреляции частоприменяются при анализе психологических данных. Одно из таких при-менений — это измерение надежности теста. Пример коэффициента надеж-ности, вычисленного по пирсоновскому методу смешанных моментов,приведен на рис. 10. В этом случае выяснялось наличие корреляции ме-жду показателями 104 человек по двум эквивалентным формам тестабеглости речи. В обоих случаях испытуемым давалось пять минут, в те-чение которых они должны были написать как можно больше слов, на-чинающихся на заданную букву. Формы теста отличались друг от другалишь задаваемой буквой. Авторы теста подобрали начальные буквыс таким расчетом, чтобы трудность заданий была примерно одинаковой. Корреляция между числом слов, написанных в ходе выполнениякаждой из двух форм данного теста, оказалась равной 0,72, т. е. значимойна уровне 0,01. При наличии 104 случаев любая корреляция, превышаю-щая 0,25, значима на этом уровне. Тем не менее полученная корреляциянесколько ниже, чем это желательно для коэффициента надежности, ко-торый обычно бывает выше 0,8 и даже 0,9. Диаграмма на рис. 10 пред-ставляет типичное двумерное распределение с высокой положительнойкорреляцией. Можно видеть, как палочки теснятся вблизи диагонали,идущей от левого нижнего к правому верхнему углу. Направление этов общем довольно ясно выражено, хотя и наблюдается некоторый раз-брос палочек. В следующем разделе обсуждается использование коэффи-циента корреляции для вычисления различных мер надежности теста.ТИПЫ НАДЕЖНОСТИРетестовая надежность. Самый естественный способ определитьнадежность результатов теста-использовать тот же тест второй раз.В этом случае коэффициент надежности (Гц) просто равен корреляциимежду результатами, полученными на одних и тех же испытуемых в каж-дом из двух случаев проведения теста. Дисперсия ошибки соответствуетслучайным колебаниям в выполнении заданий от одного сеанса тестиро-вания к другому. Эти колебания могут отчасти быть результатом некон-тролируемых условий тестирования-таких, как значительные измененияпогоды, появление неожиданного шума и иных отвлекающих моментовтипа сломавшегося карандаша. В какой-то степени их можно объяснятьизменениями в состоянии самого испытуемого-например болезнью,утомлением, эмоциональным напряжением, беспокойством, недавнимиприятными или неприятными переживаниями и т.д. Ретестовая надеж-ность показывает, в какой степени результаты теста можно распростра-нить на различные случаи его применения. Чем выше надежность, темменее чувствительны результаты к обычным изменениям состояния ис-пытуемого и обстановки тестирования. Приводя в руководстве к тесту его ретестовую надежность, всегдаследует указывать, в каком интервале времени она измерена. Посколькуретестовая корреляция с течением времени постепенно снижается для105 НАДЕЖНОСТЬлюбого теста, существует не один, а бесконечное количество ретестовыхкоэффициентов надежности. Желательно также давать некоторые сведе-ния о событиях, происшедших за это время с испытуемыми в учебе илиработе (консультировался ли кто-либо с психологом или прошел курспсихотерапии и т.д.). Независимо от желательности сведений об интервале времени меж-ду двумя тестированиями, какими соображениями следует руководство-ваться при выборе этого интервала? Можно привести немало примеровтого, как надежность теста остается высокой в течение нескольких днейили недель, но спустя десять-пятнадцать лет его результаты уже почтине коррелируют с первоначальными. Так, многие из тестов интеллектадля дошкольников достаточно стабильны в дошкольный период, но со-вершенно бесполезны для предсказания, каков будет IQ ребенка в стар-шем возрасте или во взрослом состоянии. На практике, однако, чащевсего можно провести следующее различие. На дисперсию ошибки те-стовых результатов обычно влияют случайные колебания с периодамиот нескольких часов до нескольких месяцев. Поэтому, определяя тип тес-товой надежности, стараются придерживаться небольших временных ин-тервалов. При тестировании маленьких детей этот период должен бытьеще короче, чем у испытуемых старшего возраста, поскольку в раннемдетстве возрастные изменения происходят в течение месяца и дажебыстрее. В целом для любого типа испытуемых интервал между двумя после-довательными применениями теста обычно не должен превышать 6 мес.Изменения относительного выполнения теста индивидами, происходя-щие в более длительные промежутки времени, уместнее отнести к куму-лятивным и постепенным, а не к чисто случайным. Более того, они, ско-рее всего, характеризуют более широкую сферу поведения, чем та,которая проявляется при выполнении данного теста. Общий уровеньразвития индивида, его способность к обучению, к пониманию техниче-ских устройств, его суждения об искусстве могут за 10 лет существенноизмениться. Его личностный статус с годами может заметно возрастиили упасть вследствие обстоятельств жизни дома, в школе или условийсоциального окружения, а также по таким причинам, как болезнь илиэмоциональное расстройство. Степень влияния таких факторов на психическое развитие индивидаявляется важной исследовательской проблемой. Однако этот вопрос неследует смешивать с вопросом надежности конкретного теста. Напри-мер, при измерении надежности тестов Станфорд-Бине, как правило, со-относят показатели, полученные с интервалом не в десять лет или дажев один год, а в несколько недель. Конечно, с этими тестами проводилисьи долгосрочные ретестовые испытания, но их результаты обычно обсу-ждаются с точки зрения предсказуемости уровня интеллекта взрослогона основе выполнения теста в детском возрасте, а не с точки зрения на-дежности конкретного теста. Понятие надежности в основном ограничи-вается краткосрочными случайными изменениями, характеризующимивыполнение теста самого по себе, а не тестируемую область поведения. Следует отметить, что в различных поведенческих функциях обыч-ные . колебания проявляются неодинаково. Например, на отточенностидвижений пальцев могут сказаться самые незначительные измененияв состоянии индивида, никак не влияющие на его понимание речи. Еслихотят получить общую оценку характера движений пальцев индивида,106 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯто, по всей видимости, нужно провести повторные тесты в течение не-скольких дней; для выяснения же понимания им речи достаточно одногосеанса тестирования. Но всякий раз необходимо обращаться к анализуцели теста, основывая его на понимании того поведения, которое пред-назначен предсказать тест. Несмотря на кажущуюся простоту и очевидность, методика ретестапри распространении на большинство психологических тестов наталки-вается на трудности. Улучшение показателей ретеста как результат тре-нировки будет, вероятно, различным у разных испытуемых. Более того,если промежуток времени между начальным и повторным тестирова-нием достаточно мал, обследуемые могут припомнить многие из своихпрежних ответов. Иными словами, при повторном тестировании памятьспособствует воспроизведению первоначальной картины правильныхи ошибочных ответов. Следовательно, результаты двух предъявленийтеста не будут независимыми, и корреляция между ними окажется об-манчиво высокой. Проведение теста второй раз может также привестик изменению его природы. В первую очередь это относится к задачам,при решении которых нужно проявить изобретательность. Испытуемый,однажды ухватив принцип решения, в дальнейшем может воспроизво-дить правильный ответ, минуя промежуточные ступени. Только тесты, накоторые повторное применение не оказывает заметного влияния, при-годны для их исследования по методу ретеста. К этой категории принад-лежит ряд моторных тестов и тестов сенсорного различения. Для боль-шинства психологических тестов этот метод неприменим. Надежность взаимозаменяемых форм. Один из способов из-бежать трудностей, присущих ретестовой надежности,-применение взаи-мозаменяемых форм теста. Те же самые испытуемые могут тестиро-ваться в первый раз с помощью одной формы, а второй раз-с помощьюдругой, сравнимой формы. Корреляция между показателями, полученны-ми по двум формам, служит коэффициентом надежности теста. Заметим,что такой коэффициент надежности измеряет как временную стабиль-ность теста, так и согласованность ответов по двум выборкам заданий(или тестовым формам), т. е. этот коэффициент объединяет два типа на-дежности. Поскольку оба типа существенны для большинства целей те-стирования, надежность взаимозаменяемых форм оказывается полезноймерой для оценки многих тестов. Понятие выборки заданий, или выборки содержания, лежит в основене только данного, но и других типов надежности, о которых речь пой-дет дальше. Поэтому рассмотрим данную концепцию подробнее. Ве-роятно, каждому когда-то доставались на экзамене вопросы именно потой теме, к которой он был особенно хорошо подготовлен или, напро-тив, знал этот материал особенно плохо. Столь знакомая всем ситуация Под параллельными (parallel), или взаимозаменяемыми (alternate) формами тестапонимаются серии заданий, не обязательно дающие первичные результаты с одинаковы-ми М ист, но снабженные таблицами эквивалентности. Параллельные формы следует от-личать от уравненных (matched) форм, состоявших из заданий, попарно уравненных поструктуре и содержанию, и эквивалентных (equivalent) форм, не уравненных, но тем не ме-нее дающих результаты, обладающие весьма близкими статистическими характеристика-"" nfiiiiee наименование упомянутых серий-сопоставимые (comparable) формы. В амери- ~"""""Ї и иные, неканонизированные названия отдельных ""- ""tud). дублированные107НАДЕЖНОСТЬпоясняет дисперсию ошибки, связанную с выборочным представлениемсодержания. В какой степени показатели данного теста зависят от факто-ров, проявляющих себя именно в данном наборе заданий?1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
И если другойисследователь, работая независимо от нас, подготовил бы другой теств соответствии с теми же требованиями, то насколько бы результатыэтих тестов отличались друг от друга? Предположим, что для теста сло-варного запаса был составлен список из 40 слов. Предположим делее,что с той же целью был составлен второй список из 40 других слов, при-чем были соблюдены все предосторожности, чтобы трудность тестаосталась той же самой. Различия в показателях, полученных в двух те-стах одними и теми же испытуемыми, иллюстрирует рассматриваемыйтип дисперсии ошибки. Под действием факторов, связанных с прошлымопытом различных испытуемых, относительная трудность двух списковбудет несколько меняться от одного индивида к другому. Например,первый список может содержать большее число слов, незнакомых испы-туемому А, чем второй, в котором, в свою очередь, могло оказаться не-пропорционально много слов, незнакомых испытуемому В. Если сло-варный запас (т.е. истинные показатели) обоих испытуемых приблизи-тельно одинаков, то В тем не менее превзойдет А по первому списку,тогда как А превзойдет В по второму. Относительное положение испы-туемых А и В по данным двум спискам окажется взаимно противопо-ложным из-за случайных различий в подборе слов. Как и при ретестовой надежности, надежность взаимозаменяемыхформ всегда должна дополняться указанием длительности временногоинтервала, разделяющего два предъявления теста, а также описаниемпроисшедших за это время событий. Если обе формы применяются не-посредственно одна за другой, то корреляция отражает надежность, отно-сящуюся к замене форм, а не к временному фактору. Дисперсия ошибкив этом случае вызывается колебаниями в выполнении двух наборов зада-ний, а не временным фактором. При разработке взаимозаменяемых форм, безусловно, следует поза-ботиться о том, чтобы они были действительно таковыми. Важно, чтобыпараллельные формы были бы независимо построенными тестами, отве-чающими одним и тем же требованиям. Такие тесты должны содержатьодинаковое число заданий, представленных в одной и той же форме ис однотипным содержанием. Диапазон и уровни трудности заданий так-же должны быть одинаковыми. Инструкции, временные рамки, поясняю-щие примеры, формат бланков и другие аспекты тестирования также не-обходимо проверить на сопоставимость. Следует добавить, что наличие пареллельных форм желательно и подругим соображениям, независимо от определения надежности теста.Взаимозаменяемые формы полезны при катамнестических исследованияхи при изучении влияния определенных экспериментальных факторов навыполнение теста. Применение нескольких взаимозаменяемых формуменьшает действие искушенности в тестировании и вероятность обма-на. Хотя по сравнению с ретестовой надежностью надежность взаимоза-меняемых форм применяется достаточно широко, она также имеет своинедостатки. Прежде всего, если изучаемые функции поведения подвер-жены значительному влиянию фактора тренировки, использование па-раллельных форм ослабит, но не устранит его полностью. Конечно, если" ——""", "е:т,,пт,пг,пт. nnun in тп -лее-, уттучтпение оезультатов108 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯпри повторном проведении теста, то это не повлияло бы на корреляциюпоказателей, поскольку добавление постоянной величины к каждому ре-зультату не меняет коэффициента корреляции. Однако, скорее всего.улучшение результатов для разных испытуемых будет неодинаковымвследствие индивидуальных различий в опыте работы с подобным мате-риалом, в мотивации участия в тесте и по других причинам. В этих усло-виях эффект тренировки является дополнительным источником диспер-сии, снижающим корреляцию между двумя формами. Но если влияниетренированности невелико, то снижение будет ничтожным. Другая проблема связана с возможным изменением природы тестапри повторном его проведении. Например, если в параллельных задачахна сообразительность применен один и тот же принцип, то испытуемый,однажды найдя решение, и во второй раз применит его. В подобных слу-чаях одной замены содержания задания явно недостаточно для того,чтобы избежать эффекта переноса. Наконец, следует добавить, что длямногих тестов взаимозаменяемые формы отсутствуют ввиду трудностей,связанных с их составлением. В силу этих причин часто приходитсяобращаться к другим методам оценки надежности. Метод расщепления. Меру надежности можно определить и наосновании однократного применения единственной формы теста, поль-зуясь для этого процедурой расщепления. При таком способе каждый ис-пытуемый получает два результата благодаря разбиению теста на двесопоставимые части. Очевидно, что надежность, найденная методом рас-щепления, является мерой согласованности выборок содержания. Вре-менная стабильность показателей в ней не представлена, поскольку при-меняется только один сеанс тестирования. Этот тип коэффициентанадежности иногда называют коэффициентом внутренней согласованно-сти, ибо для его определения требуется лишь единственное применениеодной формы теста. Первая проблема, с которой мы сталкиваемся, применяя метод рас-щепления, связана с тем, как разделить тест надвое, чтобы при этом по-лучились наиболее сопоставимые части. Всякий тест можно членить мно-гими способами. Для большинства из них первая и вторая половины, какправило, несопоставимы вследствие различий в природе и уровнях труд-ности заданий, а также в связи с увеличивающейся вовлеченностьюв тест практики, утомления, скуки и т. д. Адекватная основным целям те-стирования процедура разбивает результаты по четным и нечетным за-даниям теста. Если задания теста расположены в порядке возрастаниятрудности, то такое разбиение обеспечивает достаточную эквивалент-ность показателей обеих половин. Одна предосторожность, которую тре-буется при этом соблюдать, относится к случаю, когда тест содержитгруппу взаимосвязанных заданий-например, когда несколько вопросовкасаются какой-то конкретной диаграммы или одного и того же фраг-мента текста. В подобном случае каждая такая группа заданий должнабыть целиком отнесена либо к одной, либо к другой половине. Если за-дания таких групп разделить на две части, то возникнет обманчивоесходство сравниваемых показателей, так как любая ошибка в пониманиизадачи скажется на выполнении заданий из обеих половин. Полученные показатели по двум частям теста коррелируются обыч-ным методом. Нужно иметь в виду, однако, что эта корреляция в дей-ствительности отражает надежность лишь половины теста. Например,—.-.. "". rnn- nnn-r.n,,rr т,о iru norroiilitt тп i-r дисперсии, которая и равна коэффициен-ту надежности. Метод Кьюдера-Ричардсона. Четвертый метод определениянадежности, также основайный на однократном предъявлении единствен-ной формы теста, использует согласованность ответов по всем заданиямтеста. На согласованность этого рода влияют два источника дисперсииошибки: (1) выборка содержания на надежность взаимозаменяемыхформ и расщепления и (2) неоднородность исследуемой области поведе-ния. Чем однороднее эта область, тем выше согласованность результа- Увеличение числа заданий теста не повлияет, однако, на его временную стабиль-110 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯтов заданий теста. Например, если в одном тесте приведены заданиятолько на умножение, а в другом представлено сложение, вычитание, ум-ножение и деление, то в первом тесте согласованность выполнения от-дельных заданий будет, вероятно, большей, чем во втором. Во второмболее разнородном тесте один испытуемый может лучше справитьсяс вычитанием, чем с другими действиями, другой покажет относительновысокий результат в делении, но хуже проявит себя в сложении, вычита-нии и умножении и т.д. Более контрастным примером однородностии разнородности мог бы служить тест, состоящий из 40 заданий на пони-мание слов, и тест, содержащий 10 словарных заданий, 10 заданий напространственные отношения, 10 на арифметическое мышление и 10 наскорость восприятия. В последнем тесте связь между индивидуальнымвыполнением различных типов заданий может быть незначительной илиполностью отсутствовать. Очевидно, что чем однороднее тест, тем однозначнее его резуль-таты. Предположим, что в последнем из только что упомянутых тестовСмит и Джонс получили по 20 очков. Можем ли мы заключить, чтос этим тестом они справились одинаково? Совсем нет. Смит мог пра-вильно ответить на 10 словарных вопросов, получить по очку за каждоеиз заданий на скорость восприятия и не выполнить ни одного задания наарифметическое рассуждение и пространственные отношения. Напротив,20 очков Джонса могли распределиться таким образом: 5 за скоростьвосприятия, 5 за пространственные отношения, 10 за арифметическоерассуждение и 0 за словарь. Суммарный показатель в 20 очков мог бы, конечно, означать и мно-жество других сочетаний в выполнении заданий. Вместе с тем в болееоднородном словарном тесте показатель 20 будет, вероятно, означать,что испытуемый правильно указал значение примерно 20 первых слов,если слова расположены в порядке возрастания трудности. Он мог оши-биться в отношении двух-трех сравнительно легких слов, дать пра-вильный ответ по более трудным словам, расположенным под номера-ми, большими 20, но такие индивидуальные колебания ничтожны посравнению с теми, которые присущи разнородному тесту. Весьма существенным в этой связи является вопрос: насколькооднороден сам критерий, на предсказание которого направлен тест? Хо-тя однородные тесты могут предпочитаться, поскольку их показателидопускают довольно однозначную интерпретацию, но однородный тестсам по себе, очевидно, непригоден для предсказания весьма неоднород-ного критерия. Более того, при предсказании неоднородного критерияразнородность заданий теста не обязательно означала бы дисперсиюошибки. Хорошим примером разнородных тестов, предназначенных дляпредсказания неоднородного критерия, являются традиционные тестыинтеллекта. В подобных случаях весьма желательно составить несколькоотносительно однородных тестов, каждый из которых измерял бы раз-личные фазы неоднородного критерия. Тем самым однозначная интер-претация результатов теста могла бы сочетаться с адекватным охватомкритерия. Самая распространенная процедура определения согласованностивыполнения заданий теста была разработана Г. Ф. Кьюдером и М. В. Ри-чардсоном (G.F. Kuder, M.W. Richardson, 1937). Как и в методе расще-Ill НАДЕЖНОСТЬдвух половин теста для анализа используются данные о выполнении ис-пытуемыми каждого задания. Из различных формул, приведенных в ука-занной статье, широко применяется так называемая формула 20:п(о} — ?то)"=-т).г В этой формуле Гц — коэффициент надежности всего теста, п -числозаданий, . В некоторых тестах, однако, практикуетсяболее дифференцированная форма представления результатов отдельныхзаданий. Например, в личностном опроснике респондент может получатьпо отдельным заданиям различные числовые показатели в зависимостиот того, выбрал ли он в наборе ответов , , , . Для таких тестов выведена обобщенная формула, известнаякак коэффициент альфа (L.J. Cronbach, 1951; M.R. Novick, C.Lewis, 1967).В этой формуле вместо ? стоит So?-сумма дисперсий результатов от-дельных заданий. Процедура состоит в нахождении дисперсии индиви- Простой вывод этой формулы приведен в работе Р.Л.Ибела (R.L.Ebel, 1965, р. 320-327).И Строго говоря, это утверждение справедливо, лишь когда применяется формула Рппня я нс. коппепяттия половин или (Ьопмула Спирмана-Брауна (M.R. Novick,112 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯдуальных результатов по каждому заданию с последующим суммирова-нием этих дисперсий по всем заданиям (R.L.Ebel, 1965, р. 326-330).Формула коэффициента альфа выглядит следующим образом:_ п( — ?о?) " ("-1) , 1Надежность субъективных оценок. Как мы видим, различныетипы надежности отличаются друг от друга тем, какие факторы взятыв качестве источников дисперсии ошибки. В одном случае такая диспер-сия означает временные колебания, в другом-различия в сериях парал-лельных заданий, в третьем-несогласованность тестовых заданий. 1В свою очередь, факторы, не учтенные при измерении дисперсии ошиб-ки, в основном делятся на два типа: (а) факторы, чья дисперсия сохра-няется в показателях, поскольку они входят в изучаемые различия, и (б)посторонние факторы, поддающиеся экспериментальному контролю. На-пример, в руководстве к тесту не принято сообщать об ошибках измере-ния, которые могут появиться в результате проведения теста в отвле-кающей обстановке или в более короткое или длительное, чем это положено, время. Подобных отклонений можно избежать, и поэтому нетнужды в отдельных коэффициентах надежности, соответствующих дис-персии отвлечения или дисперсии временных лимитов. Большинство тестов, особенно если они предназначены для массово-го обследования с использованием компьютеров для вычисления показа-телей, настолько стандартизированы, что их проведение и регистрациярезультатов сводят на нет дисперсию ошибки, обусловленную этимифакторами. Пользуясь такими тестами, необходимо лишь внимательноследить за выполнением соответствующих предписаний. Вместе с темимеются данные, свидетельствующие о том, что в клинических тестах,применяемых при интенсивных индивидуальных обследованиях, важнымисточником ошибки являются различия в способе проведения теста.С помощью специальных экспериментов удается отделить соответствую- щую дисперсию от той, которая обусловлена колебаниями в состояниииспытуемого или использованием различных форм теста. Сравнительно просто установить, насколько значителен другой ис-точник ошибки, обусловленный дисперсией подсчета. Некоторые типы тестов, особенно тесты творческих способностей и проективные лич-ностные тесты, сильно зависят от оценки подсчитывающего показате-ли теста. В таких тестах надежность подсчета столь же важно знать, каки уже знакомые нам коэффициенты надежности. Такую надежностьсубъективной оценки можно определить, сравнив два тестовых бланкас оценками, заполненные двумя экспертами независимо друг от друга.Коэффициент корреляции полученных таким образом результатов вы-числяется обычным путем и служит искомой мерой надежности подсче- та. Если результаты теста определяются на основе суждений эксперимен-татора, то в руководстве к тесту необходимо также привестии коэффициент надежности подсчета. Итоги. Различные типы только что рассмотренных коэффициентовнадежности сведены в табл. 8 и 9. В табл. 8 коэффициенты распределеныпо числу форм теста и сеансов тестирования, необходимых для их опре-деления. В табл. 9 представлены источники дисперсии ошибки, учиты-ваемые каждой из процедур определения коэффициента надежности. ——— — -.>…,.п т,ттт.дг>ттг>>типг>т1ятт1 непосоед-113НАДЕЖНОСТЬТаблица 8Методы измерения надежности тестав мвисимости от форм теста и сеансовтестированияТаблица 9Источники дисперсии ошибки для раз-личных коэффициентов надежностиНеобходимое число сеансов тес-Необходимое число форм тестатированияоднадверасщеплен-наявзаимозаменяе-Кьюдера -один Ричардсона субъектив-мые (непосредственно следующие друг за другом)ных оце-нокТип коэффициента надежностиДисперсия ошибкиретестовыйвременные колебаниясостояния испытуемогоретестоваявзаимозаменяе-мые (проводимыечерез определен-ный промежутоквремени)взаимозаме-няемых формнеоднородность(непосредст-содержаниявенный)взаимозаме-колебания в состоянииняемых формиспытуемого и неодно-(с временнымзначность содержанияинтервалом)расщеплениянеоднозначностьсодержаниянеоднородность иКьюдера-Ри-неоднозначностьчардсона,содержанияальфаиндивидуальныесубъективныхразличия у ставящихоценокоценкиственно в процентах дисперсии показателей, определяемой разнымиисточниками. Так, коэффициент надежности 0,85 показывает, что 85Їодисперсии результатов теста зависят от истинной дисперсии по измеряе-мому свойству, а 15Їо-от дисперсии ошибки (согласно операционально-му определению применяемой процедуры). Читателю, знакомому со ста-тистикой, напомним, что долю общей дисперсии представляет квадраткоэффициента корреляции. Действительно, доля дисперсиив результатах теста есть квадрат корреляции между результатами оди-ночной формы теста и истинными результатами, свободными от слу-чайных ошибок. Эта корреляция, именуемая индексом надежности, рав-на квадратному корню коэффициента надежности (1/гЦ). Квадрат индексанадежности и дает коэффициент надежности (гц), который, следователь-но, может интерпретироваться как процент дисперсии. Эксперименты, позволяющие получать разные типы коэффициентовнадежности для одной и той же группы, допускают разложение суммар-ной дисперсии показателей на отдельные составляющие. Рассмотримследующий гипотетический пример. Предположим, 100 шестиклассниковс интервалом в два месяца прошли формы А и В теста творческих спо-собностей, причем надежность взаимозаменяемых форм составила 0,7,надежность, найденная методом расщепления и вычисленная по формулеСпирмана-Брауна, равнялась 0,8 и, наконец, надежность подсчета, по-лученная благодаря привлечению еще одного эксперта, проставившегоновые баллы случайно выбранным 50 сочинениям, оказалась равной 0,92. " Выводы индекса надежности, основанные на двух различных сериях допущений,приводятся в работе X. Гулликсена (Н. Gulliksen, 1950, гл. 2 и 3). В целях более точной оценки коэффициента внутренней согласованности корреля-ции между двумя половинами теста было бы лучше вычислять его для каждой формы от-п,>п1.иг> н Чатем соптветствуюшей статистической процедурой определять среднее значениеПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯТаблица 10Анализ источников дисперсии ошибки в гипотетическом тестеНадежность взаимозаменяемыхформ теста с временным интервалом1-0 7= 0,3Изменения состоянияиспытуемого + неоднознач-ность содержанияНадежность расщепленного теста по 1-0,8 = 0,2 Неоднозначностьформуле Спирмана-Брауна содержания Разность = 0,1 Изменения состояния испытуемогоНадежность субъективных оценок1 — 0,92 = 0,08 Индивидуальные различия у ставящих оценкиСуммарное значение дисперсии ошибки = 0,2+0,1+ 0,08 = 0,38 дисперсия = I — 0,38 = 0,62Анализ этих трех коэффициентов надежности приводится в табл. 10 и нарис. II. Вычитая дисперсию ошибки, относящуюся только к выборке со-держания, из дисперсии ошибки, определяемой временный выборкойи выборкой содержания, получаем, что дисперсия временных колебанийравна 0,1. Складывая дисперсии ошибки, относящиеся к выборкам содер-жания (0,20), временным (0,10) и различиям у ставящих оценки (0,08), по-лучаем суммарную дисперсию ошибки, равную 0,38, из чего следует, что дисперсия равна 0,62. Эти величины, выраженные в болеепривычной процентной форме, графически изображены на рис. Ц.НАДЕЖНОСТЬ ТЕСТОВ НА СКОРОСТЬПри составлении теста и интерпретации его результатов важно разли-чать измерение скорости выполнения и возможности выполнения. В тесте на скорость индивидуальные различия определяются толь-ко скоростью выполнения заданий. Трудность заданий такого тестапринудительно одинакова, невысока и вполне посильна испытуемым, накоторых рассчитан тест. Но лимит времени устанавливается так, чтоникто не успевает выполнить всех заданий. В таких условиях результатиспытуемого отражает только скорость его работы. Вместе с тем в тесте возможностей испытуемому предоставляется достаточновремени для выполнения всех заданий. Но их трудность постепенно воз-растает от задания к заданию, так что никто не может справиться со все-ми заданиями, а значит, не может получить высший результат. Вообще как скоростные тесты, так и тесты возможностей строятсяс таким расчетом, чтобы нельзя было получить высшего результата. Излагая на элементарном уровне общую идею одного из способов интерпретациичисленных значений коэффициентов надежности, автор заведомо идет на ряд серьезныхчпппп1йний. В частности, в реальных условиях дисперсия от совместного действия не-НАДЕЖНОСТЬ"Истинная" дисперсия = 62% _Дисперсия ошибки = 38%Стабильность во времени; согласованность форм;независимость от особенностей лиц.оценивающих выполнение теста Различия у лиц, оценивающих выполнение тестаРис. 11. Процентное распределение дисперсии результатов гипотетического тестаОбъясняется это неопределенностью такого результата: остается не-известным, насколько индивидуальный результат оказался бы выше, ес-ли бы в тесте было использовано больше заданий или соответственноболее трудные задания. Чтобы каждый испытуемый мог полностью про-демонстрировать, на что он способен, теста должен быть за-ведомо выше его возможностей либо по числу заданий, либо по степенитрудности. Исключение составляют тесты владения навыком, напримеркритериально-ориентированные тесты, обсуждавшиеся в гл. 4. Цель та-кого тестирования не в том, чтобы установить границы возможностейиндивида, а в определении того, достиг ли он заранее установленногоуровня выполнения. Практически большинство тестов являются одновременно и ско-ростными, и тестами возможностей, однако пропорция, в которой пред-ставлены оба эти компонента, может быть различной. Знание этой про-порции необходимо не только для того, чтобы понять, что измеряеттест, но и для выбора надлежащей процедуры оценки его надежности.Коэффициенты надежности, получаемые при однократном предъявлениитеста, когда определяется корреляция данных по заданиям с четнымии нечетными номерами или используется формула Кьюдера-Ричардсо-на, неприменимы к тестам на .скорость. Чем больше индивидуальныеразличия в тестовых результатах зависят от скорости выполнения, темболее завышенными оказываются коэффициенты надежности, опреде-ленные этими методами. Это видно из следующего контрастного приме-ра. Пусть некий тест, состоящий из 50 заданий, является чисто ско-ростным тестом, т.е. индивидуальные различия в результатах опреде-ляются лишь числом выполненных заданий, а не числом ошибок. Тогдаиспытуемый А, набравший 44 очка, очевидно, получит по 22 очка зачетные и за нечетные задания. Точно так же испытуемый В, показавшийрезультат 34, справится с 17 четными и 17 нечетными заданиями. Следо-вательно, если не считать нескольких случайных ошибок, допущенных понебрежности, корреляция между четными и нечетными заданиями будетполной, т.е. равна 1. Но такая корреляция, однако, явно завышена и недает никакой информации о надежности теста. Проверка процедур, используемых при определении надежности ме-тодом расщепления и по формуле Кьюдера-Ричардсона, показала, чтообе они основаны на согласованности числа ошибок. Если же различияиндивидуальных тестовых результатов определяются не ошибками,а скоростью, то и мера их надежности должна, очевидно, основыватьсяна согласованности заданий на скорость. Когда же выполнение теста за-nwru-г пгтнпнпомйннп пт скоппсти и возможностей выполнения, то коэ(Ь-116 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯвления теста, окажутся ниже 1,00, но все еще будут завышенными. Такиекоэффициенты надежности не поддаются адекватной интерпретации, по-скольку на индивидуальные различия в тестовых результатах заметноевлияние оказывает скорость выполнения заданий. Какие же процедуры определения надежности пригодны для тестовс выраженным скоростным компонентом? Такими процедурами моглибы быть метод ретеста (если его удается применить) и метод взаимоза-меняемых форм. Можно воспользоваться и методом расщепления приусловии, что задания теста расчленяются по временным характеристи-кам, а не по порядковым номерам. Иными словами, сравниваемые ре-зультаты должны быть получены временным разделением частей теста.Одним из способов такого разделения является применение двух эквива-лентных частей теста с разделенным временным ограничением. Напри-мер, четные и нечетные задания распечатываются на разных листах, и покаждому набору заданий устанавливается временной лимит, равный по-ловине лимита для всего теста. Такая процедура равносильна проведе-нию следующих друг за другом двух эквивалентных форм теста. Каждаяформа, однако, вдвое короче целого теста, тогда как результаты испы-туемого определяются по всему тесту. Поэтому необходимо воспользо-ваться формулой Спирмана-Брауна или какой-либо другой формулойэтого типа для определения надежности всего теста. Если раздельное применение двух половин теста недопустимо, товместо него можно воспользоваться разделением полного времени тестана четыре части с регистрацией результатов отдельно для каждой че-тверти. Это легко осуществить, прося испытуемого по сигналу экспери-ментатора отметить крестиком выполняемое в этот момент задание.Число заданий, выполненных за первую и четвертую части полного вре-менного лимита, составит результат по одной из сравниваемых половинтеста.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Решение, однако, не столь просто, как это может показаться. Сразуже возникает проблема адекватности выборки всего множества заданий,поэтому тестируемая область поведения должна систематически прове-ряться с тем, чтобы существовала уверенность, что задания теста ох-ватывают все ее главные аспекты и в правильной пропорции. Тест легкоперенасытить теми аспектами исследуемой области, по которым легчесоставить объективные задания. Поэтому рассматриваемое содержаниеследует фиксировать заранее, а не после того как тест уже составлен.Правильно построенные тесты достижений должны соответствовать нетолько предмету обучения, но и его задачам. Содержание, следователь-но, необходимо определять достаточно широко, включая в него помимознания фактического материала такие важнейшие цели обучения, какприменение изученных принципов и интерпретацию данных. Более того,валидность содержания больше зависит от релевантности тестовых отве-тов индивида, рассматриваемой в сфере поведения, чем от очевидной ре-левантности содержания тестовых заданий. Простая проверка тестаможет и не выявить те процессы, которые действительно обеспечиваютвыполнение теста испытуемым. Важно также избежать неоправданного обобщения выбранной темытестирования. Если, например, орфографический тест с множественнымвыбором ответов измеряет способность распознавать правильно и не-правильно написанные слова, то из этого не следует, что он также изме-ряет способность правильно написать диктант, количество орфографиче-ских ошибок в сочинении и другие аспекты грамотности письма(K.G.Ahlstrom, 1964; D.M.Knoell, C.W.Harris, 1952). Еще одна труд-ность возникает в связи с возможным влиянием посторонних факторовна показатели теста. Например, на тест по измерению способностей типаматематических или технических может неявно влиять способность по-нимать словесную, инструкцию или скорость выполнения простыхи обычных задач. Конкретные методики. Валидность по содержанию закладывает-ся в тест уже при отборе соответствующих заданий. Для тестов уровнязнаний подготовке их заданий предшествует полная систематизирован-ная проверка соответствующих учебников и учебных программ, а такжеконсультации со специалистами по данному предмету. На основе со-бранной таким путем информации составляется спецификация теста длятех, кто будет составлять задания. В спецификации указываются тести-руемые области содержания (темы), задачи (процессы) обучения, а такжеотносительное значение каждой темы и прбцесса. На этой основе покаждой теме устанавливается число заданий различных типов. Удобнойформой представления такой спецификации является таблица, горизон-тальные графы которой соответствуют темам, а вертикальные-процес-сам (табл. 30, гл. 14). Разумеется, не во все ячейки этой таблицы должныбыть вписаны задания, поскольку некоторые процессы могут оказатьсянесовместимыми с определенными темами. Кстати сказать, подобныетаблицы-спецификации полезны и для подготовки контрольных работ полюбому предмету. Обсуждение валидности с разных точек зрения читатель найдет в работах128 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ При перечислении задач обучения, подлежащих включению в тестдостижений в обучении, можно руководствоваться достаточно под-робным справочником (В. S. Bloom et al.,1956; D.R.Krathwohl et al" 1964), составленным группой специалистовв области педагогического тестирования. Этот справочник снабжен такжеразличного типа примерами составления заданий по каждой из задачобучения. Два его тома посвящены соответственно когнитивной и аф-фективной областям поведения. Первая включает знания (в смысле за-помненных фактов, терминов, методов, принципов и т.д.), понимание,применение знаний и их оценку, анализ и синтез. Ко второй, охваты-вающей установки, интересы, ценности и оценочное восприятие, можноотнести прием информации, реагирование, оценивание, организацию иописание. Данные о валидности по содержанию в руководстве к тесту дости-жений должны включать сведения об области знаний, навыках илиучебных задачах, освоение которых измеряется тестом, а также неко-торые указания о числе заданий по каждой из задач обучения. Кроме то-го, должны быть описаны процедуры отбора задач обучения и принципклассификации заданий. Если в составлении теста принимали участиеспециалисты по данному предмету, то необходимо указать их числои профессиональную квалификацию. Если они выступали в роли экспер-тов при классификации заданий, необходимо привести дававшиеся имиуказания и степень согласия между ними. Поскольку программы и со-держание курсов со временем меняются, особенно желательно указатьдату обращения к экспертам. Следует также сообщить число и характеризученных программ и учебников и привести годы их издания. Эти сведения могут быть дополнены рядом эмпирических процедур.Так, можно проверить, насколько от класса к классу повышается сум-марный показатель и индивидуальное выполнение теста достижений.В общем, сохраняются те задания, которые выполняются наибольшим(вЇо) числом учеников. На рис. 14 приведен фрагмент таблицы из руко-водства к последовательным тестам успехов в обучении, серия It (STEP).Для каждого задания этой батареи достижений указан процент детей изнормативной выборки, справившихся с ним в каждом из классов, для ко-торых предназначен данный уровень теста, а также тип учебного навыкаи материала. 30 заданий из рис. 14 составляют лишь часть теста чтениядля 3-го уровня (VII-IX классы). Помимо сказанного анализируются типичные ошибки испытуемыхи применяемые ими методы работы. В последнем случае тестированиеведется в индивидуальном порядке, причем ученика просят при решениикаждой задачи . Существенность скоростного фактораконтролируется по количеству испытуемых, не успевающих закончитьтест, или с помощью одного из более тонких методов, обсуждавшихсяв гл. 5. Для выявления возможного влияния способности читать ин-струкции на выполнение теста показатели теста можно скоррелироватьс результатами теста на понимание прочитанного. В свою очередь, еслитест предназначен для оценки понимания текста, вопросы, относящиесяк содержанию еще не прочитанного отрывка, покажут, насколько испы-туемый в состоянии на них ответить, исходя из имеющихся у него пред-варительных сведений или пользуясь разными косвенными данными. Область применения. Валидность по содержанию, особенно еслиОна ТТОПКпсТтгтрня rraulii-inJTJ тт>гт ""-.."".-_129вллидшкть. CMO -1-ээе"х 111Лп 1- т со [ in в? осп io с из(N 0 o 0 г 11Л[-> Т-СТ1 [ иэгМ 0-in 1Л гпen Ti-in 0- От-~ мсмм PO r CM -"- — —131 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯпользовании, или другим неспециалистам. По сути своей очевидная ва-лидность отражает отношение последних к тесту. Хотя обычное употре-бление термина в данной связи может вводитьв заблуждение, сама по себе очевидная валидность-желательное свой-ство теста. Например, когда тесты, первоначально предназначенные длядетей и рассчитанные на условия школы, были впервые примененык взрослым, те часто относились к таким тестам враждебно и критичноименно из-за отсутствия очевидной валидности. В самом деле, если со-держание теста представляется странным, неуместным, глупым или дет-ским, результатом будет ухудшение обстановки тестирования, несмотряна действительную валидность теста. Очевидная валидность особенно желательна при тестированиивзрослых. Ее часто удается повысить простой переформулировкой зада-ний так, чтобы они казались естественными тестируемому контингенту.Например, если тест, состоящий из простых арифметических задач, пред-назначен для рабочих механического цеха, то в условиях должны фигу-рировать машины или станки, а не апельсины, которые можно купить на36 центов, или иные предметы и персонажи из школьного задачника.Точно так же арифметический текст для военно-морского персонала луч-ше формулировать в морских терминах. Разумеется, очевидную валид-ность ни в коем случае нельзя трактовать как эквивалент объективноустановленной валидности. Нельзя рассчитывать на то, что улучшениеочевидной валидности теста сразу поднимет его объективную валид-ность. Вместе с тем неправильно думать, что переделка теста, повышаю-щая его очевидную валидность, никак не сказывается на его объективнойвалидности. Поэтому валидность теста в его окончательной формевсег-да необходимо проверить заново.ВАЛИДНОСТЬ ПО КРИТЕРИЮВалидность по критерию показывает, насколько по результатам тестаможно судить об интересующем нас аспекте поведения индивида в на-стоящем или будущем. Чтобы определить ее, выполнение теста соотно-сят с критерием, т.е. непосредственной и независимой мерой того, чтодолжен предсказать тест. Так, для теста технических способностей крите-рием может быть последующая работа на производстве; для теста го-товности к обучению это могут быть оценки, получаемые в колледже;для теста на невротизм-отзывы коллег испытуемого или другие до-ступные сведения о его поведении при разных жизненных обстоятель-ствах. Текущая и прогностическая валидности. Критериальную ме-ру, по которой устанавливается валидность тестовых показателей, мож-но получить почти одновременно с ними или же через установленныйпромежуток времени. В зависимости от временной связи между крите-рием и тестом (Standards.., 1974) различают текущую и прогностическую валидности.Термин может использоваться как в широком смысле,означая прогноз на основе данных тестирования поведения испытуемогов реальной (критериальной) ситуации, так и в более узком смысле,указывая лишь на временной интервал. В последнем смысле он и ис-пользуется в выражении . Информация, со-132 пгинципы [кихоютчпкого ll(тиloвлнияиспользуемых при отборе и распределении персонала. Прием на работу.отбор учащихся в колледжи или профессиональные училища, военнослу-жащих на курсы специальной НОДГОТОРКИ-ВОТ примеры ситуаций, когданужно знать валидность используемых гесгов. Сюда же можно отнестииспользование тестов при выявлении лиц, склонных в стрессовых ситуа-циях к эмоциональным расстройства.м" и назначение курса лечения, наи-более подходящего тому или иному больному с расстройством психики. В ряде случаев текуща.я вялидность заменяет валидность прогности-ческую. Часто практически невыгодно слишком затягивать валидацию,без которой невозможно установить прогностическую валидность илисформировать предвари гельн к) выборку, соответствующую целям те-стирования. Поэтому в качесч ве гомпромиссного решения тесты прово-дятся на труппах.. для которых уже .имеются критерИйЛьиые данные. На-пример, результаты тестирования студентов сравниваются с их успевае-мостью, результаты тестирования служащих-с их успехами на про-изводстве. Вместе с тем в ог-рсделениых ситуациях текущая валидность гораздоточнее отвечает существу решаемых задач. Различие между двумя вида-ми валидности. рассматриваемыми в данном разделе, основано не навремени, а на целях тестирования. Текущая валидность используетсяв тестах, оценивающих настоящее положение дел, а не предсказывающихбудущие результаты, ь.сли мы "нрашиваем, невротик ли Смит, то это оз-начает, что нас интересует текущая валидность. Если же мы хотим знадь,склонен ли Смит к неврозам, то это значит, что нас интересует прогно-стическая валидность. Поскольку критепий екущей валидности всегда применяется в мо-мент проведения теста, о"-г может бытьосуществлена относительно более разработанного и давно употребляю-щегося теста действия, чья валидность уже известна. Валидность группо-вого теста может быть проверена относительно индивидуального теста.Тесты Станфорд-Бине, например, не раз служили критерием при вали-дации групповых тестов.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Следует отметить, что если новый тест неявляется более простым или более коротким вариантом уже существую-щего теста, то использование последнею в качестве критерия недопусти-мо. Специфичное ib критерия. Валндпость по критерию наиболееуместна при изучении локальпоН налпданнн, при которой оцениваетсяэффективность теста для конкретной пр01раммы тестирования, напри-мер, когда какая-либо фирма намерена оценить тест для отбора посту-пающих к ним на работу или когда какой-либо колледж хочет устано-вить, насколько пригоден тест способности к обучению для предсказания успешного освоения студентом ма- icpi.n,! ..:и! ll-"l-"-"" -""Рис. IS. Разброс значений коэффициептопвалидности тестов для конкретных p вышеS3S310,60-0,6912Я 11В 7iИh0.50-0,59И 816Я4 б0,19 и НИЖР84L 312 >7И1016138 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯи уровне исследовавшихся групп. Этого, однако, недостаточно, чтобыобъяснить столь широкий разброс валидности. Основной причиной рас-хождений несомненно являются различия в самих критериях валидации.Так, функции клерка или слесаря на разных предприятиях или дажев разных отделах одного и того же учреждения не совпадают. Точно также неодинаковы и содержание курса данного предмета, и индиви-дуальные качества преподавателей, и их подход к оценке знаний учащих-ся. Таким образом, то, что представляется критерием,в разных ситуациях оказывается весьма различной комбинацией свойств. Критерии могут также изменяться во времени. Например, коэффи-циент валидности теста относительно критериев профессионального обу-чения часто отличается от его же валидности относительно выполнениядеятельности (Е.Е. Ghiselli, 1966). Есть данные, свидетельствующиео том, что качества, необходимые для успешного выполнения работыили даже конкретного задания, зависят от тренированности и профессио-нального опыта индивида (E.A.FIeishman, 1972; E.A.FIeishman,B.Fruchter, 1960; E.A.FIeishman, W.E.Hempel, 1956; Е.Е. Ghiselli,M. Haire, 1960). Имеются также многочисленные указания на то, что кри-терии выполнения деятельности меняются со временем вследствие изме-нения характера работы, организационных целей, продвижения работни-ка по службе и т. д. (А. С. MacKinney, 1967, E. P. Prien, 1966). Какизвестно, учебные программы и содержание курсов также изменяются.Иными словами, наиболее распространенные критерии, используемыепри валидации тестов способностей и интеллекта, а именно выполнениедеятельности и успеваемость-это динамические, а не статические вели-чины. Отсюда следует, что валидность критерия сама подвержена вре-менным изменениям. Синтетическая валидность. Критерии ре только различаютсяв зависимости от ситуации и времени, они также, по всей вероятности,достаточно сложны по составу (J. M. Richards, С. W. Taylol P. В. Price,T.L. Jacobsen, 1965). Успех на работе, в школе, в повседневной жизни за-висит не от одного, а от многих свойств. Отсюда и многогранностьпрактических критериев. Поэтому для валидации теста могут быть ис-пользованы различные меры профессиональных навыков или успеваемо-сти. Поскольку эти меры могут относиться к различным свойствам иликомбинациям свойств, не удивительно, что коэффициенты валидностидля одного и того же теста неодинаковы. Когда различные крите-риальные меры получают на одних и тех же испытуемых, их взаимокор-реляция весьма низка. Например, может оказаться, что между числомнесчастных случаев или количеством невыходов на работу и производи-тельностью или частотой допускаемых ошибок не будет обнаруженопрактически никакой связи (S. E. Seashore, В. P. Indik, В. S. Georgopoulos,1960). Эти различия, конечно, отражаются на коэффициентах валидностилюбого данного теста по отношению к различным критериальным ме-рам. Так, результаты теста могут не коррелировать значимо с оценкамипрофессиональных навыков мастером и тем не менее оказаться валидны-ми относительно более поздних данных ухода с работы или продвиже-ния по службе (L.E. Albright, W..Т. Smith, J.R. Glennon, 1959). Ввиду комплексности критерия валидация теста относительно слож-ного критерия профессиональных навыков, академической успеваемостии других аналогичных показателей часто представляет сомнительнуюценность и обладает лишь локальной значимостью. В случае относитель-139 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия ной независимости различных критериев более эффективна валидация те- ста относительно того аспекта критерия, на который этот тест ориенти- рован в первую очередь. Анализ этих более специфических соотношений осмысляет тестовые показатели с точки зрения многомерности крите- риального поведения (М. D. Dunnette, 1963; R. L. Ebel, 1961; S. R. Wallace, 1965). Например, один тест может хорошо прогнозировать скорость во- сприятия клерка и точность выполнения мелкой работы, другой-гра- мотность его письма, третий-способность сосредоточиться на выполня- емой работе и т.д. Возвращаясь к практическим вопросам оценки теста или комбина-ции тестов как средства прогнозирования комплексного критерия (ска-жем, успеха в работе), мы сталкиваемся с необходимостью проведенияконкретной валидации для каждой частной ситуации и повторения ее че-рез короткие промежутки времени. Это считается желательным и часторекомендуется в руководствах к тестам. В большинстве случаев, однако,следовать таким предписаниям не удается. Даже если мы располагаемхорошо подготовленным персоналом, большинство валидационных ис-следований, осуществляемых в условиях производства, часто оказывают-ся неудовлетворительными минимум по трем причинам. Во-первых,трудно получить надежные и достаточно полные критериальные данные.Во-вторых, число работников, выполняющих одну и ту же или близкиефункции на одном предприятии, часто слишком мало для получения ста-тистически значимых результатов. В-третьих, корреляция, как правило,снижается ввиду ограниченного разброса показателей, что объясняетсяпредварительным отбором: фактически испытуемыми оказываютсялишь те, кто был принят на работу. В силу перечисленных обстоятельств среди психологов, занимаю-щихся проблемами кадров, проявляется растущий интерес к так называе-мой синтетической валидности. Это понятие было введено Ч. X. Лоши(С.Н. Lawshe, 1952) и определено М. Балмой как (M.J.Balma, 1959, р. 395). Были разработаны методы сбора необхо-димых эмпирических данных и получения из них значения синтетическойвалидности для частного комплексного критерия (R.M. Guion, 1965;С.Н. Lawshe, M.J. Balma, 1966, гл. 14; E.J. McCormick, 1959; E.S. Prirnoff,1959; 1975). По сути дела весь процесс складывается из трех этапов: (1)детальный анализ деятельности для выделения ее элементов и определе-ния их относительных весов; (2) анализ и экспериментальное исследова-ние каждого теста для выяснения того, в какой степени он измеряет на-выки в выполнении каждого из выделенных элементов деятельности; (3)определение валидности каждого теста путем синтеза весов отдельныхэлементов в деятельности и в тесте. В результате длительного исследования лиц, поступавших на работув Гражданскую службу США, Э.С. Примов (E.S. Prirnoff, 1975) вывел такназываемый J-коэффициент-показатель синтетической валидности. Про-цедура его получения предусматривает, в частности, список элементовдеятельности, записанных на языке профессиональных действий, и оцен-ку относительной важности этих элементов куратором работы или мето-дистом. На выборках из всей совокупности подавших заявление (т. е. безттг>г>уг может быть использовано по-разному в зависимости от конкрет-ной ситуации. Из него вырастает довольно многообещающий подходк проблеме комплексного и непостоянного критерия; оно позволяет ком-пановать тестовые батареи сообразно специфике работы и определятьвалидность в условиях, когда адекватная валидность критерия практиче-ски неосуществима. ,КОНСТРУКТНАЯ ВАЛИДНОСТЬКонструктная валидность теста показывает, насколько его результатымогут рассматриваться в качестве меры некоего теоретического кон-структа или свойства. Примерами таких конструктов являются интел-лект, понимание пространственных отношений, плавность речи, скоростьходьбы, невротизм и тревожность. Будучи нацелена на широкие, устой- " Сгатистическая обработка основана на применении уравнения множественной ре-грессии (см. гл. 7). Для каждого элемента деятельности его корреляция с деятельностьюв целом умножается на его вес в тесте, и полученные произведения суммируются по всемэлементам деятельности. 141 ВЛЛИДНОСП.. OlIIOUHl.lh ПОНЯТИЯчивые и более абстрактные описания типов поведения, чем ранее рассмо-тренные тины ва.лидностк, конструктная валидное ib предполагает посте-пенное накопление информации из разных источников. В дело идутлюбые данные, бросающие сеет на природу рассматриваемого свойства,на условия, от которых зависит его развитие и проявление. Ниже обсу-ждаются конкретные методы получения конструктной валидности. Возрастные изменения. Главным критерием, используемым привалидации ряда тестов интеллекта, является возрастная дифференциация.Тесты типа Станфорд-Вине и большинство тестов для дошкольниковпроверяются на фактический возраст с тем, чтобы выяснить, повышают-ся ли тестовые результаты детей от года к году. Поскольку для детскоговозраста характерно постоянное духовное и физическое развитие, резуль-таты валидного теста также должны соответственно повышаться. Самопонятие возрастной шкалы интеллекта, по мысли А. Бине, исходит из то-го положения, что растет по крайней мере до наступлениязрелости. Критерий возрастной дифференциации, разумеется, неприменимк таким функциям, которые не обнаруживают четких и постоянных воз-растных изменений. В области тестирования личности, например, этоткритерий нашел ограниченное применение. Более тою, необходимо от-метить, что возрастная дифференциация, даже когда она применима,является необходимым, но не достаточным условием валидности. Иначеговоря, если тестовые результаты нс улучшаются с возрастом, то это,видимо, указывает на невалидность теста относительно умений, которыеон должен измерять. Вместе с тем, доказывая, что тест измеряет некоесвойство, совершенствующееся с возрастом, мы еще не очерчиваем до-статочно точно область, охватываемую тестом. Измерение роста и весатакже с возрастом дает все более высокие результаты, однако оно никакне является тестом интеллекта. В заключение подчеркнем еще один момент, касающийся интерпре-тации возрастного критерия. Психологический тест, валидность которогоустановлена относительно такого критерия, измеряет поведенческие ха-рактеристики, растущие с возрастом в условиях той среды, в которойтест был стандартизован. Поскольку различные культуры могут стиму-лировать развитие различных поведенческих характеристик, критерийвозрастной дифференциации нельзя считать универсальным. Как и вседругие критерии, он действителен лишь для определенной культурнойсреды. Анализ возрастных изменений играет большую роль в конструктнойвалидации уже упоминавшихся в гл. 4 порядковых шкал Пиаже. Основ-ной предпосылкой таких шкал является последовательность ступенейразвития, проявляющаяся н том, 410 развитие представлений, сложив-шихся на ранних ступенях, служи т предпосылкой к овладению последую-щими интеллектуальными операциями. Таким образом, содержаниюэтих шкал присуща имманентная иерархичность. Конструктная валид-ность порядковых шкал, следовательно, включасг эмпирические данныеоб инвариантах носле;1.ова1сл1>пых ступеней развития. Это означает про-верку выполнения теста детьми на разных уровнях развития данногопредставления, скажем, постоянства или сохранения объекта. Нужно лиубеждаться в том, что владение каким-то представлением на данномуровне означает владение им и на более низких уровнях? Поскольку кри-142 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯствии с иерархичностью ступеней развития, их валидность также зависитот эмпирической подтверждаемости данной иерархии. Корреляция с другими тестами. Корреляция между новыми аналогичными ему существующими тестами рассматривается как при-знак того, что новый тест измеряет примерно ту же сферу поведения, чтои другие одноименные тесты, такие, как тесты интеллекта или тесты тех-нических способностей и т.д. В отличие от валидности по критериюздесь корреляция должна быть, но не слишком высокой. Если новыйтест слишком тесно коррелирует с уже существующим и не обладаетпреимуществами в смысле краткости или легкости применения, то этоозначает излишнее дублирование имеющегося теста. Корреляция с другими тестами применяется, помимо этого, в каче-стве меры независимости нового теста от влияния определенных посто-ронних факторов. Например, тест специальных способностей или лич-ностный тест должен обладать незначительной корреляцией с тестамиобщего интеллекта или способности к обучению. Соответственно пони-мание читаемого не должно заметно влиять на выполнение таких тестов.Это объясняет, почему корреляции с тестами общего интеллекта, чтенияи понимания слов иногда приводятся как косвенное, или негативное, до-казательство валидности. В этих случаях высокая корреляция ставила быпод сомнение валидность теста. Однако низкая корреляция сама по себееще не гарантирует достаточной валидности. Нужно иметь в виду, чтоэтот способ использования корреляции с другими тестами аналогиченодному из рассмотренных выше вспомогательных приемов валидации посодержанию. Факторный анализ. Прямое отношение к конструктной валидно-сти имеет факторный анализ-статистический метод выделения психоло-гических свойств. В сущности факторный анализ представляет собой усо-вершенствованную технику анализа соотношений данных поведения.Например, если 300 испытуемых пройдут 20 тестов, то первый шаг со-стоит в вычислении попарных корреляций между всеми тестами. Провер-ка полученной таким путем таблицы из 190 коэффициентов корреляцииуже может выявить коррелирующие между собой тесты, что означалобы выделение общих для них свойств. Если такие тесты, как словарный,синонимов, антонимов и завершения предложений, тесно коррелируютмежду собой и слабо-с другими тестами, то мы могли бы выделить на-личие общего им фактора-понимание слов. Поскольку такой проверочный анализ корреляционной таблищди труден и ненадежен, то для выявления общих факторов, за счет ко-торых можно объяснить полученные корреляции, применяются болееточные статистические методы. Эти методы будут еще рассмотреныв гл. 13, где речь пойдет о комплексных батареях способностей, разра-батываемых при помощи факторного анализа. В ходе факторного анализа равное количеству тестов число пере-менных или категорий, служащих для описания выполнения теста инди-видом, сокращается до нескольких факторов или общих свойств. В при-веденном выше примере для объяснения попарных корреляций между 20тестами хватило бы 5-6 факторов. Иначе говоря, результаты каждогоиндивида по 20 тестам можно было бы заменить данными по 5 или6 факторам. Главное назначение факторного анализа состоит в упроще-нии описания данных путем сокращения числа категорий до нескольких143 ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ После идентификации факторов их можно использовать для описа-ния факторного состава теста. Каждый тест может быть охарактеризо-ван посредством основных факторов, определяющих его показатели, ве-сом, или нагрузкой, каждого фактора и корреляцией теста с каждым изних. Такая корреляция именуется факторной валидностью теста. Так, ес-ли в словарном тесте фактор понимания слов имеет вес 0,66, то фактор-ная валидность этого лексического теста как средства измерения пони-мания слов равна 0,66. Важно отметить, что факторная валидностьпредставляет собой корреляцию теста с тем, что есть общего для группытестов или других указателей поведения. Анализируемое множествопеременных может, конечно, включать в себя как тестовые, так и внете-стовые данные, в том числе субъективные оценки и другие крите-риальные меры. Все они наряду с другими тестами могут быть исполь-зованы для исследования факторной валидности конкретного теста и дляопределения измеряемых им свойств. Внутренняя согласованность. В описаниях ряда тестов, особен-но тех, которые применяются для исследования личности, говорится, чтовалидность теста была установлена методом внутренней согласованно-сти. Существенной чертой этого метода является использование в каче-стве критерия суммарного показателя данного теста. Иногда при этомприменяется метод сравнения контрастных групп, которые формируютсяиз испытуемых, показавших самые высокие и самые низкие суммарныерезультаты. Выполнение каждого теста группой с высокими результата-ми сравнивается с выполнением группой с низкими результатами, и тезадания, с которыми первая группа не справляется значительно лучше,чем вторая, признаются невалидными и либо отбрасываются, либо пере-сматриваются. Можно также воспользоваться бисериальной корреляциеймежду исходами ( ) каждого задания и сум-марным результатом теста, и тогда сохраняются только те задания, длякоторых отмечена значимая корреляция с тестом в целом. Если тест со-стоит из заданий, прошедших такого рода отбор, то говорят, что тестобладает внутренней согласованностью, поскольку все его задания под-чинены основному направлению теста как целого. Критерий внутренней согласованности означает также корреляциюмежду результатами субтеста и суммарным результатом. Многие тестыинтеллекта, например, состоят из раздельно применяемых субтестов (та-ких, как словарный, арифметический, завершение картинки и т.д.), из ре-зультатов которых складывается общий результат теста. При построе-нии таких тестов определяется корреляция между результатами каждогосубтеста с общим результатом и субтесты, плохо коррелирующие с те-стом в целом, отбрасываются. Коэффициенты корреляции для оставших-ся субтестов приводятся затем как свидетельство внутренней согласован-ности всего теста. Очевидно, что корреляции внутренней согласованности теста-суще-ственная мера его однородности. Поскольку это свойство помогает оха-рактеризовать область поведения или свойство, выборочно представлен-ное в тесте, то степень однородности теста имеет отношениек конструктной валидности. Тем не менее роль внутренней согласованно-сти в валидности теста весьма ограничена. При отсутствии информации,внешней по отношению к тесту, мало что можно сказать о том, что онизмеряет. .-_-".""" "др""" д результаты144 ПРИНЦИПЫ П(ИХ0.1(11ИЧ1.(К010 ТЕСТИРОВАНИЯтеста. Еще одним источником данных о конструктной валидности мо-гут служить эксперименты, в которых исследуется влияние тех или иныхфакторов на результаты теста. При проверке валидности критериально-ориентированного теста, предназначенного, скажем, для использованияв индивидуальном обучении, один из подходов состоит в сравнении ре-зультатов тестирования до и после экспериментального воздействия.Предполагается, например, что результаты до обучения должны бытьнизкими, а после обучения — высокими. То же соотношение можно прове-рить и на отдельных заданиях теста (W.J. Popham, 1971). В идеалес каждым заданием до обучения должно справиться минимальное, а по-сле обучения-максимальное число учеников. Задания, с которыми малокто справляется в обоих случаях, слишком трудны, а те, с которымисправляются все и до и после обучения, слишком доступны с точки зре-ния целей, преследуемых тестом. Если многие в первый раз справляются,а во в горой раз не справляются с заданием, то что-то неладно илис этим заданием, или с обучением, или с тем и другим. Тест, предназначенный для измерения тревожности, можно испы-тать, давая его испытуемым до и после того, как они были помещеныв обстановку, провоцирующую состояние тревоги (примером может слу-жить проверка знаний в условиях, отвлекающих от проверки, и в стрес-совой ситуации). Начальные тестовые показатели можно сопоставитьс физиологическими и иными показателями тревоги во время и послеэкспериментального воздействия. Вместе с тем можно сравнить резуль-таты тестирования до и после воздействия. Значимый прирост показате-ля теста будет свидетельствовать о том, что он отражает текущий уро-вень тревожности. Аналогичным образом можно построить экспериментна проверку теста относительно других измеряемых им свойств. Конвергентная и дискриминантная валидности. В своемглубоком анализе конструктной валидности Д.Т. Кэмпбелл(D.T. Campbell, 1960) отмечает, что конструктная валидность теста зави-сит не только от того, насколько тесно он коррелирует с другими пере-менными, с которыми теоретически должен коррелировать, но и от от-сутствия значимой корреляции с переменными, с которыми он не долженбыть связан. В более ранней работе Д.Т.Кэмггбелла и Д. В. Фиске(D.T. Campbell, D.W. Fiske, 1959) эти процессы соответственно были на-званы конвергентной и дискриминантной валидацией. Например, значи-мая корреляция теста технических способностей с последующими оцен-ками но курсу производственною обучения относится к конвергентнойвалидности, тогда как дискриминант ной валидности отвечала бы низкаяи незначимая корреляция с пониманием читаемою текста, поскольку этоумение безотносигельно к icciy. предназначенному измерять техническиеспособное т и. Напомним. 410 требование низкой корреляции с безотносительнымик тесту переменными рассматривалось выше в связи с дополнительнымипроцедурами валидацни по содержанию. Дискриминантная валидациятакже имеет прямое отпопгенпс к определению валидности личностныхтестов, в которых безотносшельные к гесту переменные, причем разны-ми путями, могут влиять на результаты. В упомянутой выше сгатье (13. Т. Campbell. D.W. Fiske. 1959) предло-жена схема эксперимента, позволяюгцею одновременно производитьконвергентную и дпскриминапгпую валидацию. названную ими много-145иЛЛИД11(Н1Ь. (KHOBHbIL ПОНЯТИЯгает оценку двух или более свойств двумя или более методами. Табл. 12,взятая из этой сппьи, поясняет эту процедуру. На этой таблице изобра-жены всевозможные корреляции показателей по трем свойствам, изме-ряемым тремя методами. Эти свойства А, В и С могут обозначать со-ответственно склонность к лидерству, общительность и мотивациюдостижений. В качестве методов могут выступать (1) опросник, которыйиспытуемый заполняет сам, (2) проективная методика и (3) оценки кол-лег. Таким образом, А означает данные о стремлении к лидерству, по-лученные с помощью онросника, л;-данные по тому же признаку, но наосновании проективного теста, а Сд-оценки мотивации достижений, да-ваемые коллегами, и т.д. Гипотетические коэффициенты корреляции, приведенные в табл. 12,включают в себя коэффициенты надежности (они стоят в скобках вдольглавной диагонали) и коэффициенты валидности (напечатаны полу-жирным шрифтом но трем коротким диагоналям). Как показываюткоэффициенты валидности, результаты измерения каждого свойства раз-личными методами коррелируют между собой. Здесь каждая мера сопо-ставляется с другими независимыми мерами того же свойства, как ив знакомой нам процедуре валидации. Таблица также содержит коэффи-циенты корреляции между различными свойствами, измеренными одними тем же (сплошные треугольники) и разными (пунктирные треугольни- Таблица 12Гипотетическая миоюметодная матрица свойств (D.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
T.Campbell, D.W.Fiske, 1959, р. 82)Мотод 1Метод 2Метод 3свойства А B.i С.)В, С, АЗ0,89)Метод 1 В Чтобы четче выделить отличительные черты раз-ных типов валидности, применим каждый из них к тесту, состоящемуиз 50 различных арифметических задач. В табл. 13 отражены 4 способаиспользования данного теста и соответствующие им процедуры валида-ции. Из таблицы видно, что выбор процедуры валидации зависит отпоследующего назначения результатов теста. Валидность одного и тогоже теста в зависимости от цели его применения должна устанавли-ваться по-разному. Если тест достижений используется для предска-зания дальнейших успехов на более высоком уровне обучения, как в слу-чае отбора старшеклассников при их приеме в колледж, то валидностьэтого теста нужно устанавливать относительно оценок, получаемыхв колледже, а не относительно содержания данного школьного курса. Примеры из табл. 13 поясняют различия между разного типа ва-лидациями. Дальнейшее рассмотрение этих процедур, однако, показы-вает, что валидности по содержанию, относительно критерия и конструкт-ная ре являются строго различными или логически упорядоченными147 ВАЛИДНОСТЬ. ОСНОВНЫЕ понятия Таблица 13Валидность одного и того же арифметического теста применительно к разным целямЦель тестирования Вопрос) на который должен Тип валидности ответить тестТестирование достижений по Что Дик усвоил на По содержаниюарифметике в средних классах сегодняшний день?школыТестирование способностей для Как Джим будет Прогностическаяпредсказания возможности освоения учиться в дальнейшем? относительно критериякурса математики в старшихклассахДиагностирование трудностей Выявило ли выполнение Текущая относительнов обучении теста Биллом какие-то критерия трудности в обучении?Тестирование логического Как можно охарактери- Конструктнаямышления зовать психическую деятельность Генри?категориями. Напротив, конструктная валидность-широкое понятие,включающее другие типы валидности. Все обсуждавшиеся выше конкрет-ные методы установления валидностей по содержанию или относитель-но критерия можно было рассматривать в разделе конструктной валид-ности. Сравнение показателей двух групп, скажем невротиков и здоро-вых, является способом проверки конструктной валидности теста, на-правленного на измерение эмоциональной устойчивости, тревожности идругих свойств личности. Сравнение показателей глубоко умственно от-сталых и нормальных школьников-это способ исследования конструкт-ной валидности теста интеллекта. Корреляция теста технических спо-собностей с успешностью обучения на специализированных курсах и свыполнением различного рода работ позволяет нам лучше понятьконструкт, измеряемый тестом. Валидность относительно разнообразныхпрактических критериев обычно приводится в руководствах к тесту стем, чтобы будущему его пользователю легче было узнать, что изме-ряет тест. Даже не будучи заинтересован в предсказании использован-ных критериев, он по их списку сможет составить себе представле-ние об области поведения, выборочно представленной в тесте. Точно так же валидность по содержанию играет важную роль какпри построении, так и при последующей оценке всех тестер. Подбираязадания для любого нового теста, составитель руководствуется неко-торыми гипотезами относительно соотношения между выбираемым ти-пом содержания и поведением, которое он намерен измерять. Все спо-собы валидации критерия, в том числе обсуждавшиеся в конструктнойвалидности, служат инструментом проверки таких гипотез. Что касаетсяпользующегося.тестом, то при оценке теста ему не следует слишком по-лагаться на валидностьпо содержанию. Например, при проверке словар-ного состава опросника эмоциональной устойчивости с точки зрения до-ступности его для тех, кого намечается тестировать, он можетобнаружить, что результаты определенного теста слишком зависят отскорости работы испытуемого или что в тесте интеллекта, разработан-ном 20 лет назад, слишком много устаревших заданий. Все такие нябтттп-148 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯста. Собственно говоря, нет таких сведений, получаемых в ходе любойпроцедуры валидации, которые бы ни имели отношения к конструктнойвалидное ти. Официально термин был введен в психо-метрию в 1954 г. в , являющихся первым изданием ныне действующих Американской психологической ассоциации (Standards…, 1974).Хотя процедуры, отнесенные к разряду конструктной валидации, в товремя были уже не новы, последовавшее затем обсуждение конструктнойвалидности способствовало уточнению формулировок и систематическо-му обоснованию данного подхода. Понятие конструктной валидностипозволило подчеркнуть роль психологической теории в разработке те-стов и необходимость формулировать гипотезы, подлежащие подтвер-ждению или опровержению в процессе валидации. Это особенно важнопри опенке тестов, предназначенных для научных изысканий. В практическом плане это понятие оказалось полезным при изуче-нии валидности критериальных мер, применяемых в традиционной вали-дации по критерию (L.R.James. 1973). Анализируя корреляцию раз-личных критериальных мер между собой и с другими относительнымипеременными, проводя факторный анализ таких данных, можно большеузнать о значении того или иного критерия. В некоторых случаях резуль-таты такого исследования приводят к перестройке или замене критерия,выбранною для валидации теста. Так или иначе они обогащают интер-претацию данных о валидности теста. Конструктная валидность находит также практическое применениев ситуациях, когда валидация по критерию невозможна, например приопределении локальной валидности тестов для отбора персонала на про-мышленные предприятия. Выше, при обсуждении синтетической валид-ности, уже говорилось о возникающих в этом случае трудностях. Кон-структная валидность подсказывает еще один способ преодоления этихтрудностей при оценке применимости существующих тестов к опреде-ленному виду работ. Как и при построении синтетической валидности,этот подход предусматривает проведение систематического анализа типаработы, после чего квалификация выполняющего ее работника описы-вается в терминах конструктов соответствующего поведения. Далее, еслитест до своей публикации прошел необходимые исследования, то сведе-ния, пршюдпмые в руководстве к нему, позволяют очертить основныеконе) рук ii.i, измеряемые тестом. Если они явно совпадают с теми, ко-торые 1п.1лс,к: 1 процедур, небольшая часть которых случайно даст положи- -…….". ., nniluT о них. не упоминая тех, что149 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯвое впечатление. Другая возможная опасность кроется в том, что термин иногда отождествляют с субъективными не-проверенными утверждениями относительно валидности теста. Посколь-ку конструктная валидность является столь широким и расплывчатымпонятием, ее часто истолковывают неправильно. Некоторые авторыучебников и тестов, видимо, воспринимают ее как валидность по содер-жанию, представленную на языке психологических категорий. В резуль-тате они выдают за конструктную валидность чисто субъективные рассу-ждения о том, что, по их представлениям, измеряет тест. Еще один источник возможных недоразумений коренится в утвер-ждении, что конструктная валидация (L.J.Cronbach, P.E.Meehl, 1955,р. 282). Поскольку эта формулировка содержится в первом появившемсяв печати детальном анализе конструктной валидности, ее ошибочнопринимают за обоснование необходимости пользоваться конструктнойвалидностью за неимением иных данных. То, что авторы этой формули-ровки не имели в виду ничего подобного, говорит следующая фраза изтой же статьи: (ibid, р. 291). В этой же связи они критикуют тесты, (ibid, р. 291). В самом деле,измеряемый тестом теоретический конструкт, свойство или область по-ведения можно адекватно определить только в свете данных, собранныхв процессе его валидации. Такое определение должно учитывать пере-менные, с которыми тест значимо коррелирован, условия, реальновлияющие на его результаты, а также то, какие группы тест значимодифференцирует. Эти процедуры находятся в полном согласии с тем по-ложительным, что пришло в тестирование вместе с понятием . Только эмпирическое исследование соотношениймежду тестовыми показателями и другими внешними данными позво-ляет выяснить, что измеряет тест.ГЛАВА 7. ВАЛИДНОСТЬ.ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Гл. 6 была посвящена различным понятиям валидности и тому, как онисоотносятся с тем или иным назначением теста. В этой главе обсу-ждаются способы количественного выражения валидности и интерпрета-ция получаемых результатов. Пользующийся тестом обращается к ва-лидности в следующих двух случаях. Первый раз, оценивая пригодностьтеста для своих целей, он изучает данные о валидности, приведенныев руководстве к тесту или в других доступных источниках. На основеэтой информации он получает представление о том, какие психическиефункции тест измеряет, и решает, соответствуют ли такие функции це-лям его использования теста. В этом случае, полагаясь на опублико-ванные данные о валидности теста, пользователь, какие бы конкретныепроцедуры при сборе таких данных ни применялись, имеет дело с кон-структной валидностью. В гл. 6 уже отмечалось, что критерии, употре-блявшиеся в опубликованных исследованиях, не обязательно идентичнытем к-пт-ппые ппгттуюптайся тестом собипается ппогнозиповать. Лаже150 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯодноименные должности на двух различных предприятиях редко совпа-дают по своим обязанностям, точно так же, как два курса английскогоязыка в разных колледжах могут значительно отличаться друг от друга. Ввиду специфичности каждого критерия, пользователю обычно реко-мендуется проверить, если возможно, валидность выбранного теста от-носительно локального критерия. Даже когда опубликованные данныеявно указывают на высокую валидность теста в частной ситуации, всегдажелательно их непосредственное подтверждение. При определении ва-лидности относительно конкретных локальных критериев пользующийсятестом оценивает его валидность второй раз. Методы, рассматриваемыев этой главе, имеют непосредственное отношение к анализу данных ва-лидации, получаемых самим пользователем теста, но их также можноиспользовать (по крайней мере большую их часть) для понимания и ин-терпретации сведений о валидности, приводимых в руководствахк тестам.КОЭФФИЦИЕНТ ВАЛИДНОСТИ И ОШИБКА ПРОГНОЗАИзмерение с оотношени я.; Коэффициент валидности есть корреляциямежду показателями теста и критериальной мерой. Этот коэффициентпозволяет характеризовать валидность единственным показателем,; и по-этому его часто приводят в руководствах к тестам, сообщая его значениедля каждого из использованных критериев. Данные, по которым вычис-ляется коэффициент валидности, можно также представить в форме про-гностической таблицы или карты прогноза (см. гл. 4, табл. 6, рис. 7).Собственно говоря, такие таблицы и карты-наглядные иллюстрации то-го, что коэффициент валидности означает для тестируемого индивида.Напомним, что на карте прогноза приводится вероятность для испытуе-мого, показавшего определенный результат, достижения определенногоуровня критериального выполнения. Например, с помощью табл. 6(гл. 4, с. 96), зная результат ученика по тесту словесного мышления ба-тареи DAT, можно определить вероятность получения им той или инойоценки по тому или иному учебному предмету. Согласно этим данным,коэффициент валидности такого теста равен 0,66. Если, как в приведен-ном примере, тестовые и критериальные переменные-континуальны, топрименим уже знакомый нам коэффициент корреляции произведения мо-ментов Пирсона. Если же исходные данные выражены в различной фор-ме (скажем, когда критериальные переменные имеют значение -см. рис. 7, гл. 4), то коэффициенты корреляциивычисляются иными методами. Конкретные процедуры вычисленийможно найти в любом учебнике по статистике. Условия, влияющие на коэффициент валидности. Как ив случае надежности, необходимо точно определить характер группы,для которой найден коэффициент валидности. Один и тот же тест можетизмерять различные функции, если его дать лицам разного возраста, по-ла, образовательного уровня, рода занятий и т. д. Имея различный опыт,испытуемые, например, могут по-разному подойти к решению однойи той же задачи. Следовательно, тест может обладать высокой валид-ностью относительно некоторого критерия в одной популяции и низкойили нулевой валидностью-в другой. Он может также измерять разные(ЬУНКЦИИ В ОаЗНЫХ ПОПУЛЯТТИЯХ ПпчтпУ w-nw паттигтаттипчнаа тп-тйпгнга uf151 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯрепрезентативна для популяции, в которой предполагается использоватьтест, валидность необходимо определить заново на соответствующейвыборке.. / Разнородность выборки имеет для измерения валидности такое жезначение, как и для измерения надежности, поскольку обе характеристи-ки обычно приводятся в виде коэффициентов корреляции. Напомним,что при прочих равных условиях чем больше разброс результатов, темвыше корреляция. Это обстоятельство необходимо иметь в виду при ин-терпретации коэффициентов валидности, приводимых в руководствахк тестам. Специфическая проблема, присущая многим выборкам валидации,связана с предварительным отбором испытуемых. Так, при определениивалидности нового теста на группе лиц, недавно принятых на работу,критериальной мерой, очевидно, будет выполнение ими своих обязанно-стей. Вполне вероятно, однако, что эти лица были уже отобраны теми,кто принимает на работу. Поэтому в подобной выборке разброс показа-телей теста и критериальной меры уменьшится на нижнем конце распре-деления, а следовательно, снизит коэффициент валидности. А это значит,что последующее использование теста для отбора всех поступающих наработу, по-видимому, покажет более высокую валидность. / Коэффициенты валидности могут также меняться со временемвследствие изменения норм отбора.; В качестве примера сравним коэффи-циенты валидности, полученные с интервалом в 30 лет при обследованиистудентов Иельского университета (P. S. Bumham, 1965). Определяласькорреляция между прогностическим показателем, основанным на тестахСовета по вступительным экзаменам в колледж, и успеваемостью в стар-ших классах, с одной стороны, и средним баллом первокурсника-с дру-гой. Оказалось, что за 30 лет корреляция снизилась с 0,71 до 0,52. Про-верка двумерного распределения данных легко выявила причину этогоснижения. Дело в том, что в связи с повысившимися требованиями приприеме в колледж группа студентов во втором случае была более одно-родной, чем в первом, по отношению как к предиктору, так и к крите-риальному выполнению. Отсюда и падение корреляции, несмотря на точто точность прогноза успеваемости в колледже осталась в общем пре-жней. Иными словами, наблюдавшийся эффект вовсе не свидетельствуето временном снижении валидности предикторов, а к такому выводумоно бы прийти, упустив из вида различия в однородности групп. -Для правильной интерпретации коэффициента валидности следуетпринимать во внимание форму зависимости между тестом и критерием.Определение пирсоновского коэффициента корреляции предполагает, чтоэта зависимость линейна и остается одной и той же по всему диапазонузначений предиктора. Однако в ряде ситуаций это условие не выполняет-ся (J. Fisher, 1959; D. Kahneman, 1962). Пусть для выполнения некоторойработы требуется лишь минимальный уровень понимания читаемого, до-статочный для прочтения инструкций, названий и т.д. Но как толькоэтот минимальный уровень превзойден, то от дальнейшего развитияданного умения успешность выполнения работы уже не зависит, т.е. ме-жду тестом и выполнением работы существуют нелинейные отношения.Проверка двумерного распределения или диаграммы рассеяния, по-строенной по показателям теста на понимание читаемого и крите-риальных мер, выявила бы, что уровень выполнения работы растет, пока,-,"" ,,>nrrf -ггала тт тттт-QT "rrVPAAnir ТПНН ПОСЛб ЧеГО152 lllIIIIUIItIhl ПСИХОЛОГИЧЕСКОГО ТГСТИРОИАПИЯон остается примерно тем же. Следовательно, точки на диаграмме ско-рее группируются вокруг кривой, а не прямой линии. В других случаях эта линия может быть и прямой, но точки, изобра-жающие индивидуальные данные, могут отстоять от нее в верхнем концешкалы дальше, чем в нижнем. Предположим, что выполнение теста спо-собности к обучению-необходимое, но не достаточное условие для ус-воения некоторого учебного предмета. Это значит, что ученики, показав-шие в тесте низкие результаты, справятся с ним плохо, тогда как средиучеников с высокими результатами одни освоят предмет, а другие, из-занедостаточной мотивации, еле его одолеют. В этом случае будет наблю-даться большая вариативность критериального выполнения у учащихсяс более высокими тестовыми результатами, чем с более низкими. Опи-санная особенность двумерного распределения называется гетероскеда-стичиостыо. Определение корреляции по Пирсону предполагает наличиегомоскедастичности, т.е. одинаковую дисперсию критерия по всей обла-сти двумерного распределения. В приведенном примере двумерное рас-пределение имеет форму веера, расширяющегося слева направо и снизувверх. Одною взгляда на двумерное распределение обычно бывает до-статочно для установления характера соотношения между тестом и кри-терием. Прогностические таблицы и карты прогноза также достаточнохорошо выявляют относительную эффективность теста на разных уров-нях. Величина коэффициента валидности. Какова должна быть ве-личина коэффициента валидности? На этот вопрос нет единого ответа.так как при интерпретации коэффициента валидности нужно учитыватьряд побочных обстоятельств. Конечно, корреляция должна быть стати-стически значимой на некотором достаточном уровне (0,01 или 0,05-см.гл. 5). Иными словами, прежде чем делать выводы о валидности теста,нужно иметь уверенность в том, что данный коэффициент валидности непоявился в результате случайных выборочных отклонений от нулевогозначения. Установив значимость корреляции между тестовыми показателямии критерием, необходимо еще оценить величину корреляции с точки зре-ния использования теста. Если мы хотим оценить величину индивидуаль-ного критериального показателя (скажем, успеваемость первокурсника),то для интерпретации коэффициента валидности уместно обратитьсяк стандартной ошибке оценки, аналогично рассматривавшейся в связис надежностью теста ошибке измерения. Напомним, что ошибка измере-ния указывает на допустимые пределы возможной ошибки в индиви-дуальных показателях вследствие ограниченной надежности теста. Точнотак же ошибка оценки указывает на допустимые пределы возможнойошибки в прогнозируемой величине индивидуального критериальногопоказателя как результата ограниченной валидности теста. Ошибка оценки находится по следующей формуле: -~-ст1 — r,где r -квадрат коэффициента валидности и -стандартное отклонениекритериальных показателей-.3аметим, что при полной валидности ошиб-ка оценки была бы равна нулю. Вместе с тем если валидность теста рав-на нулю, то ошибка оценки совпадает со стандартным отклонением кри-териального распределения. В этих условиях прогноз равносилен153 ВАЛИДНОСТЬ. ИЗМЕгеНИ И ИПТИРПППАЦИЯделение критериальных показателей. Ошибка оценки и IUUCIIMOCIH отменяющейся валидности теста располагается между этими предельнымизначениями. ______ Из формулы для (7, видно, что величина [/1 — " указывает на вели-чину ошибки относительно ошибки простого угидыччпия, т.е. при нуле-вой валидности. Иными словами, если ]/)- гу = 1,00, то ошибка оцен-ки столь же велика, как и при угадывании. Пользы от теста, сле-довательно не будет никакой. Если коэффициент валидное in равец 0,80,то 1/1- гу= 0,60, т.е. ошибка составляет 60"" от той, которая бы-ла бы при угадывании. Это означает, что тест позволяет делать про-гнозы о критериальном выполнении индивида с ошибкой на 40"" мень-шей, чем в случае угадывания. Может показаться, что даже при такой необычно высокой валидно-сти, как 0,80, ошибка в предсказываемых показателях все еще значи цель-на. Если основным назначением психологического теста счтать прелска-зание точного положения показателя ипдипида в распредслепип крше-риальных показателей, то вывод будет совершенно обескуражипакнцпм.С точки зрения ошибки оценки большинство тестов представляются неособенно эффективными. Однако чаще всего при тестировании нет необ-ходимости прогнозировать критериальное BbinoJ>nciiiic в индиви-дуальных случаях, но требуется лишь определить, кто из испытуемыхпревзойдет некоторый минимальный стандарт выполнения, или норма-тивный показатель критерия. Каковы шансы у Мери Грин закончить ме-дицинское училище, у Тома Хиг гипса усвоить курс дифференциальноюисчисления, а у Беверли Бруса преуспеть в качестве ас1ропавта? Кто изпоступающих, скорее всего, будет хорошим служащим, продавцом, меха-ником? Такая информация полезна не только при отборе кадров, нои при индивидуальном выборе профессии. Например, школьнику полез-но знать, что у него хорошие шансы благополучно окончить юридиче-ский факультет, даже если мы не можем с перечною 11.14 ч.п.ш.. будетли его средний балл 74 или 81. Тест может заметно повысить эффективность прогноза, если для не-го будет установлена любая, даже низкая, значимая корреляция с крите-рием. В ряде случаев валидность 0,20 или 0,30 уже оправдывает включе-ние теста в программу отбора. Для основных целей тестированиясуждение о тесте с точки зрения ошибки оценки чрезмерно строго. Су-дить следует, принимая во внимание иные способы оценки геста, те, ко-торые бы учитывали типы решений, осуществляемых на основе его ре-зультатов. О некоторых из этих методов пойдет речь в следующемразделе.ВАЛИДНОСТЬ ТЕСТА И ТЕОРИЯ РЕШЕНИЙОсновной подход. Предположим, 100 человек, поступающих на рабо-ту, выполнили тест способностей и по прошествии какого-то временибыли оценены их успехи в выполнении своих обязанное} ей. На рис. 17изображено двумерное распределение результатов тестирования и пока-зателей выполнения работы. Корреляция между обеими переменныминесколько ниже 0,70. Необходимый минимум выполнения обязанностей,154ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯчислу людей, не справившихся с работой, а 60 случаев над чертой-спра-вившихся с ней. Если все 100 поступавших принимаются на работу, то60Їо справятся с ней. При принятии меньшего числа без учета результа-тов теста, т. е. наугад, относительное количество удач было бы, вероятно,близким к 60Їо. Предположим, однако, тестовые показатели используют-ся для отбора из 100 претендентов 45 наиболее перспективных сотрудни-ков (индекс отбора-0,45). В таком случае следует выбрать 45 человек,чьи показатели попали справа от вертикальной толстой линии. Срединих будет 7 случаев неудач в работе, или ошибочного приема, и 38 слу-чаев успеха. Процент успеха теперь равен уже не 60, а 84 (т.е. 38/45 === 0,84). Это увеличение обусловлено применением теста в качестве ин-струмента отбора. Кстати, можно игнорировать ошибки показателейпрогностического критерия, не влияющие на принимаемое решение. Из-бирательную эффективность теста снижают только те из них, которыенаходятся ниже горизонтальной толстой черты и, следовательно, поме-щают индивида в ошибочную категорию. Для полной оценки эффективности теста как инструмента отборарассмотрим также ошибки другого типа, представленные на рис. 17.Рис. 17. Рост количества успехов вследствие использования отборочного тестои S QJ 0 10 S. ш а о И 1 to s л 1 1правильное принятие.S t С-х (и С U 1 л 1Ї
Математические процедуры,применяемые в теории решений, весьма сложны, и лишь немногие из нихимеют форму, приемлемую для непосредственного использованияв практических задачах тестирования. Некоторые из основных понятийтеории решений, однако, помогают лучше объяснить ряд касающихся те-стов вопросов. Часть идей, составивших основу теории решений, былавведена в тестирование еще до того, как был разработан формальныйаппарат этой теории. Предсказание результатов. Своего рода предвестником теориирешений в психологическом тестировании явились таблицы Тейлора-Расселла (Н.С. Taylor, J.T. Russell, 1939), позволившие определить вы-игрыш в точности отбора от использования теста. Для работы с табли-цами нужно знать коэффициент валидности теста, индекс отбораи базовый уровень, т.е. oi носи тельные количесгно coip шиков, спра-вляющихся со своими обязанностями и набранных случайно (без исполь-зования теста). Изменение любого из этих параметров может повлиятьна прогностическую эффективность теста. В качестве примера приведем одну из таблиц Тейлора-Расселла, от-вечающую базовому уровню 0,60 (табл. 14). В верхней ее части приве-дены различные значения индекса отбора, в крайнем левом столбце-коэффициенты валидности, а в с троках-относительное число успеховсреди принятых на работу по результатам теста. Разность между такойвеличиной и 0,60 указывает на выигрыш от применения теста. Очевидно, если индекс отбора равен 1,0, т.е. когда приему подлежатвсе претенденты, ни один тест, как бы валиден он ни был, не улучшит ка-чества отбора. Из табл. 14 видно, что при индексе отбора, равном 0,95,даже тест с коэффициентом валидности, равным 1,0, повышает долю ус-пехов только на 0,03 (с 0,60 до 0,63). Напротив, если из поступающихнужно отобрать только 5Ї/", то тест обеспечивает рост правильно приня-тых с 0,60 до 0,82. Этот рост представляет инкрементную валидность те-ста (L. Sechrest, 1963), или рост прогностической валидности теста,и указывает на роль теста в улучшении отбора лиц, которые в дальней-шем будут удовлетворять минимальным требованиям критериальноговыполнения. Применяя таблицы Тейлора-Расселла, необходимо, конеч-но, знать валидность теста для группы именно того типа, по которойопределялся базовый уровень. Иными словами, польза от применениятеста оценивается не вероятностью успеха отобранных с его помощьюпретендентов (если, конечно, до этого поступавшие на работу не при-нимались наугад, что маловероятно), а тем, насколько улучшает проце-дуру отбора, основывающуюся на сведениях о предыдущей деятельно-157ВАЛИДНОСТЬ ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Инкрементная валидность теста зависит не только от индекса отбо-ра, но и от базового уровня, в чем можно убедиться, сравнивая разныетаблицы Тейлора-Расселла. Рассмотрим случай, когда валидность тестаравна 0,40, а индекс отбора-0,70. Какова в этих условиях инкрементнаявалидность при базовом уровне 0,50? 0,10? 0,90? Обращение к соответ-ствующим таблицам Тейлора-Расселла показывает, что процент успе-хов повысится в первом случае с 50 до 75Їо, во втором-с 10 до 21Ї(, ив трет ьем-с 90 до 99Ї. Таким образом, приращение числа успехов прибазовом уровне 0,50 составит 25" тогда как при более крайних его зна-чениях приращение меньше: соответственно II и 9Ї/,. Поведение инкрементной валидноста при базовых уровнях, близкихк нулю или единице, представляет особый интерес для клинической пси-хологии, где базовый уровень равен доле случаев патологии в тестируе-мой популяции (A.M.Buchwald, 1965; E.E.Cureton, 19570; P.E.Meehl,A. Rosen, 1955; J.S. Wiggins, 1973). Например, если у У/о клинической по-пуляции имеется органическое поражение мозга, то базовый уровень дляданного диагноза в данной популяции будет 5Їц. Хотя введение валидно-го теста повысит точность диагностики, выигрыш будет максимальным,если базовый уровень близок к 0,50. При низком базовом уровне, озна-чающем крайне редкий патологический случай, инкрементная валидностьТаблица 14Ожидаемая величина успехов при исполыовании теста с данной валидностью и данным ин-дексом отбора для баювою уровня 0,60 (H.L. rayior, J.T. Russell, 1939, р. 576)ВалидностьИндекс отбора1 0.05 0,100,200,30 1 0,40 1 0,500,600,700,800,900,950,000,690,600,600,600.600,600,600,600,600,600,600,050,640,630,630,620,620,620,610,610,610,600,600,100,680,670,650.640.640,630,620,610,610,610,600,150,710,700.680.670,660,650,640,630,620,610,610,200,750,730,710,690.670,660,650,640,630,620,610,250,780,760,730,710,690,680,660,650,630,620.610,300.820,790,760,730.710.690,680,660,640,620,610,350,850,820,780,750.730,710,690,670,650,630,620,400,880,850,810,780.750,730,700,680,660,630,620,450,900,870,830,800,770,740,720,690,660,640,620,500,930,900.860,820,790,760,730,700,670,640,620,550,950,920,880.840,810,780,750,710,680,640,620,600.960,940,900,870,830,800,760,730,690,650,630,650,980,960,920,890,850,820,780,740,700,650,630,700,990,970,940,910,870,840,800,750,710,660,630,750,990,990,960,930,900,860,810.770,710,660,630,801,000,990.980,950.920,880,830,780,720,660,630,851,001,000.990,970,950.910.860.800.730.660.630,901,001,001,000,990,970,940,880,820,740,670,630,951,001,001,001,000,990,970,920,840,750,670,631,001,001,001,001.001.001.001,000,860,750,670,63158 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯтеста может оказаться настолько ничтожной, что его применение нельзябудет считать оправданным, учитывая издержки, связанные с его приме-нением и обработкой. Когда редкое заболевание настолько серьезно, что необходимсрочный диагноз, на первом этапе цепи последовательных решений мож-но применить тест с умеренной валидностью. Например, всех пациентовможно проверить посредством легко осуществимого теста с невысокойвалидностью. Если нормативный результат установлен достаточно высо-ким (высокие показатели вообще предпочтительней), то число неверныхотрицательных решений будет мало, а число ложных положительныхдиагнозов, т.е. норма, диагностированная как патология, будет велико.Последние затем могут быть выявлены при более интенсивном индиви-дуальном обследовании получивших положительный диагноз. Такойподход целесообразен, когда, например, имеющееся оборудование не по-зволяет проводить интенсивного индивидуального обследования всехслучаев. Отношение валидности к среднему уровню выработки. Вомногих практических ситуациях требуется оценить эффективность отборатеста не по проценту лиц, справляющихся с работой, а по общей выра-ботке тех, кто был принят. Каков реальный профессиональный уровеньработников, отобранных с помощью теста, по сравнению с теми, ктобыл принят на работу без использования теста? После появления ра-боты X. Тейлора и Дж. Расселла некоторые исследователи заинтересова-лись этим вопросом (Н.Е. Brogden, 1946; C.W. Brown, E.E. Ghisell, 1953;R.F.Jarrett, 1948; M.W.Richardson, 1944). Х.Брогден впервые показал,что ожидаемый прирост выработки прямо пропорционален валидноститеста. Так, эффект от применения теста с валидностью 0,50 составляет50Їо того, который имел бы место при стопроцентной валидности. Соотношение между валидностью теста и ожидаемым повышениемкритериальных достижений видно из табл. 15 в которой приведеныкритериальные показатели, выраженные в виде стандартного показателясМ=Ои ет==1. В этой таблице значения базового уровня, соответ-ствующего выполнению деятельности работниками, принятыми без ис-пользования данного теста, приводится в колонке нулевой валидности,ибо тест с валидностью, равной нулю, эквивалентен отсутствию теставообще. Покажем, как пользоваться этой таблицей. Предположим, при-ему подлежат 20Їо претендентов (индекс отбора 0,20), причем отбор про-изводится с помощью теста, валидность которого равна 0,5. По табл. 15находим, что средний уровень выработки в отобранной груйпе превы-шает базовый уровень на 0,7(7. При том же индексе отбора 0,20 выигрышот идеального теста (с валидностью 1,0) составит 1,4сг, т.е. будет вдвоебольшим, чем при валидности 0,5. Подобная линейная зависимостьимеет место в пределах любой строки табл. 15. Например, при индексеотбора 0,60 валидность 0,25 повышает средний критериальный показа-тель на 0,16ст, в то время как валидность 0,50 повышает его на 0,32.Опять-таки удвоение валидности ведет к удвоению конечного результа-та. Судить о валидности теста с точки зрения среднего значения про- Более подробную таблицу см. в работе Дж. Найлопа и Л ТТТяпча т r in?cВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Q 000101~ОЮГ~-ОООГ1Г~-ОНГ1Г~-0 о oг~~ oc~ "-1 l гч т сч 1-[> о 1-00 г 0 о г ос с 0 о" о" о О" О" О" О" О О" О" О" О" О"1Г1 г ч О а 00 (—г—0 1-00 гО 00 "-I-О ч Г—г"1 0 v") О" О" О" О" О" О" О" О" О" О" О" О" О" О" О" О" О" О"И о 00 Г-О с 00 гП 00 t О (М 00 1 00 О "О иS о о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о"1 -0t~~-OrlrlгnflГГтчOOО" О" О" О" О" О" О" О" О" О" О" о" о" о" о" о" о" о" о" " Q OCГ~-0 llгOгltNCмч000000000000000000о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о" о"5 йЯЯЯ SS ЯЯЯЯ Q о о о о о о 000 .0 000000000" о" о" о" о" о" о" о" о" о"- о" о" о" о" о" о" о" о" о" о"VOIOIOIOVO>OVOVOO> —— — . . п г т~-оо оо 0 а160ПРИНЦИПЫ ПСИХОЛОГИЧРСКОГО Т1-ГТИРОВАНИЯгнозируемой выработки или процента работников, нрсныснвших крите-риальную норму, очевидно, намного полезнее, чем судить о ней на осно-ве рассмотренной выше ошибки оценки. Причина в том, что ошибкипрогноза, не влияющие на решение, несущественны для ситуации отбора.Например, если и Смит, и Джонс-хорошие работники и оба былиприняты на основании теста, то нет белы в том. что с тестом Смит спра-вился лучше Джонса, тогда как по работе Джонс превосходит Смита. Роль ценностей в теории решений. Именно теория решенийпозволяет оценить тесты по их эффективности в конкретной ситуации.Такая оценка учитывает не только валидность теста как средства про-гнозирования определенного показателя, но и ряд других параметров,включая базовый уровень и индекс отбора. Еще одним важным парамет-ром является относительная полезность ожидаемых последствий, оценкаих благоприятности и неблагоприятности для конечного результата. От-сутствие адекватных систем ценностей таких результатов в единой шкалеполезностей составляет главное препятствие для применения теории ре-шений. В промышленности полезность принимаемых решений частоможно оценивать в долларах и центах. Однако даже десь трудно датьденежную оценку доброй воле, социальным отношениям, моральномудуху персонала. Решения в области образования должны приниматьсяс учетом целей учебного заведения, общественных ценностей и другихтрудно уловимых факторов, а при выборе профессии-с учетом предпоч-тений и системы ценностей индивида. Неоднократно отмечалось, чтотеория решений не поставила проблему ценностей, а сделала ее более яв-ной. Системы ценностей всегда играли свою роль в принятии решений,но прежде они четко не фиксировались и не использовались с такойметодичностью. Цель выбора стратегии в максимизации ожидаемой ее полезности,вычисленной исходя из полезности и вероятности каждого из возможныхпоследствий принятого решения. Схема простой стратегии, представлен-ная на рис. 18, поможет объяснить суть дела. На этой схеме изображенастратегия решений по данным (рис. 17) применения теста к группе посту-павших на работу и решениям их принятия или непринятия, сделаннымна основе нормативного показателя теста. Всего имеется четыре воз-Рис. 18. Простая стратегия принятия решенияСтратегияПрименение теста с нормативным результатомРешениеПринятьНе принятьРезультат ВероятностьПравильное принятие 0,38Ошибочное принятиеПравильное непринятие 0,33Ошибочное непринятие ] 0,22161ВАЛИДНОСТЬ. ИЗМЕРБНИЕ И ИНТЕРПРЕТАЦИЯТест А с двумянормативными результатамиПринять Нужныдополнительные данныеНе принятьТест ВПринятьНе принятьРис. 19. Последовательная стратегия принятия решенияможных исхода: правильное и ошибочное принятие, а также правильноеи ошибочное непринятие. Вероятность каждого исхода задается числомлиц, соответствующих каждой из четырех частей рис. 17. Если всегоимеется 100 человек, то искомые вероятности оцениваются путем деле-ния каждого из указанных чисел на 100 (см. рис. 18). Кроме того, намнужно знать полезности каждого исхода, выраженные в единой шкале.Общую ожидаемую полезность стратегии находим, перемножая длякаждого из исходов их полезности и вероятности, складывая полученныепроизведения и вычитая из суммы издержки тестирования. Последняявеличина отражает тот факт, что тест с низкой валидностью скорее най-дет применение, если он краток, недорог, легко может проводитьсямалоквалифицированным персоналом и пригоден для группового тести-рования. Применение индивидуального теста, требующего квалифициро-ванного экспериментатора или дорогостоящего оборудования, оправда-но, только если его валидность достаточно высока. Последовательные стратегии и адаптивный подход. В не-которых ситуациях эффективность теста можно повысить, применяя бо-лее сложные стратегии, учитывающие большее число параметров. Пре-жде всего тест может служить для принятия промежуточного, а неокончательного решения. В случае простой стратегии (см. рис. 17 и 18)все решения носят окончательный характер. Напротив, на рис. 19 пока-зана двухэтапная последовательная стратегия. В роли теста А может вы-ступать короткий, легкий в применении, отсеивающий тест. В зависимо-сти от его выполнения испытуемые распределяются по трем категориям:принятые, не принятые и сомнительные. Последние подвергаются болееинтенсивному обследованию тестом В, который делит эту группу напринятых и не принятых. Последовательное тестирование можно также применять в рамкаходного теста, что позволяет повысить эффективность использованиявремени тестирования (L.J.DeWitt, D.J.Weiss, 1974; R.L. Linn,D.A. Rock, T.A. Cleary, 1969; D.J. Weiss, N.E. Betz, 1973). Правда, в этомслучае оно лучше всего подходит для тестирования с помощью компью-теров, но в какой-то мере его можно использовать и в групповых тестахтипа . Существенно, что последовательность зада-ний или групп заданий определяется их выполнением испытуемым. На-пример, всем вначале дается набор заданий средней трудности. Те, кто" См. работу Дж. Виггинса (J. S. Wiggins, 1973, р. 257-274), где приводится вымыш-162 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯс ними не справился, переводятся на более легкие задания; тем же, ктопоказал хорошие результаты, даются более трудные задания. Такие могут иметь место на нескольких этапах. Главный вы-игрыш здесь в том, что каждый испытуемый получает только те задания,которые отвечают его уровню, вместо того чтобы выполнять все зада-ния. Модели последовательного тестирования будут рассмотрены далеев гл. II, в связи с применением компьютеров в групповом тестировании. Еще одним использованием этой стратегии, пригодным для диагно-стики психических нарушений, является последовательное отнесение ис-пытуемых к одной из двух категорий, причем дальнейшему тестирова-нию подлежат только те, для кого очередная проба оказаласьположительной, что указывает на возможную патологию. Эта стратегияуже упоминалась выше в связи с использованием тестов для диагностикипатологических состояний при весьма низком базовом уровне. Следует отметить, что многие решения, связанные с приемом на ра-боту, фактически осуществляются по последовательной схеме, хотя этои не всегда осознается. Некомпетентные работники, принятые вследствиеошибки прогноза, обычно могут быть уволены по истечении испытатель-ного срока; отчисляются также на ряде этапов не справляющиесяс учебными программами студенты. В таких ситуациях только отрица-тельное решение оказывается окончательным. Конечно, ошибки отбора,которые затем исправляются, могут дорого обходиться с точки зрениятой или иной системы ценностей. Но все-таки они часто сопряженыс меньшими издержками, чем окончательное ошибочное решение. Вторым условием, влияющим на эффективность психологическоготеста, является использование альтернативных решений и возможностейадаптивных методов при определении индивидуальных особенностей.Примером может служить использование различных программ подго-товки персонала в зависимости от уровня их способностей или введениекомпенсирующих программ для учеников с определенными трудностямив обучении. В этих условиях стратегия решения каждый раз должнастроиться с учетом имеющихся сведений о взаимодействии между перво-начальным результатом irci и дифференцированным обучением. Адап-тивные методы нередко позволяют повысить число справляющихсяс учебной программой. Поскольку выбор того или иного альтернативно-го метода в принципе является проблемой классификации, а не отбора,соответствующие методики будут рассмотрены позже, в разделе, посвя-щенном классификационным решениям. Приведенные примеры показывают, что концепции и принципы тео-рии решений могут помочь в оценке пригодности психологических тес-тов для конкретных целей тестирования. Теория решений позволяет вы-делить комплекс факторов, определяющих выигрыш, который даетиспользование того или иного теста в частной ситуации. Сам же по себекоэффициент валидности-лишь один из факторов, подлежащих рассмо-трению при оценке влияния теста на эффективность всего процесса выра-ботки решений. " Более полное обсуждение применения теории решений в тестировании см. в рабо-те Дж. Виггинса (J.S. Wiggins, 1973, гл. 6), на более специальном уровне эти проблемы об-163 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯМОДЕРАТОРЫЗависимость валидности от особенностей подгрупп испы-туемых. Валидность теста относительно данного критерия может зави-сеть от индивидуальных особенностей испытуемого. Классическая психо-метрическая модель предполагает, что ошибка прогноза являетсяхарактеристикой теста, а не испытуемого и что эти ошибки распростра-няются на испытуемых случайным образом. Гибкость подхода, свой-ственная теории решений, способствовала созданию прогностических мо-делей, учитывающих взаимодействие между индивидом и тестом. Такоевзаимодействие означает, что один и тот же тест может для одних клас-сов или подмножеств испытуемых обладать большей, а для других-меньшей прогностической способностью. Например, данный тест можетлучше предсказывать критериальное выполнение для мужчин, чем дляженщин, или для поступающих на работу из более низких, чем из болеевысоких социоэкономических уровней. В этих примерах пол и социоэко-номический уровень играют роль модераторов-переменных, не позво-ляющих повысить валидность теста (D.R. Saunders, 1956). Нередко валидность теста для всей группы слишком мала, чтобыего можно было использовать в прогностических целях. Но подсчет ва-лидности для подгрупп, различающихся по некоторому легко распозна-ваемому признаку, выявляет, что в одной подгруппе она велика, а в дру-гой ничтожна. Следовательно, тест можно эффективно использовать дляпринятия решений относительно членов первой, но не второй группы.Возможно, для второй группы будет эффективным другой тест или инойспособ оценки. Модератор представляет собой некоторую характеристику группылиц, указывающую на прогностическую эффективность теста примени-тельно именно к данной группе. Это могут быть демографические пока-затели (пол, возраст, уровень образования, социоэкономический статус)или результаты другого теста. В роли модераторов часто выступают ин-тересы и мотивация. Так, если поступающий на работу почти не заинте-ресован в ней, то его выполнение своих обязанностей, вероятно, будетнеудовлетворительным, независимо от его результатов по соответствую-щему тесту способностей. Для таких лиц корреляция между результата-ми теста способностей и качеством выполнения работы будет низкой,тогда как для заинтересованных и высоко мотивированных индивидовтакая корреляция может оказаться весьма значительной. Эмпирические примеры модераторов. Данные о действии мо-дераторов поступают из разных источников. Просмотрев несколько соткоэффициентов корреляции между результатами теста способностейи успеваемостью, Г. Сишор (H.G. Seashore, 1962) установил, что в значи-тельном большинстве случаев коэффициенты корреляции выше у жен-щин, чем у мужчин. Эта тенденция имела место как в школах, так ив колледжах, и в последнем случае она была более выраженной. Данныене содержали указаний на причину отмеченных различий валидности, нобыло бы интересно порассуждать о них в свете других известных по-ловых различий. Поскольку ученицы обычно более склонны к конфор-мизму, к принятию ценностей и норм школьной жизни, их достиженияв учебе, по-видимому, более связаны с их способностями. Напротив,юноши чаще направляют свои усилия на те виды деятельности (в школе164 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯсят дополнительную дисперсию в их учебные достижения, что и затруд-няет прогноз успеваемости по результатам теста. Но каковы бы ни былипричины этих различий, ясно, что пол действует как модератор прогно-зирования успеваемости, на основе результатов теста способностей. Для оценки роли различных модераторов в предсказании успеваемо-сти был проведен ряд исследований. В некоторых из них (N. Frederiksen.A.C.F. Gilbert, 1960; N. Frederiksen, S.D. Melville, 1954; L.J. Stricker, 1966)проверялась гипотеза о том, что более обязательные ученики, выяв-ленные посредством двух тестов компульсивности, вкладывают многосил в свою учебную работу независимо от интереса к тому или иномупредмету, в то время как усилия менее обязательных учеников опреде-ляются их интересами. Поскольку эти усилия сказываются на оценках,корреляция между соответствующими тестами интересов и успевае-мостью должна быть выше у некомпульсивных, чем у компульсивныхучеников. Эта гипотеза подтвердилась при исследовании несколькихгрупп студентов-мужчин из технических колледжей, но уже обследованиестудентов (обоего пола) художественных училищ ни к чему не привело.Более того, отсутствие согласованности между различными показателя-ми компульсивности заставляет усомниться в том, что измерялся одини тот же конструкт. Другое исследование (R.R. Grooms, N.S. Endler, 1960) показало, чтоуспеваемость студентов, более склонных к тревожности, сильнее корре-лирует с результатами тестов достижений и способностей (г = 0,63), чему более спокойных студентов (г = 0,19). Иной подход (R.F. Berdie, 1961)связан с изучением влияния на валидность теста интраиндивидуальнойвариативности результатов. Гипотеза, согласно которой тест лучшийпредиктор для тех индивидов, чье выполнение разных частей теста болеепоследовательно, а значит их суммарные результаты более надежны, ча-стично подтвердилась, но изучавшееся соотношение оказалось сложнее,чем ожидалось (R.F. Berdie, 1969). При клинических исследованиях было обнаружено, что личностныеопросники, заполняемые самим испытуемым, для одних типов неврозаболее валидны, чем для Других (S. С. Fulkerson, 1959). Особенности пове-дения при разных типах невроза таковы, что испытуемые одного типаотвечают на опросники старательно и точно, тогда как другие-небреж-но и уклончиво. Индивид, для которого характерна точность и тщатель-ность подробностей, который озабочен своими проблемами и прибегаетк интеллекту как к средству защиты, по-видимому, более точно воспрои-зведет в опроснике картину своих эмоциональных затруднений, чем им-пульсивный и беспечный индивид, который стремится избежать не-приятных мыслей и эмоций и для кого первой защитной реакциейявляется отрицание. Э. Гизелли (Е.Е. Ghiselli, 1956; 1960й; 1960; 1963, 1968; E.E. Ghiselli,E. P. Sanders, 1967) много занимался проблемой модераторов в про-изводственной ситуации. При обследовании водителей такси(Е.Е. Ghiselli, 1956) корреляция между тестом способностей и крите-риальным выполнением равнялась лишь 0,22. Затем группа, исследовав-шаяся по данным теста профессиональных интересов, была разбита натри подгруппы. Для водителей, чьи интересы больше всего соответство-вали работе, валидность теста способностей оказалась равной 0,664. Во многих своих исследованиях Э. Гизелли для каждого испытуемо-165 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ гнозируемыми критериальными показателями (чем меньше D, тем лучше прогнозируемый критериальный показатель). Сравнивая результаты вы- полнения каждого задания в группах с разными значениями D, он строил шкалу прогнозируемости, применяя затем к новой выборке, в которой выделялись подгруппы с лучшей и худшей прогнозируемостью, и для обеих подгрупп сравнивались значения валидности исходного теста. Этот метод оказался многообещающим при выявлении индивидов, для которых тест мог быть хорошим или плохим предиктором. Он был так- же использован при решении вопроса о том, какой из двух тестов является лучшим предиктором для данного индивида (Е. Е. Ghiselli, 1960я). Некоторые исследователи (M.D.Dunnette, 1972; R.Hobert, M.D.Dunnette, 1967) считают, что показатель D, основанный на абсо- лютной величине ошибки прогноза без учета ее направленности, может затушевывать важные индивидуальные различия. Ввиду этого были предложены процедуры раздельного анализа случаев заниженного и за- вышенного прогноза. В настоящее время выявление и использование модераторов все еще находятся в стадии исследования. Необходима большая осторожность, чтобы избежать методических ловушек (N.M.Abrahams, 1972а, Ь; M.D. Dunnette, 1972; Е.Е. Ghiselli, 1972; W.F. Velicer, 1972a, b). Резуль- таты обычно действительны только для условий, в которых они были получены. Важно к тому же проверять, насколько модератор действи- тельно улучшает прогноз, который можно было бы получить и другими, более прямыми путями (С. С. Finder, 1973)./ОБЪЕДИНЕНИЕ ДАННЫХ РАЗЛИЧНЫХ ТЕСТОВДля предсказания критерия обычно требуется не один, а несколько те-стов. Большинство критериев достаточно сложны, а критериальныемеры зависят от целого ряда различных качеств. Если такой критерийизмеряется посредством одного теста, то этот тест должен быть весьмаразнородным. Уже отмечалось (гл. 5), что относительно однородныйтест, измеряющий преимущественно одно качество, позволяет получатьболее однозначные результаты. Поэтому обычно предпочтительнейпользоваться серией из нескольких относительно однородных тестов,каждый из которых нацелен на какой-то один аспект критерия, чем од-ним большим тестом, представляющим собой мешанину самых разно-родных заданий. / Когда для прогноза применяется серия специально подобранных те-стов, такая серия называется батареей. Главная проблема использованиябатареи состоит в том, как учитывать результаты отдельных тестов привыработке решения в каждом индивидуальном случае. В этой связи при-меняются преимущественно два типа статистической обработки резуль-татов, один из которых основан на использовании уравнения множе-ственной регрессии, а другой-системы нормативных результатов Когда тесты применяются для интенсивного индивидуального иссле-дования, скажем для клинического диагноза, при консультировании илипри оценке руководителей высоких рангов, экспериментатор, как прави-ло, не прибегает к статистическому анализу результатов. Заполняя меди-166 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯопыта и теоретических соображений. Такое клиническое использованиетестовых результатов подробнее рассматривается в гл. 16. Уравнение множественной регрессии. Уравнение множествен-ной регрессии позволяет для каждого испытуемого по результатам всехтестов батареи рассчитать значение прогнозируемого критерия.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Следую-щее уравнение регрессии иллюстрирует применение этой процедуры дляпредсказания успеваемости старшеклассника по математике на основерезультатов вербального (V), числового {N) тестов, а также теста мышле-ния {R). Успехи в математике = 0,21 + 0,21 + 0,327? + 1,35 В этом уравнении станайн ученика по каждому из трех тестов умно-жается на соответствующие веса. Сумма трех таких произведений плюсконстанта 1,35 дает прогнозируемый станайн ученика по математике. Предположим, Билл Джонс получил следующие станайны: вербальный тест 6 Числовой тест 4 Тест на мышление 8 Ожидаемые успехи по математике у этого ученика будут равны:0,21 х б + 0,21 х 4 + 0,32 х 8 + 1,35 == 6,01. Итак, ожидаемый станайнБилла примерно 6. Вспомним (гл. 4), что станайн 5 отвечает среднемууровню. Значит, Билл, вероятно, будет иметь по математике оценки не-сколько выше среднего. Его очень хорошее выполнение теста на мышле-ние (R = 8) и неплохие результаты по вербальному тесту (V = 6) ком-пенсируют невысокую скорость и точность вычислений (N = 4). Конкретные процедуры вычислений, связанных с применением урав-нений регрессии, читатель найдет в учебниках по статистике для психо-логов (G. P. Guilford, В. Fruchter, 1973). Существенно, что такие уравне-ния основываются на корреляции каждого теста с критерием и тестовмежду собой. .Очевидно, что тесты, сильнее коррелирующие с критерием,должны иметь больший вес. Столь же важно, однако, учитывать корре-ляцию каждого теста с другими тестами батареи. .Высокая корреляцияуказывает на ненужное дублирование одного теста другим, ибо это озна-чает, что тесты в значительной мере направлены на один и тот же аспекткритерия. Включение таких тестов не повышает существенно валидностивсей батареи, даже если они тесно коррелированы с критерием. В этомслучае применение одного из этих тестов столь же эффективно, чтои обоих, поэтому в батарее следует оставить только один тест. Однако даже после того, как случаев наиболее выраженного дубли-рования в батарее не остается, тесты все равно будут в той или инойстепени коррелировать друг с другом. Ясно, что чем более является вклад теста в общие результаты батареи, тем боль-шим должен быть его вес. Таким образом, при расчете параметров урав-нения регрессии вес каждого теста прямо пропорционален его корреля-ции с критерием и обратно пропорционален корреляции с другимитестами. Это значит, что максимальный вес получает тест, обладающийнаибольшей валидностью и в наименьшей степени дублирующий осталь-ную часть батареи. Валидность целой батареи можно найти, вычисляя множественнуюкорреляцию (R) между входящими в нее тестами и критерием. Эта кор-реляция отвечает максимуму прогностической силы батаоеи. котопнй167 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Следует иметь в виду, что эти веса оптимальны только для частнойвыборки, в которой они были найдены. Поскольку в используемых приопределении весов коэффициентах корреляции возможны случайныеошибки, то эти веса могут меняться от выборки к выборке. Поэтому ба-тарею следует подвергнуть перекрестной валидации, коррелируя еес прогнозируемыми и действительными критериальными показателямидля новой выборки. Существуют формулы для оценки ожидаемого сни-жения множественной корреляции при применении уравнения регрессиик другой выборке, но, если есть возможность, желательно провести эм-пирическую проверку. В целом же, чем больше выборка, по которойопределяются веса, тем меньше упомянутое снижение корреляции. В известных условиях прогностическую валидность батареи удаетсяповысить, включая в уравнение регрессии тест, имеющий нулевую корре-ляцию с критерием и высокую корреляцию с одним из тестов батареи.Такая любопытная ситуация возникает, когда тест, не коррелирующийс критерием, действует как подавляющая переменная и элиминирует илиподавляет безотносительные к критерию переменные другого теста. На-пример, понимание читаемого текста может тесно коррелировать с пока-зателями теста математических или технических способностей, посколькувыполнение заданий этих тестов требует понимания сложной письмен-ной инструкции. Если понимание текста не имеет отношения к прогнози-руемой деятельности, оно вносит дополнительную дисперсию ошибкив результаты и снижает прогностическую валидность теста. Добавивк батарее тест на понимание читаемого и включив его результатыв уравнение регрессии, мы устраним эту дисперсию ошибки и повысимвалидность батареи. Веса таких добавочных тестов входят в уравнениерегрессии с отрицательным знаком. Поэтому чем выше результат испы-туемого по тесту понимания читаемого текста, тем большая величинавычитается из его результата по тесту математических или техническихспособностей. Использование такого рода подавляющих переменных поясняет сле-дующее исследование 63 механиков промышленных предприятий(W.W. Sorenson, 1966). Наиболее эффективная прогностическая батареявключала (1) анкету (сведения об образовании, опыте работы и т.п.) об-щего характера (корреляция с критерием 0,30), (2) тест на механическуюсметку типа (корреляция с критерием 0,22)и (3) тест на понимание техники, ориентированный на общее знаниепринципов механики (корреляция с критерием — 0,04; корреляция с те-стом (2) == 0,71). Третий тест выступал в роли подавляющей переменной,что видно из следующего уравнения регрессии:С = 177 + ЮТ — 6Тз + 866. >В отсутствие такой переменной батарея давала бы завышенный прогноздля тех, кто справлялся с тестом 2 благодаря своим теоретическим зна-чениям, а не практическим навыкам, требующимся для выполнения ра-боты. Постороннее влияние компонента на результатытеста 2 было тем самым подавлено. Попытки использовать подавляющие переменные для повышениявалидноеT личностных тестов не дали ожидаемого эффекта(J. S. Wiggins, 1973). Более того, в большинстве случаев предпочтительней""""""е.пственный пересмотр теста, уменьшающий безотносительную — ""T такая корреляция неосуществима,168ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯТаблица 16 Данные, используемые для установления норма- тивных результатов батареи GATB (United StatesDepartment of Labor, 1958, p. 10)стоит рассмотреть целесообразность введения пере-менных. Система нормативных результатов. Другой подход к резуль-татам батареи тестов состоит в использовании системы нормативных ре-зультатов, т.е. системы минимальных проходных результатов, устанав-ливаемых для каждого из тестов батареи. Тот, кто не достигает такогоминимума хотя бы по одному из тестов, считается не прошедшим тести-рования. Положительное решение принимается только для тех, кто до-стигает или превосходит проходные минимумы по всем тестам. Приме-ром такого подхода является прогностическая батарея тестов основныхспособностей (GATB), разработанная Американской службой занятостидля консультирования по профессиям в отделениях этой службы (UnitedStates Department of Labor…, 1970a). Из девяти показателей этой батареидля каждой профессии на основе корреляции с критерием, среднего зна-чения (М) и стандартного отклонения ст отбираются показатели, лучшевсего соответствующие тому или иному ряду занятий. Примером применения GA ТВ к профессиональ- ным стандартам резчиц- мотористок консервной про- мышленности может слу- жить табл. 16. В едини- цах стандартных показате- лей с М == 100 и о- = 20 нормативные результаты по тестам для этой специаль- ности установлены на уров- не 75 для моторной коор- динации (X), пальцевой мо- торики (F) и ручной мото- рики (М) (United States De- partment of Labor…, 1970a, Section IV, p. 51). В табл. 16 приведены сред- ние значения, стандартные отклонения и корреляцияс критерием (оценка, даваемая мастером) каждого из девяти показателейдля группы из 57 работниц. На основе данных корреляции в качествепредикторов были выбраны ручная моторика и моторная координация.Пальцевая моторика включена, поскольку для нее М достигает максиму-ма, несмотря на то что индивидуальные различия по этому признаку не-значимо коррелируют с критериальными оценками. По-видимому, жен-щины, поступившие и оставшиеся на этой работе, прошли предвари-тельный отбор по уровню развития их пальцевой моторики.Способности Корреляцияс критериемGк обучению (общие)75.114.2- 0.094vвербальные80,111,3- 0,085Nвычислительные73,218,4- 0,064Sпространственнаяориентация78,915,90,041Рвосприятие формы80,123,5-0,012Qисполнительность86,316,60,088кмоторная координация89,320,70,316Fпальцевая моторика92,418,10,155Мручная моторика88,218,60,437 Значимо на уровне 0,05 Значимо на уровне 0,01 Исследовались также возможности включения в уравнение регрессии непрерывныхмодераторов в виде неаддитивных функций высшего порядка, но результаты оказалисьмалообнадеживающими (J.J.Kirkpatrick et а1., 1968; D.R.Saunders, 1956; J.S.Wiggins,1973). Данные для большей ясности приведены в несколько упрощенном виде. На самомделе окончательный выбор типов показателей и нормативных результатов основывался169ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Валидность объединенных (К, F, М) тестовых нормативных резуль-татов группы из 194 работниц приведена в табл. 17. Из таблицы видно,что из 150 хороших работниц 120 превысили все три нормативных ре-зультата, а 30 составили группу ошибочно не принятых, ибо они не до-стигли минимума по одному, двум или всем трем тестам. Из 44 неудо-влетворительных работниц 30 были выявлены правильно, а 14 ошибочноприняты на работу. Об общей эффективности данной системы норма-тивных тестовых результатов говорит тетрахорическая корреляция ме-жду прогнозируемым статусом индивида и критериальными оценками,равная в данном случае 0,70. Если учитывать только показатели со значимой валидностью, мож-но упустить из вида существенные способности, по которым все работ-ники данной специальности отличаются от других. Следовательно, необ-ходимо также рассматривать те способности, по которым эти работникипревосходят остальных как группа, даже когда индивидуальные различиянастолько малы, что они не влияют на успешность выполнения работы.Метод системы нормативных резуль-татов предпочтительней примененияуравнения регрессии в тех случаях, "когда результаты теста связаны с Эффективность нормативных рельта-критерием нелинейной зависимостью. ,ии"ЇнринТ.Более того, поскольку в ряде спе- пригодных работниц (United Statesциальностей группы работников слиш- Department of Labor, 1958, p. 14).ком однородны по некоторому клю- _______________________,чевому качеству, то диапазон их число работнициндивидуальных различий слишком TST"" ЇЇЇмал, чтобы корреляция между ре- недостигших превысив- — " нормативно- шипзультатами теста и критерием была го норма-пыашллй результата тивныйЗНаЧИМОИ. результат Наиболее сильный аргумент впользу использования системы нор- Пригоден 30 120 150мативных результатов, а не ура в- Непригоден 30 и нения регрессии связан с пробле- "Ї_______________________мой компенсированной квалификации.При применении уравнения регрессиииндивид, показавший слабый результат по одному тесту, может в целомпоказать проходной результат, если он особенно хорошо справился с ка-ким-либо другим тестом батареи. Заметная недостаточность в одном на-выке может, следовательно, быть скомпенсирована необычными способ-ностями в другой сфере. Однако определенные виды деятельностипредполагают развитие каких-то существенных навыков, без всякой за-мены их другими. В таких случаях индивид с недостаточно развитым су-щественным навыком потерпит неудачу, независимо от его способностейв других областях. Оперный певец, например, должен хорошо различатьвысоту тона, независимо от того, насколько он удовлетворяет другимтребованиям профессии. Точно так же оператору звукоулавливающейустановки подводной лодки необходимо иметь хорошие аудиометриче-ские данные. Те же, кто не удовлетворяет этому требованию, не могутрассчитывать на успех, несмотря на превосходные технические способно-сти, общую интеллектуальность и т.д. В случае использования системынормативных результатов лица, не обладающие каким-либо суще- —_….".. "" " ", п"""р "р Дунут ппиняты. тогда как урав-170 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯнение регрессии не исключает возможности их приема. Но когда зависимость между тестами и критерием линейна и адди-тивна, уравнение регрессии дает больший процент правильных решений,чем система нормативных результатов. Еще одним важным достоин-ством уравнения регрессии является его свойство давать количественнуюоценку критериальных показателей индивида, что позволяет сравниватьрезультаты всех испытуемых. В системе нормативных результатов ника-кого различения испытуемых, кроме как на принятых и не принятых,провести нельзя. Во многих ситуациях наилучшим методом является со-четание обеих процедур. Вначале с помощью системы нормативных ре-зультатов отсеиваются те, которые не удовлетворяют необходимым тре-бованиям, а затем для оставшихся по уравнению регрессии вычисляютсяожидаемые критериальные показатели. Если требования к лицам, выпол-няющим определенную работу, известны достаточно хорошо, то предва-рительное просеивание можно произвести, основываясь на одном-двухсущественных навыках, а затем применить уравнение регрессии.ПРИМЕНЕНИЕ ТЕСТА ПРИ РАСПРЕДЕЛЕНИИ Природа распределения. Психологические тесты могут использо- ваться при отборе, а также при определении места или распределении. При отборе каждый индивид либо принимается, либо не принимается. Решения о принятии в колледж, на работу, о направлении новобранца в офицерскую школу-все это примеры отбора. Когда отбор производит- ся в несколько этапов, начальный период называется отсеиванием, а тер- мин сохраняется за более интенсивными заключительными ста- диями. Слово отсеивание может также означать быстрый и приблизи- тельный отбор, даже если отбор на этом и заканчивается. Определение места и распределение отличаются от отбора тем, что их осуществление не связано с выбыванием кого бы то ни было из ис- ходной группы. Все ее члены распределяются так, чтобы итог был на- илучшим. В случае определения места решение может основываться на единственном показателе. Его можно получить с помощью одного те- ста-скажем, теста знаний по математике. Если применяется батарея те- стов, ту же роль может сыграть показатель, вычисленный с помощью уравнения регрессии. Примерами определения места могут служить: рас- пределение первокурсников по различным группам для изучения матема- тики, производимое по данным теста уровня знаний; назначение приня- тых на канцелярскую работу на должности, требующие различного профессионального уровня компетентности и ответственности; помеще- ние душевнобольных в то или иное отделение. Очевидно, что в каждом из этих решений применяется лишь один критерий и определение места зависит от положения результатов индивида на единственной шкале-пре- дикторе. В отличие от определения места при распределении во внимание принимаются два критерия и более. Так, в армии распределение-одна из главных проблем, поскольку каждый новобранец должен быть направлен туда, где его служба будет наиболее эффективной. Распределение осу- ществляется также в промышленности, когда вновь нанятые сотрудники> направляются на подготовку для последующего выполнения разного ро- да работ. Еще одним примером может СЛУЖИТЬ к-онсутттиппнянио vua-171 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯщихся по вопросу о выборе колледжа (естественнонаучного, гуманитар-ного и т.д.) или сферы интересов. Такое консультирование в сущностиосновано на распределении, поскольку консультируемому сообщаютсяего шансы на успех в разных областях деятельности. Клиническая диаг-ностика также чем-то напоминает распределение: главной целью каждо-го диагноза является решение о наиболее пригодном курсе лечения. Если определение места может осуществляться при помощи одногоили нескольких предикторов, то распределение предполагает системупредикторов, валидность которых по каждому критерию устанавливает-ся отдельно. Уравнения регрессии для классификационной батареи (пре-диктора) при этом также составляются для каждого критерия. Однитесты могут быть представлены во всех уравнениях, хотя с разными ве-сами, другие фигурируют лишь в одном или двух, а в остальных уравне-ниях их веса равны или близки к нулю. Иными словами, комбинация те-стов батареи и их веса меняются в зависимости от критерия. В качествепримера сошлемся на классификационную батарею, разработанную во-енно-воздушными силами США для распределения персонала на раз-личные курсы специальной подготовки (Р.Н. Dubois, 1947). Эта батарея,включающая как тесты типа , так и тесты с прибора-ми, предусматривает получение станайнов для пилотов, штурманов, бом-бардиров и других военно-воздушных специальностей. Установив оце-ночные значения критериальных показателей по различным уравнениямрегрессии, можно, например, сказать, что данный индивид больше под-ходит для роли пилота, чем штурмана. Максимальное использование способностей. Дифферен-циальное прогнозирование критерия с помощью батареи тестов позво-ляет полнее использовать возможности людей, чем при примененииодного общего теста или составного показателя, вычисляемого по урав-нению регрессии. Как видно из таблиц Тейлора-Расселла и из другихпримеров данной главы, эффективность любого теста в отборе персона-ла зависит от индекса отбора. При распределении этот индекс имеетменьшее значение, и, следовательно, на каждую работу можем отбиратьболее квалифицированных людей. Если из 100 поступающих на работупредполагается принять 10 человек по каждой из двух специальностей,то при использовании отдельных предикторов для каждой из них индексотбора будет равен 10Ї". Если же используется общий предиктор, напри-мер тест общего интеллекта, то индекс отбора уже составит 20Їо, по-скольку в этом случае предстоит отобрать 20 человек. Если же предикторы обеих специальностей тесно коррелированы ме-жду собой, так что некоторые из претендентов могли быть приняты какна одну, так и на другую работу, то использование отдельных пре-дикторов дает значительный выигрыш. Эта ситуация отраженав табл. 18, где приведены средние стандартные критериальные показате-ли работников, принятых на каждую из двух работ при помощи отбора(единственный предиктор) и стратегии распределения с двумя различны-ми предикторами, валидность каждого из которых определена относи-тельно собственного профессионального критерия. Если бы работникиотбирались наугад, средний стандартный показатель в этой шкале былбы равен нулю. Это имело бы место, если индекс отбора для каждойспециальности составлял бы 50Їо, так что все 100Їо подавших заявлениебыли бы приняты. Заметим, что даже в этих условиях, как видно из ниж—.-. "-,""" "д""", """"ддд д некоооелиоующих предикторов172ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯТаблица 18Средние значения стандартного критериальногопокагателя лиц, распределенных по двум спе-циальностям с помощью стратегий отбора и рас-пределения (N.E. Brogden, 1951, р. 182)Индекс отбора для каждой специальности (в)Отбор по одномуКлассификация: два предиктора с коэффициентами взаимокорреляциитору0 0,200,400,60 0,80привело бы к повышению среднего уровня выполнения работы, он под-нялся бы на 0,31 (почти на 1/Зст выше случайного уровня). С ростом кор-реляции между предикторами эффективность отбора работников падает,но все еще остается выше случайного уровня даже при корреляции 0,80.При более низких значениях индекса отбора, разумеется, можно набратьболее квалифицированный персонал. Однако, как видно из табл. 18,средний уровень выполнения работы при любом значении индекса отбо-ра остается выше для принятых при помощи стратегии распределения,чем методом отбора. Практической иллюстрацией преимуществ стратегий распределенияслужит использование при распределении персонала по военным спе-циальностям в армии США показателей областей пригодности(M.H.Maier, E.F.Fuchs, 1972). Каждая область пригодности соответ- ствует группе армейских про- фессий, для которых требуются примерно сходные способно- сти, знания и интересы. Клас- сификационная батарея со- стоит из 13 тестов, каждой области пригодности отвечает от трех до пяти из них. На рис. 20 приведены результаты исследования 7500 доброволь- цев, зачисленных на военную службу, в котором сравнива- лась эффективность использо- вания показателей области пригодности и общего теста отсеивания, так называемого квалификационного теста во- оруженных сил (AFQT). Отме-тим, что только 56Їо этой группы достигли или превысили по AFQT 50-йпроцентиль, тогда как 80Ї показали средний или более высокий стан-дартный показатель соответствующей области пригодности. Такимобразом, когда индивиды отбираются на основе способностей, отвечаю-щих той или иной деятельности, громадное большинство выполняет еене ниже среднего значения для всей выборки. Казалось бы, невозможнопочти каждому быть выше среднего. Однако это достигается благодарятому, что почти каждый хотя бы в чем-то превосходит средний уровень. Аналогичное явление было продемонстрировано на совершенноиной популяции-одаренных детях (D.H.FeIdman, J.C.Bratton, 1972).В исследовательских целях 49 детей из двух пятых классов оценивалисьпо 19 показателям, до этого использовавшимися для отбора одаренныхучеников. Среди этих показателей были суммарные результаты группо-вого теста интеллекта и батареи достижений в обучении, тесты от-дельных способностей и конкретных учебных предметов, скажем чтенияи арифметики, тесты творческого мышления, оценки по музыке и рисова-нию, отзывы учителей о наиболее и детяхв классе. Когда по каждому критерию было выделено по пять лучшихучеников, они вместе составили 92"д группы. Тем самым еще раз былопоказано, что применение многомерных критериев позволяет установить50,881,031,021,011,000.96100,700,870,860,840,820,79200,480,680,670,650,620,59300,320,550,530,500,460,43400,180,420,410,370,340,29500,000,310,280,250,220,17173 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ Дифференциальная валидность. При оценке классификацион-ной батареи большое значение придается ее дифференциальной валидно-сти по отдельным критериям. Цель такой батареи-предсказать индиви-дуальные различия в выполнении двух и более видов работ, в окончанииспециализированных курсов подготовки и других критериальных ситуа-циях. Тесты, из которых составляются классификационные батареи, дол-жны для разных критериев обладать весьма различными коэффициента-ми валидности. Применительно к проблеме распределения, скажем, подвум критериям идеальный тест должен иметь высокую корреляциюс одним критерием и нулевую (или, еще лучше, отрицательную)-с дру-гим. Тесты общего интеллекта сравнительно мало пригодны для батарейклассификации, поскольку они примерно одинаково прогнозируют успехв большинстве областей деятельности. Поэтому их корреляция с подле-жащими дифференциации критериями будет более или менее одинако-вой. Высокие показатели индивида, справившегося с таким тестом, озна-чали бы его успех в любой области, и нельзя было бы сказать, где онокажется большим. В классификационной батарее должно быть несколь-ко тестов, являющихся хорошими предикторами критерия А и плохимипредикторами критерия В, а также тесты-хорошие предикторы для В,но плохие для А. Для отбора тестов с целью максимизации дифференциальной валид-ности классификационной батареи разработаны специальные статистиче-ские процедуры (H.E.Brogden, 1951; P.Horst, 1954; W.G.Mollenkopf,1950e; R.L. Thomdike, 1949). Однако когда число критериев больше двух,проблема сильно усложняется, и для таких случаев нет чисто аналитиче-ского решения. На практике применяются различные эмпирические под-ходы, чтобы приблизиться к нужной цели. Множественные дискриминантные функции. Проблема рас-пределения может решаться также при помощи множественнойРис, 20. Процент получивших результаты выше среднего в тесте AFQT и в соот-ветствующих областях пригодности по армейской квалификационной батареи в выборкеиз 7500 зачисленных на военную службу добровольцев, С любезного согласия Дж. Э. Ухлейнера44% ниже среднего56% выше среднего50-й процентильили выше по AFQT20% ниже среднего80% выше среднегостандартный показатель100 или выше длясоответствующейобласти пригодности174 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯдискриминантной функции (J.W. French, 1966). Существенно, что приме-няемая в этом случае математическая процедура позволяет определить,насколько индивидуальные результаты по всей серии тестов прибли-жаются к типичным результатам лиц данной профессии, прошедшихопределенный курс обучения, с данным психиатрическим синдромоми т.д. Индивид затем может быть отнесен к той группе, к которой он посвоим показателям оказывается ближе всего. Если уравнение регрессиипозволяет предсказать степень успеха в каждой области, то множествен-ная дискриминантная функция просто относит испытуемых к одной кате-гории. Принадлежность к группе-единственный критерий, учитываемыйданным методом. Дискриминантная функция применяется в случае, ког-да количественная критериальная мера невозможна и устанавливаетсятолько принадлежность к той или иной группе. Валидность некоторыхтестов, например, устанавливается проведением их с людьми разных спе-циальностей, а в пределах каждой из них степень профессионального ма-стерства никак не измеряется. Дискриминантная функция также применима, если связь между кри-терием и одним или несколькими предикторами нелинейна. Так, для не-которых свойств личности существует известный оптимум, отвечающийданной профессии. Лица с большей или меньшей выраженностью такогосвойства окажутся в невыгодном положении. Вполне допустимо, напри-мер, что продавец с умеренным стремлением к лидерству, по всей ве-роятности, будет преуспевать, причем его шансы на успех снижаются помере удаления его тестовых результатов в любую сторону от какого-тооптимального значения. Дискриминантная функция как раз и позволяетотбирать лица, чьи результаты располагаются в пределах этого оптиму-ма, тогда как уравнение регрессии работает по принципу, чем выше зна-чение тестового показателя, тем благоприятней прогнозируемый резуль-тат. Разумеется, при негативной корреляции между предиктороми критерием будет действовать обратный принцип. Однако в этом слу-чае не существует прямого способа получить максимум для промежуточ-ного значения показателя теста. Хотя во многих случаях оба метода да-дут одинаковые результаты, существуют ситуации, когда один и тот жеиндивид будет отнесен этими методами к разным категориям. Для ос-новных целей тестирования применение уравнения регрессии более эф-фективно, однако при некоторых обстоятельствах для получения необхо-димой информации лучше подходит дискриминантная функция.СТАТИСТИЧЕСКИЙ АНАЛИЗ СИСТЕМАТИЧЕСКОЙ ОШИБКИ ТЕСТАПроблема. Если хотят использовать тест, чтобы предсказать результатв каких-то будущих обстоятельствах, скажем будущую успеваемость илиуровень выполнения какой-то деятельности, то такой тест должен иметьвысокую прогностическую валидность относительно конкретного крите-рия. Это требование обычно упускают из вида при разработке так назы-ваемых культурно безразличных тестов (см. гл. 12). Стремясь включитьв такие тесты только функции, общие для разных культур или субкуль-тур, нередко прибегают к содержанию, не имеющему особого отношенияк какому-либо из прогнозируемых критериев. Лучшим решением былобы использовать содержание, непосредственно связанное с критерием,а затем исследовать возможное нттияние мппрчпатпппп чч попёрт,, -т-п-тт 175 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯтивные результаты могут меняться в зависимости от прошлого опытаобследуемого. Эти значения, следовательно, необходимо проверить наподгруппах, для которых следует ожидать подобного эффекта. Заметим, однако, что прогностические характеристики тестовых ре-зультатов меньше зависят от различий в культурах, если тест внутреннесвязан с критериальной деятельностью. Если вербальный тест исполь-зуется для прогноза невербальной деятельности, то в группе, принадле-жащей к одной культуре, валидность может оказаться высокой в силухарактерных для этой культуры традиционных ассоциаций. Между темдля группы с иными культурными традициями тест не будет иметь ника-кой прогностической силы. Напротив, тест, который непосредственностроится на элементах критериального поведения или измеряет тре-буемые навыки, вероятно, сохранит свою валидность в различныхгруппах.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Начиная с середины 60-х гг. происходит быстрое накопление данных,касающихся влияния этнического фактора на валидность теста. В этойсвязи в , изданном Комиссией использования равных про-фессиональных возможностей, прямо говорится: .Функции применения раздельной валидации обсуждались также в докла-дах Американской психологической ассоциации о тестировании мень-шинств в образовании и при найме на работу (American Psycho-logical Association.., 1969; T.A.Cleary, L.G.Humphreys, S.A.Kendrick,A. Wesman, 1975). Большинство исследований, проведенных на сегодняш-ний день, касалось американских негров, и лишь в некоторых из них за-трагивались другие этнические меньшинства. Изучавшиеся проблемы но-сят общее название . В данномконтексте термин употребляется в статистиче-ском смысле, т. е. как нечто противоположное случайной ошибке. В этомсмысле говорят о смещенной и случайной выборке. Главные вопросы,возникающие в связи с систематической ошибкой теста, относятсяк коэффициенту валидности (ошибка наклона) и к соотношению междугрупповыми значениями по тесту и критерию (ошибка интерцепта). Систематическая ошибка наклона. Чтобы уяснить себе спе-циальные аспекты систематической ошибки теста, рассмотрим сначаладиаграмму рассеяния, или двумерное распределение (см. рис. 8,9, 10в гл. 5). Правда, в данном случае по горизонтальной оси (X) отклады-ваются результаты теста, а по вертикальной (У)-критериальные показа-тели: средняя успеваемость в колледже или уровень выполнения деятель-ности. Напомним, что , изображающие положение индивидаотносительно Х и Y, в своей совокупности показывают направлениеи общую величину корреляции между двумя переменными. Линия, ап-проксимирующая положение , есть линия регрессии, а ее урав-нение есть уравнение регрессии. В данном случае оно содержит толькоодин предиктор. Множественные уравнения регрессии, о которых гово-рилось выше, содержат несколько предикторов, но принцип тот жесамый. Когда тестовые и критериальные показатели выражены в стан-дартных единицах с о = 1,00, наклон линии регрессии равен коэффициен-ту коппелянии. Поэтому если коэффициенты валидности теста для двух176ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯошибкой наклона. На рис. 21 дается схематическое изображение линийрегрессии для нескольких двумерных распределений. Эллипсы предста-вляют области расположения для каждой выборки. Случай1 соответствует двумерным распределениям двух групп с различнымисредними значениями предиктора, но с общей линией регрессии междупредиктором и критерием. В данном случае систематическая ошибка на-клона отсутствует, поскольку любому тестовому показателю в обеихгруппах соответствует один и тот же показатель критериальный. СлучайРис. 21. Системотические ошибки наклона и интерсепта в прогнозируемых критериаль-ных показателях.Эллипсами отмечены области, в которых располагаются тестовые показатели членовкаждой группы соответственно критериальному выполнению этих же индивидов.Случаи 1-3 взяты из статьи М. Гордона (М. A. Gordon, 1953, р. 3)Случай 1Тестовый показатель Случай 3Тестовый показательТестовый показательТестовый показатель177 ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ2 иллюстрирует ошибку наклона с более низким коэффициентом валид-ности для группы меньшинств. При сравнительной валидации необходимо соблюдать определенныемеры предосторожности. Например, использование субъективных оценокв роли критерия может привести к результатам, отличающимся от тех,которые будут иметь место при применении более объективных крите-риев (A. R. Bass, J.N.Turner, 1973; J.T.Campbell, L. A. Crooks,M.H. Mahoney, D.A. Rock, 1973; J.J. Kirkpatrick, R.B. Ewen, R.S. Battett,R. A. Katzell, 1968). Ошибки могут возникнуть также, если сравниваютсяэтнические выборки, сформированные из людей различной социальнойи профессиональной принадлежности. В таких случаях, по всей вероятно-сти, смешиваются этнические и социально-профессиональные факторы(J.J. Kirkpatrick et aL, 1968). Трудности часто вытекают из того, что число испытуемых значи-тельно меньше в выборке меньшинств, чем в выборке большинства. Приэтих условиях один и тот же коэффициент валидности может оказатьсястатистически значимым для выборки большинства и незначимым длявыборки меньшинств. Для группы в 100 человек, например, коэффициенткорреляции 0,27 значим на уровне 0,01, тогда как при 30 испытуемых тотже коэффициент далек от минимальной значимости даже на уровне 0,05.По этой причине следует определять не значимость валидности раздель-но для каждой группы, а оценивать значимость разности между двумякоэффициентами валидности (Standards…, 1974, ?9). В противном случаеможно легко доказать, что тест валиден, скажем, для белых и не валидендля негров. Для этого требуется лишь, чтобы выборка белых была до-статочно велика, а выборка негров-достаточно мала! Желательно по-этому проверить на другой паре независимых выборок, действительноли валидность для первой группы больше, чем для второй. Систематическая ошибка интерцепта. Даже когда тест обла-дает одинаковой валидностью в двух группах, может иметь место систе-матическая ошибка интерцепта. Интерцепт линии регрессии-это точка,в которой она пересекает вертикальную ось. Систематическая ошибкаинтерцепта означает, что тест систематически завышает или занижаетзначение критерия для частной группы. Вернемся к рис. 21. В случае1 выборки меньшинства и большинство имеют идентичную регрессию.В этих условиях нет ни ошибки наклона, ни ошибки интерцепта, хотягруппы значимо отличаются друг от друга и по среднему результату те-ста, и по критериальному показателю. В случае 3 линии регрессии двухгрупп имеют один и тот же наклон, но разные интерцепты. Здесьу группы большинства {В) более высокий интерцепт, чем у группы мень-шинства {А), т. е. линия регрессии большинства пересекает ось Y выше,чем линия регрессии меньшинства. Несмотря на то что коэффициент ва-лидности для обеих групп один и тот же, тестовый результат Х будетдля них соответствовать различным критериальным показателям — Уди YB. Таким образом, один и тот же тестовый результат для этих группимеет разное прогнозирующее значение. В этих обстоятельствах среднийпоказатель большинства, как и в случае 1, превышает средний показа-тель меньшинства как по тесту, так и по критерию. Но ввиду различияинтерцептов применение линии регрессии большинства привело бы к заамшснию кпитепиальных показателей членов группы меньшинства. Если178 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯего применение поставит группу меньшинства в более благоприятные ус-ловия. Систематическая ошибка интерцептаозначает, что группа с болеевысоким интерцептом находится в менее выгодных условиях. Психологи, которые озабочены возможной неблагоприятностью те-стов для меньшинств, имеют в виду случай 4 из рис. 21. Заметим, чтоздесь большинство показывает более высокие результаты в тесте, нои большинство, и меньшинства равны по критерию. Теперь уже у мень-шйнств более высокий интерцепт. Отбор всех претендентов с помощьюпроходного минимума, установленного для большинства, будет озна-чать, что меньшинство попадает в неблагоприятные условия. В этих ус-ловиях использование линии регрессии большинства для обеих группприводит к недооценке критериальных показателей членов группы мень-шинства. Такая ситуация, по-видимому, может возникнуть, когда значи-тельная часть дисперсии теста безотносительна к прогнозируемому кри-терию и определяется функциями, в которых большинство превосходитменьшинство. Полный анализ выполняемой работы и удовлетворитель-ная валидность теста являются гарантией против такого рода явлений. Математические расчеты показывают (R.R. Reilly, 1973), что случай3 имеет место, если обе группы отличаются по третьей переменной (на-пример, по социокультурным традициям), которая положительно корре-лирует как с тестом, так и с критерием. В этих условиях тест дает завы-шенный прогноз для группы меньшинства и использование одногои того же нормативного результата для обеих групп ставит меньшин-ство в привилегированное положение. Этот теоретический результатподтвердился эмпирически. Пользуясь преимущественно статистическойпроцедурой, разработанной X. Гулликсеном и С. С. Уилксом(Н. Gulliksen, S.S. Wilks, 1950), ряд исследователей выявили наличие си-стематической ошибки интерцепта при предсказании успеваемости в кол-ледже (Т. A. Cleary, 1968; G. Temp, 1971), на юридическом факультете(R.L. Linn, 1975), успешности выполнения программы подготовки армей-ских и военно-воздушных сил (М.А. Gordon, 1953; М.Н. Maier,C.W. Shore, R. Marion, 1972) и многочисленных производственных обя-занностей (J.T.Campbell et aJ" 1973; D.L. Grant, D.W. Bray, 1970;W. W. Ruch, 1972). Интересно отметить, что те же результаты были получены при срав-нении групп, распределенных по образовательному или социоэкономиче-скому уровню. Армейская классификационная батарея завышала прогно-зируемое выполнение программы обучения военной специальности длятех, кто был отсеян из старших классов школы, и занижала его для вы-пускников колледжей (М.Н. Maier, 1972). Заниженный прогноз по резуль-татам тестов способности к обучению имел место для студентов, у ко-торых профессиональное положение отцов было достаточно высоко,и завышенный прогноз-для студентов, чьи отцы занимали более низкоепрофессиональное положение (V. Н. Hewer, 1965). Во всех этих работахсравнение групп с высокими и низкими результатами теста либо вообщене обнаруживало разницы в интерцептах, либо выявляло в них неболь-шую систематическую ошибку, ставившую группу с более низкими пока-зателями в несколько лучшие условия. Проблема систематической ошибки теста сложнее, чем она можетпоказаться при столь упрощенном изложении. Это область, в которую,не имея серьезных статистических знаний, следует вторгаться с осторож-ностью. Некоторые специалисты предложили птг"" -179 АНАЛИЗ ЗАДАНИЙния систематической ошибки теста, основанные не на прогнозируемыхкритериальных показателях, а на проценте лиц в группах меньшинстви большинства, превосходящих нормативные показатели теста и крите-рия (N.S. Cole, 1972; R.L. Linn, 1973; F.L.Schmidt, J.E. Hunter, 1974;R.L. Thorndike, 1971). Но другие исследователи, проводя сравнительнуюоценку нескольких моделей систематической ошибки теста и поставивпод сомнение концептуальную и методическую обоснованность этихпроцедур, сформулировали общую математическую модель отбора пер-сонала, инвариантного относительно культуры (A. L. Gross, W.H.Su,1975; N.S.Petersen, 1974; N.S.Petersen, M.R.Novick, 1976). На основетеории решений в модели объединяются данные вероятности различныхисходов и субъективные оценки относительной полезности каждого изних (принятие ненужного работника, непринятие нужного работникаи т.д.). Кроме того, доказывается, что не существует единой оптималь-ной модели беспристрастного отбора, а предлагаемая модель лишь поз-воляет применительно к определенным условиям сформулировать сгра-тегию решений, максимизирующую ожидаемую общую полезностьсообразно конкретным целям тестирования и оценкам полезности раз-личных исходов. Исследования в области систематической ошибки теста как стати-стическими методами, так и экспериментально показали, что на совре-менном уровне знаний введение различных нормативных результатовдля разных подгрупп популяции не вполне оправдано. Статистическиепоправки к показателям тестов, нормативным результатам или прогно-стическим формулам вряд ли много дадут для устранения социальнойнесправедливости. Более конструктивны другие подходы, уже обсуждав-шиеся в этой главе. Среди них можно назвать комплексные тесты спо-собностей и стратегии распределения, позволяющие полнее использоватьразные структуры способностей, формируемые несходными культурами.То же можно сказать и об адаптивных программах типа индивидуализи-рованного обучения. Чтобы такие программы максимально соответство-вали индивидуальным особенностям личности, тест должен как можноточнее определять уровень развития необходимых способностей.ГЛАВА 8. АНАЛИЗ ЗАДАНИЙЗнакомство с основными понятиями и методами анализа заданий, а так-же с другими фазами построения теста может оказаться полезным приоценке опубликованных тестов. Помимо этого анализ заданий имеетпрямое отношение к составлению неформальных локальных тестов типаподготовленных учителем для работы в классе опросов или конт-рольных работ. Некоторые из рассматриваемых ниже общих принциповподготовки эффективных заданий, а также простые статистические при-емы их анализа послужат совершенствованию предъявляемых в классетестов и могут быть применены даже к небольшим группам. В заданиях может анализироваться как их качественная сторона, т. е.их содержание и форма, так и количественная, т.е. их статистическиесвойства. Качественный анализ включает рассмотрение валидности посодержанию (см. гл. 6) и оценку эффективности письменных заданий,п кптппой пойдет оечь в гл. 14. Количественный анализ означает180 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯность и надежность теста в конечном счете зависят от свойств заданий,и их предварительный анализ позволяет повысить эти свойства теста.Устраняя, добавляя, заменяя или пересматривая отдельные задания,можно усовершенствовать тест в целом. Анализ заданий позволяет сократить тест, повышая в то же времяего валидность и надежность. При прочих равных условиях болеедлинный тест валиднее и надежнее, чем более короткий. Влияние увели-чения и сокращения теста на коэффициент надежности обсуждалосьв гл. 5, где также была приведена формула Спирмана-Брауна для оцен-ки этого влияния. Согласно этой формуле, надежность теста меняется,когда изъятые задания эквивалентны оставшимся, а вновь вводимые-уже имеющимся. Аналогичные изменения валидности имеют место, когдаотбрасываются или добавляются задания, обладающие эквивалентнойвалидностью. Однако такие оценки влияния увеличения или сокращениятеста на его надежность и валидность действительны только для случай-ного отбора заданий, проводимого без их анализа. Когда же сокращениетеста идет за счет устранения наименее удачных заданий, результатомможет быть повышение его валидности и надежности.ТРУДНОСТЬ ЗАДАНИЙПроцент справившихся с заданием. Чаще всего трудность заданияопределяется процентом испытуемых, давших правильный ответ. Чемлегче задание, тем выше этот процент. Слово, значение которого пра-вильно указало 70Їо выборки стандартизации (р = 0,70), считается болеелегким, чем слово, которое знают только 15Їо (р == 0,15). Обычно зада-ния располагаются в порядке нарастания трудности, так, чтобы обсле-дуемый начинал с относительно легких заданий и затем переходил ковсе более сложным. Такое расположение дает индивиду больше уверен-ности и снижает вероятность того, что он, затратив слишком многовремени на задания, которые для него слишком трудны, упустит из видате, которые ему по силам. В процессе составления теста задания подбираются так, чтобы онисоответствовали определенному уровню трудности. Большинство стан-дартизованных тестов способностей предназначены для как можно болееточной оценки индивидуального уровня развития способности, и еслив таком тесте никто не может справиться с заданием, то оно оказываетсяпросто лишним грузом. То же можно сказать и о заданиях, с которымисправляются все. Ни те, ни другие не несут никакой информации об ин-дивидуальных различиях. А поскольку такие задания не влияют на ва-риативность тестовых результатов, они ничего не прибавляют к надеж-ности или валидности теста. Чем ближе трудность задания к 1,00 илик 0, тем менее дифференцированную информацию можно получить с егопомощью. И наоборот, чем ближе уровень трудности к 0,50, тем вышеего разрешающая способность. Предположим, что из 100 испытуемых 50справились и 50 не справились с заданием {р == 0,50). Это задание позво-ляет нам провести попарное различие между каждым, кто справилсяи кто не справился с заданием, что дает 50 х 50 = 2500 сравнений илибитов различительной информации. При р = 0,70 мы будем иметь 70 х х 30 == 2100 битов информации, при р == 0,90-90 х 10 = 900 битов,а ппи п == I Oh-inn у п-т- n To " .-..—- — —-181АНАЛИЧ ЗАДАНИЙ Таким образом выходит, что для максимальной дифференциации всезадания должны быть на уровне трудности 0,50. Решение, однако, ослож-няется тем фактом, что в пределах одного теста задания могут коррели-ровать друг с другом. Чем однороднее тест, тем выше эти корреляции.В экстремальной ситуации, если все задания скоррелированы и имеютуровень трудности 0,50, то одни и те же 50 испытуемых справятсяс каждым заданием. В итоге одна половина обследованных покажетIOOo-ный результат, а результатом другой половины будет ноль. Ввидувзаимокорреляции заданий лучше всего выбирать их так, чтобы уровеньтрудности отдельных заданий имел некоторый умеренный разброс, нов среднем составлял 0,50. Интервальные шкалы. Процент испытуемых, справляющихсяс заданием, соответствует степени его трудности в порядковой шкале,т.е. правильно указывает ранговый порядок, или относительную труд-ность заданий. Если, к примеру, процент справившихся с заданием 1, 2и 3 соответственно равен 30, 20 и 10, то мы можем заключить, что зада-ние 1-самое легкое, а задание 3-самое трудное из них. Но мы не мо-жем утверждать, что различие в трудности между заданиями 1 и 2 то же,что и между заданиями 2 и 3. Равные разности процентов будут соответ-ствовать равным различиям трудности только для прямоугольного рас-пределения, т.е. для равномерного распределения случаев по всему диа-пазону. Эта проблема аналогична той, с которой мы встретились в свя:чис процентилями, также основанными на процентах случаев. Напомним(см. гл. 4), что процентили не являю юя равными единицами и меняклсяпо величине от центра к краям распределения (рис. 4, гл. 4). Если исходить из нормального распределения свойства, измеряемо-го заданием, то уровень трудности можно чьи. .лить в иервальнойшкале с фиксированной единицей, пользуясь м>я> распределение способности.— распределение гестовых результатовВ. Сосредоточение результатов на верхнем конце шкалы184 ПРИНЦИПЫ ПСИХОЛОГИЧР-СКОГО ТЕСТИРОВАНИЯзадания, первоначальные задания изымаются или пересматриваются, ме-няется их положение в шкале трудности, некоторым из пересмотренныхответов приписываются новые веса. В итоге наиболее частым становитсярезультат, близкий к 50Їо от максимального количества очков. Тому, ктоне знаком с методами построения психологического теста, 50Їо-ный ре-зультат может показаться поразительно низким и иногда либо слышатсявозражения против якобы слишком низкого проходного минимума оч-ков, либо делается вывод, будто протестированная группа оказалась ис-ключительно слабой. Несостоятельность подобных мнений сразу стано-вится очевидной, если принять во внимание процедуру разработкипсихологического теста, который сознательно конструируется и коррек-тируется с таким расчетом, чтобы среднее количество правильно выпол-ненных заданий составляло приблизительно 50Їо от общего их числа.Только таким путем удается добиться максимальной дифференциацииспособностей испытуемых на всех полученных в тесте уровнях. При сред-нем, приблизительно 50Їо-ном результате создается максимальная воз-можность получить нормальное распределение и широкий разброс инди-видуальных показателей Уровень трудности заданий, составляющих тест, определяет не толь-ко средний уровень трудности теста, его минимальную и максимальнуютрудности, но и разброс тестовых результатов. Как было сказано выше,максимальный разброс полного результата теста имеет место, когдатрудность заданий в основном близка к р = 0,50. Тот факт, что подоб-ный отбор заданий обеспечивает лучшую дифференциацию, чем в случаеширокого разброса уровней трудности, поясняет рис. 25. Три распреде-ления суммарных результатов, приведенные на этом рисунке, полученыР. Ибелом (R.L. Ebel, 1965) для трех тестов, состоявших каждый из 16заданий. Задания для теста 1 были отобраны так, чтобы они группирова-лись вблизи уровня трудности 0,50. В тесте 2 трудность заданий былараспределена по всему диапазону значений р. В тесте же 3 использова-лись задания, для которых значения р были расположены вблизи краевэтого диапазона. Отметим, что наиболее широкий разброс результатовтеста был получен при р, сосредоточенных вокруг 0,50. Коэффициентнадежности в этом случае оказался максимальным, тогда как в случаетеста с крайними значениями трудности заданий этот коэффициент былчрезвычайно низким. Эти примеры приведены только в целях иллюстра-ции, но к аналогичным выводам нас приводит и более специальный ана-лиз этой проблемы с применением статистических и экспериментальныхсредств исследования (L.J. Cronbach, W.A. Warrington, 1952; F.M. Lord,1952; F.M. Lord, M.R. Novick, 1968). Связь между трудностью задания и назначением теста.Стандартизованные психологические тесты в целом строятся так, чтобыобеспечить наибольшую дифференциацию испытуемых на всех уровнях. В действительности нормальная кривая обеспечивает более тонкое различение накраях, чем в центре шкалы. Равная разрешающая способность во всех точках шкалы име-ла бы место при прямоугольном распределении. Однако нормальная кривая предпочти-тельнее для последующего статистического анализа результатов, поскольку многие суще-ствующие статистические методы основываются на распределении, близком к нормально-му. По этой и другим причинам составители большинства тестов, предназначенных дляобщего пользования, вероятно, будут еще какое-то время ориентироваться на нормаль-185АНАЛИЗ ЗАДАНИЙНаше обсуждение трудности заданий до сих пор относилось к тестамименно такого рода. Однако при построении тестов специального назна-чения выбор трудности заданий, так же как и оптимальная форма ихраспределения, зависит от типа необходимого различения. Так, тесты,предназначенные для отсеивания испытуемых, должны содержать зада-ния, для которых значения р весьма близки к установленному индексуотбора (F.M. Lord, 1953). Например, чтобы отобрать верхние 20"/огруппы, лучше всего пользоваться заданиями с р, приблизительно рав-Рис. 25. Соотношение между распределением результатов теста и распределениемзаданий по трудности (R. L. Ebel, 1965, р. 363)186 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯной 0,20. Поскольку при отсеивании никакой дифференциации испы-туемых, как отсеянных, так и оставшихся, не требуется, время тестирова-ния используется наиболее эффективно, если задания по трудностигруппируются вблизи проходного результата. Отсюда, например, выте-кает, что если тест предназначен для отбора стипендиатов, то его зада-ния должны быть значительно труднее среднего задания для да "on по-пуляции.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Аналогично, если отбираются плохо успевающие ученики длякоррекционного обучения, задания желательно выбирать намного легчеобычных. Еще одним примером может служить национальная программаоценки прогресса в образовании (F.B. Womer, 1970). Эта программа за-думывалась как попытка получить непосредственные сведения о качествеобразования в Соединенных Штатах и предусматривала обследованиетщательно подобранных репрезентативных выборок популяции на четы-рех возрастных уровнях: 9, 13, 17и 26-35 лет. В программе никак не от-ражались индивидуальные достижения, ее целью было описать знания,понимание и навыки, свойственные американцам указанных возрастныхкатегорий. В рамках каждой области содержания для каждой возрастнойгруппы нужно было получить ответы на следующие три вопроса: (1) Чтознают почти все американцы? (2) Что знает типичный, или средний, аме-риканец? (3) Что знают наиболее способные американцы? Чтобы отве-тить на эти вопросы, были подготовлены упражнения трех уровнейтрудности: одну треть составляли легкие упражнения (р = 0,9), другуютреть-упражнения средней трудности (р = 0,5) и последнюю треть-трудные упражнения (р = 0,1). Фактически процент лиц, выполнявшихэти упражнения, каждый раз несколько отклонялся от этих значений. Од-нако целью составителей тестов было максимальное приближение к вы-бранным значениям р. Третий пример, иллюстрирующий выбор трудности заданий со-образно назначению теста, связан с тестированием владения навыком.Напомним (см. гл. 4), что тесты владения навыком типичны для крите-риально-ориентированного тестирования. Если назначение теста-устано-вить, овладел ли индивид как следует основными, существенными эле-ментами того или иного навыка или усвоил ли он знания, необходимыедля перехода к следующему этапу обучения, то трудность задания долж-на быть на уровне 0,8-0,9. При выполнении этого условия мы можеможидать, что большинство обследуемых справится почти со всеми зада-ниями. Таким образом, весьма легкие задания, которые были изъяты изобычного стандартизованного теста из-за их низкой разрешающей спо-собности, даже те, с которыми справляется 100Їо испытуемых, как рази включаются в тест владения навыком. Аналогично тест, проводимыйперед началом обучения с тем, чтобы выявить учеников, уже освоившихподлежащие выработке навыки, должен состоять из заданий с весьманизким р. В этом случае задания с очень низким и даже нулевым р впол-не допустимы, поскольку они выявляют то, что еще осталось неус-военным. Из приведенных примеров явствует, что уровень трудности заданийзависит от назначения теста. Хотя в большинстве случаев максимум ин- Ввиду специфики многих тестов, термин к-ячяттгя Дпгтрр v—ru187АНАЛИЗ ЗАДАНИЙформации об индивидуальном уровне выполнения теста обеспечиваютзадания средней трудности (0,50), решение о трудности задания нельзяпринимать бездумно, без учета того, как предполагается использоватьтест.ВАЛИДШИСТЬ ЗАДАНИЙСоотношение между заданием и контрольным критерием. Всеиндексы валидности заданий основаны на соотношении между выполне-нием задания и критериальным выполнением. Любой критерий, исполь-зуемый для определения валидности теста, годится и для валидации за-даний, анализ которых может быть использован для повышения нетолько конвергентной, но и дискриминантной валидности теста (см.гл. 6). Задания, таким образом, можно выбирать по признаку высокойкорреляции с критерием и низкой корреляции с безотносительнымик тесту факторами, влияющими на выполнение теста испытуемым. Приразработке, например, теста на арифметическое мышление задания, зна-чимо коррелирующие с тестом на понимание читаемого текста, должныбыть изъяты. Поскольку обычно регистрируется лишь факт выполнения или невы-полнения задания, измерение его валидности, как правило, означает со-поставление дихотомического показателя (результат выполнения зада-ния) с непрерывной переменной (критерием). В известных ситуацияхкритерий может быть также дихотомичным (например, окончание кол-леджа или отчисление из него, успех или неудача в работе). Более того,непрерывный критерий для целей анализа может быть превращен в ди-хотомический. На рис. 26 изображены три характеристические кривые,иллюстрирующие основные соотношения между заданием и критерием.Каждая из этих кривых дает представление о взаимосвязи между про-центом справившихся с заданием испытуемых и соответствующим клас-сом интервалов критериального показателя. Нетрудно видеть, что зада-ние 1 обладает низкой валидностью, поскольку его выполняет приблизи-тельно один и тот же процент испытуемых во всем диапазоне критерия.С заданиями 2 и 3 дело обстоит лучше, поскольку соответствие междупроцентом выполнивших задания и критериальным показателем выра-жено более четко. Из этих двух более валидно задание 3, ибо его харак-теристическая кривая круче идет вверх.Рис. 26. Харокте-.ристические кри-вые для трех ги-потетических зада-188 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯ Характеристические кривые заданий дают наглядное представлениео различиях между заданиями с точки зрения их валидности. Вместес тем отбор заданий лучше осуществлять, если валидность каждого изних выражена числовым индексом. В настоящее время при разработкетестов используется свыше пятидесяти таких индексов. Они, в частности,различаются по признаку применимости к дихотомическим илинепрерывным мерам. Более того, среди индексов, применимых к дихото-мическим переменным, одни предполагают непрерывность и нормальноераспределение измеряемого с помощью теста свойства, на которое ис-кусственно накладывается дихотомия, тогда как другие вводятся в пред-положении истинной дихотомии. Одни меры валидности не зависят оттрудности заданий, в то время как валидность других тем выше, чемближе уровень трудности к 0,50. Независимо от способа получения и исходных допущений большин-ство индексов валидности задания дают весьма сходные результаты. Хо-тя численные значения индексов могут быть разными, на их основе со-храняются или отвергаются в основном одни и те же задания.Собственно говоря, колебания данных о валидности задания от выборкик выборке в целом больше, чем при использовании различных методових получения. Поэтому выбор метода часто определяется удобством вы-числений и наличием соответствующих таблиц и номограмм. Последниепредставляют собой расчетные диаграммы, по которым, например, зна-чение корреляции между заданием и критерием легко вычисляется, еслиизвестен процент испытуемых, справившихся с заданием в группах с вы-соким и низким критериальным выполнением (J.P. Guilford, В. Fruchter,1973, р. 445-458; S. Henrysson, 1971). Использование экстремальных групп. Распространенный ме-тод анализа заданий-сравнение числа выполнивших задание в двухгруппах с контрастирующим критериальным выполнением. Если крите-рий выражен в непрерывной шкале (как. скажем, в случае годовых оце-нок, субъективных оценок качества работы, показателей производитель-ности труда и т.д.), то по распределению значений критериальныхпоказателей, по верхнему (В) и нижнему (Я), формируются крите-риальные группы. Очевидно, что группы с экстремальными показателя-ми резче отличаются друг от друга. Однако использование для включе-ния в группу предельных значений, скажем верхних и нижних 10%,уменьшит надежность результатов вследствие малочисленности групп.В случае нормального распределения оптимальный вариант, уравнове-шивающий эти два условия, достигается при верхних и нижних 27Їо(T.L. Kelley, 1939). Когда распределение более плоско, чем нормальнаякривая, оптимальная цифра приближается к 33Їо (E.E.Cureton, 1957).В случае малых групп-таких, как обычный класс,-ошибка выборки прианализе заданий настолько велика, что можно рассчитывать только нагрубые оценки. Поэтому здесь не приходится заботиться о точном про-центе случаев в двух контрастных группах. Приемлема любая цифра ме-жду 25 и 33Ї". Большие и нормально распределенные выборки используются приразработке стандартизованного теста, и в этом случае обычно берут189 АНАЛИЗ ЗАДАНИЙверхние и нижние 27Їо распределения значений критериальных показате-лей. Многие таблицы и номограммы, по которым рассчитываются пока-затели валидности заданий, составлены в предположении, что сравни-ваемые группы формировались согласно . По-видимому,распространение быстродействующих компьютеров позволит заменитьразличные вспомогательные приемы, разработанные для облегчения ана-лиза заданий, более точными и совершенными методами. Вычислитель-ная техника позволяет проанализировать результаты всей выборки, неограничиваясь краями распределения. Разработаны также методы мате-матической обработки характеристических кривых для измерения валид-ности заданий, но их применение неосуществимо без соответствующейвычислительной техники (F.B. Baker, 1971 ; S. Henrysson, 1971; F.M. Lord,M. R. Novick, 1968). Анализ заданий в случае малых групп. Поскольку анализ за-даний часто проводится на небольших группах, например с учащимисяодного класса, отвечающими на серию вопросов, рассмотрим сначалапростую процедуру, особенно подходящую для такой ситуации. Предпо-ложим, в классе всего 60 человек, из которых отобрано 20 учеников (33"о)с самым высоким и 20-е самым низким общим числом правильных от-ветов. Разложим листки с ответами на три стопки, принадлежащие верх-ней (В), средней (С) и нижней (Н) группе. Теперь нам нужно определить,сколько правильных ответов в каждой из этих групп было дано накаждый вопрос. Для этого выпишем в столбик номера заданий, оставивсправа место для трех колонок, которые обозначим буквами В, С а Н.Возьмем из стопки В любой листок и в колонке В проставим палочкипротив тех вопросов, на которые данный ученик ответил правильно. Этонужно проделать для каждого из 20 листков группы В, затем для 20листков группы С и, наконец, для всех листков группы Н. Подсчитаемтеперь палочки и выпишем результаты по образцу табл. 19 (для кратко-сти в ней приведены цифры только по первым семи вопросам анкеты).Приблизительный индекс валидности, или разрешающей силы, любогоиз вопросов находится вычитанием из числа учеников, правильно отве-тивших на него в группе В, соответствующего числа, стоящего в колонкеН. Их разности приведены в последней колонке табл. 19. Пользуясь те-ми же исходными данными, можно оценить трудность каждого вопроса,для чего требуется сложить числа, стоящие в соответствующей строкетаблицы {В+С+Н). Анализ табл. 19 выявляет 4 задания, подлежащие дальнейшему рас-смотрению или обсуждению в классе. Два вопроса, а именно 2-й и 7-й,выделены, поскольку один из них слишком легок (56 из 60 учеников от-ветили на него правильно), а другой слишком труден (всего 5 пра-вильных ответов). Вопросы 4 и 5 приемлемы с точки зрения трудности.но разность В — Н для одного из них равна нулю, а для другого отрица-тельна. В ту же категорию были бы включены вопросы и с очень малы-ми положительными значениями разности В — Я-примерно 3 и мень-ше. Такая граничная цифра действительна для групп того же размера,что и в нашем примере. Имея дело с большими группами, следует ожи-дать больших различий вследствие случайного появления недискрими-нантных заданий. Анализ заданий теста, подготовленного учителем, направлен навыявление дефектов либо в тесте, либо в преподавании. Обсуждая вы-190ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯТаблица 19Таблица 20Простая процедура анализа заданий: число Анализ ответов, предлагаемых на выбор полиц, давших правильный ответ, в группах отдельным вопросамс высокими, средними и низкими значения-ми критерияЗадание В (вопрос) (20)С (20)(20)Трудность (В+С+Н)Различение (Й-Н)1159731220201656319189464101116375111311356161493975005 10-6 0ВопросГруппаВыбранные ответы 12з452ВО о0200н2 011614в0 10901н2 162005в2 32112н1 331127в5 3543н0 5834 Задания, выбранные для последующего обсуждения. Данные по правильным ответам набраны курсивом.причина их некорректности. Если вопрос сформулирован неудачно, егоможно перестроить или вовсе изъять при последующем тестировании..Обсуждение, однако, может обнаружить, что вопрос составлен правиль-но, но у учеников нет надлежащего понимания данной темы. В этом слу-чае тема может быть разобрана заново и пояснена подробнее. При оты-скании менее заметного источника затруднений часто полезно провестидополнительный анализ, типа изображенного на табл. 20, хотя бы частивопросов, отобранных для обсуждения. В табл. 20 приводится число уче-ников из групп В и Н, выбравших тот или иной из пяти приведенныхв заданиях ответов. Хотя вопрос 2 и включен в табл. 20, но из приведенной в ней час-тоты ошибочных ответов мало что можно узнать, поскольку непра-вильный выбор сделали лишь 4 человека из группы Н и никто-изгруппы В. Обсуждение этого вопроса с учениками, вероятно, выявит,действительно ли вопрос слишком легок и не представляет особой цен-ности, или какой-то недостаток формулировки позволяет сразу же нахо-дить правильный ответ, или же, наконец, это полезный вопрос, но отно-сился он к хорошо проработанной и усвоенной теме занятий. В первомслучае вопрос, видимо, следует изъять, во втором-пересмотреть, ав третьем-оставить без изменения. Данные по вопросу 4 показывают, что выбор третьего ответа связанс тем, что сам ответ содержит в себе нечто такое, что заставляет 9 учени-ков из группы В предпочесть его правильной альтернативе. В чем здесьдело, нетрудно установить, попросив этих учеников обосновать свой вы-бор. Недостаток задания 5, видимо, объясняется неудачностью формули-ровки либо самого вопроса, либо правильного ответа, так как непра-вильные ответы равномерно распределились по четырем ошибочнымальтернативам. Вопрос 7 необычно труден: 15 человек из группы В и всягруппа Н ответили на него неправильно. Несколько больший выбор от-вета 3 указывает на его поверхностную привлекательность, особенно длялегче вводимых в заблуждения членов группы Н. Аналогично отсутствие191АНАЛИЗ ЗАДАНИЙломленному ученику эта альтернатива на первый взгляд кажется оши-бочной. Оба эти свойства желательны для хорошего тестового задания.Обсуждение в классе может показать, что вопрос 7 просто относилсяк плохо усвоенной теме учебной программы. Индекс различения. Если число справившихся с заданием членовгруппы с высоким {В) значением критерия выразить в процентах и из не-го вычесть аналогичный процент, найденный для групп с низким (Н) зна-чением критерия, то полученная разность представляет собой индекс ва-лидности задания, интерпретируемый независимо от размера выборки,на которой он был получен. Этот индекс неоднократно обсуждалсяв психометрической литературе (R.L.Ebel, 1965; A.P.Johnson, 1951;C.I. Mosier, J.M. McQuitty, 1940) и обозначался то как VLT, то как VLD,то просто D. Несмотря на свою простоту, этот индекс, как было показа-но, хорошо согласуется с другими, более сложными мерами валидностизадания (M.D. Engelhart, 1965). Поясним подсчет D на примере данных,приведенных в табл. 19. Сначала число лиц, справившихся с каждым за-данием в группах В и Н, переводится в проценты. Поскольку каждая изэтих групп состоит из 20 человек, нам нужно каждое число разделить на20 и результат умножить на 100. Легче, однако, 100 разделить на 20, чтодает 5, а затем умножать каждое число на эту константу. Так, для зада-ния 1 имеем: 15 х 5=75 (группа В), 7 х 5=35 (группа Н), и, следова-тельно, D =73- 35 = 40. Значения D для оставшихся семи заданий при-ведены в табл. 21. D может принимать любое значение между + 100. Если все членыгруппы В справились и никто из группы Н не справился с заданием, тоD = 100. И наоборот, если группа Н справилась, а группа В не справи-лась с заданием, то D == -100. Если процент справившихся с заданиемв обеих группах одинаков, то D == 0. Индекс D обладает рядом инте-ресных свойств. Было показано (R.L. Ebel, 1965; W.G. Findley, 1956), чтоD прямо пропорционален разности между чис-лом правильных и ошибочных различений,выявляемых заданием. Правильные различенияопределяются числом справившихся с зада- Таблица 21нием в группе В в сравнении с числом не спра- Вычисление индекса различе-вившихся в группе Н. Ошибочные различения """ ("Ї данным из табл. 19)задаются числом не справившихся в группе —В в сравнении с числом справившихся в группе "яГ разностьН. Р.Ибел (R.L.Ebel, 1967) также установил, с заданием (индексчто между средним значением индекса заданий йопрос —различения)D и коэффициентом надежности теста имеется грпя гршатесная связь. Чем больше среднее D, тем выше —надежность, i 40 Заслуживает упоминания и другое свой- 2 10080 20ство D, присущее и некоторым другим индек- 39545 50сам валидности заданий. Показатель D небез- различен к трудности и изменяется сильнее 68045 35при среднем уровне трудности. В табл. 22 при- 7250 25ведены максимальные значения D для заданий ____________________ Наблюдательный читатель, вероятно, заметил, что те же результаты можно полу-192ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯТаблица 22Соотношеиме максимальногошачения D и трудности дада-ПроцентМаксимальноесправившихсязначение с заданиемВ100090207060501003060102000 с различным процентом правильных ответов. Если 100Їо или 0Їо всей выборки выполнили задание, то результаты групп В и Н не разли- чаются, так что D == 0. С другой стороны, если с заданием справилось 50Їо членов выборки, не исключено, что все они принадлежат к группе В, и тогда D == 100. Если справилось 10Ї/о, то максимальное значение D, отвечающее случаю, когда все члены группы В справились с зада- нием, а остальные 20"о приходятся на группу Н, находится следующим образом: (В) 50/50 == = 100Їо; (Н) 20/50 = 40%; D = 100- 40 = 60. Напомним, что для большинства тестов пред- почтительней задания, уровень трудности ко- торых близок к 0,50. Поэтому показатели ва-лидности, принимающие максимальные значения при этом уровнетрудности, часто применяются для отбора заданий. Коэффициент (р. Большинство индексов валидности заданий выра-жают связь между ними и критерием в виде коэффициента корреляции.Одним из них является коэффициент (р, вычисляемый по четырехпольнойтаблице, содержащей число справившихся и не справившихся с заданиемв группах с высоким и низким значением критерия. Как и все коэффи-циенты корреляции, показатель (р принимает значения между + 1,0и предполагает наличие дихотомии как в результатах выполнения зада-ния, так и в критериальных переменных. Следовательно, он применимлишь к тем условиям дихотомии, для которых был найден и не можетбыть перенесен на любые другие соотношения между свойствами, ко-торые измеряет задание, и критерием. Как и индекс D, (р принимает наи-большие значения для заданий средних уровней трудности, когда дихо-томия близка к соотношению 50:50. Существует ряд таблиц для определения коэффициента (р. При рав-ном численном составе критериальных групп В и Н (р можно найти потаблицам Иоргенсена (C.E.Jurgensen, 1947), составленным на основепроцентов выполнивших задание в каждой из этих групп. Поскольку прианализе заданий обычно легко сделать группы В и Н численно равными,эти таблицы находят широкое применение. Если же критериальныегруппы неодинаковы по размеру, (р находят по серии таблиц Эдгертона(H.A.Edgerton, 1960), хотя их применение требует больших затратвремени. Уровень значимости коэффициента (р нетрудно вычислить, исходя изсоотношения между ним, и соотношениями нормальной кривой. С по-мощью последнего показателя можно найти минимальное (р, значимоена уровне 0,05 или 0,01, по следующим формулам:1,96]//v2,58IVВ этих формулах N есть суммарное число испытуемых в обеих группах.Так, если группы В и Н содержат по 50 человек, то N = 100, и минимум(р, значимый на уровне 0,05, будет равен 1,96:1/100 = 0,196. Любое зна-4fHWfffn ГЯ11ИМТТТДГТТТ1ТаП10 ff,r"-~—193 АНАЛИЗ ЗАДАНИЙ Бисериальная корреляция. В заключение рассмотрим весьмараспространенную меру валидности задания-коэффициент бисериальнойкорреляции (rbis), отличающийся от (р в двух существенных моментах. Во-первых, rjs предполагает существование непрерывного и нормальногораспределения свойства, лежащего в основе ответов на дихотомическиезадания. Во-вторых, г как мера отношений между заданием и крите-рием не зависит от трудности задания. Для вычисления г нужно знатьсреднее значение критериального показателя выполнивших и не выпол-нивших задание, процент справившихся и не справившихся с заданиемпо всей выборке и стандартное отклонение показателей критерия. Подсчет всех необходимых параметров и применение для каждого за-дания формулы бисериальной корреляции может оказаться весьма дли-тельным процессом. Но существуют таблицы, с помощью которых мож-но получить ?ь", зная процент справившихся с заданием в группах,соответствующих верхним и нижним 1ЧЇ/о распределения значений крите-рия (С. Т. Fan, 1952; 1954). С помощью этих таблиц по процентам спра-вившихся с заданием в группах В и Н можно найти три величины: р, т. е.процент справившихся с заданием по всей выборке; описанный ранее по-казатель Д, являющийся мерой трудности задания в интервальной шка-ле, и Гы" между заданием и критерием. Но таблицами можно пользовать-ся при условии, что В и Н содержат каждая в точности 27Їо всейвыборки. Способа, который позволял бы точно рассчитать уровни значимостидля так оцениваемой бисериальной корреляции, не существует. Однакобыло установлено, что их стандартные ошибки несколько больше, чем длякоэффициентов бисериальной корреляции, подсчитанных обычным пу-тем. Это значит, что коэффициент г, полученный по таблицам Фана,сильнее колеблется от выборки к выборке, чем г, вычисленный по фор-муле. Принимая это во внимание, можно использовать стандартнуюошибку г, чтобы приблизительно оценить, насколько большой должнабыть статистически значимая корреляция. И в этом случае вычисли-тельная техника позволяет легко определить значение бисериальной кор-реляции, основываясь на более адекватной процедуре, т. е. по ответам ис-пытуемых из всей выборки.ВНУТРЕННЯЯ СОГЛАСОВАННОСТЬАнализ заданий нередко проводится относительно суммарного результа-та теста. Этот метод находит свое применение в тестах достиженийи особенно при составлении учителем контрольных работ, когда труднополучить внешние критериальные данные. Как отмечалось в главе 6,этот подход позволяет получить меру внутренней согласованности, а невнешней валидности. Он годится для уточнения валидации по содержа-нию и некоторых аспектов конструктной валидации. Однако если тест должен быть валидным относительно критерия,использование суммарного результата для анализа заданий нуждаетсяв тщательном изучении. При определенных условиях эти два подходамогут привести к противоположным выводам: задания, выбираемые по Формулу для ет можно найти в любом учебнике статистики (J. P. Guilford,194 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯпризнаку внешней валидности, могут оказаться неудовлетворительнымис точки зрения внутренней согласованности. Предположим, что предва-рительная форма теста способности к обучению состоит из 100 арифме-тических и 50 словарных заданий. Для отбора заданий из первоначаль-ной их совокупности методом внутренней согласованности можновоспользоваться бисериальной корреляцией между выполнением каждо-го задания и суммарными результатами по всем 150 заданиям. Очевид-но, что такая бисериальная корреляция будет выше для арифметических,а не для лексических заданий, потому что суммарный результат основанна вдвое большем числе арифметических заданий. Если в окончательнойформе теста предполагается сохранить лучшие 75 заданий, то вполне ве-роятно, что в большинстве своем они будут состоять из арифметическихзаданий. Но с точки зрения достижений в учении словарные задания мо-гут оказаться по сравнению с арифметическими более валиднымипредикторами. В этом случае анализ заданий будет служить не повыше-нию, а понижению валидности теста. Изъятие заданий, имеющих низкую корреляцию с суммарным ре-зультатом, является средством повышения однородности, или , теста. Благодаря применению этой процедуры сохраняются зада-ния с наибольшими средними взаимокорреляциями. Данный методотбора заданий повышает валидность теста, только когда первоначаль-ная совокупность заданий измеряет одно и то же свойство и когда этосвойство присутствует и в критерии. Однако некоторые типы тестов из-меряют комбинацию свойств, отвечающих сложному критерию. В такомслучае очищение теста от инородных элементов может сузить охват та-кого критерия и тем самым понизить валидность. Отбор заданий с целью довести до максимума валидность тестааналогичен отбору тестов, с тем чтобы получить батарею тестов с на-иболее высокой валидностью. Напомним (гл. 7), что вклад теста в ва-лидность батареи тем больше, чем выше его корреляция с критериеми чем ниже корреляция с другими тестами батареи. Если этот принципприменить к отбору заданий, то наилучшими окажутся задания, имею-щие наибольшие значения валидности и наименьшие коэффициенты вну-тренней согласованности. На этой основе можно определить чистую эф-фективность задания, т.е. чистый прирост валидности теста придобавлении к нему конкретного задания. Так, если задание тесно корре-лирует с внешним критерием, но относительно слабо коррелирует с сум-марным показателем теста, то оно предпочтительнее такого задания, ко-торое имеет высокую корреляцию и с критерием, и с тестом в целом,ибо первое задание, по-видимому, измеряет некоторый аспект критерия,не учитываемый должным образом остальными заданиями. Может показаться, что к отбору заданий применимы те же методы,что и при комплектовании батареи тестов. В частности, можно было быориентироваться на корреляцию задания с критерием и с другими зада-ниями. Лучшим заданиям, отобранным таким путем, можно было бы за-тем приписать веса и представить в уравнении регрессии. Такая процеду-ра, однако, неосуществима и теоретически несостоятельна. Дело не Такая корреляция части и целого будет несколько завышенной в силу присутствияобщей специфической дисперсии и дисперсии ошибки в задании и в тесте, частью которо-го оно является. Существуют формулы, вносящие необходимую поправку в коэффициент195 АНАЛИЗ ЗАДАНИЙтолько в усилиях, которые потребовались бы для проведения необхо-димых вычислений. Более существенно то обстоятельство, что корреля-ция между заданиями подвержена зависящим от выборки колебаниями найденные параметры регрессии слишком неустойчивы, чтобы на нихможно было основывать отбор заданий, не прибегая к чрезвычайнобольшим выборкам. По этой причине для отбора заданий по их чистомувкладу в валидность теста было разработано несколько методов апрок-симации. Некоторые из этих методов основаны на эмпирическом процес-се построения теста, при котором набор заданий растет постепенно,а при добавлении задания валидность всего набора каждый раз под-считывается заново. Согласно другим методам, вначале берется полныйнабор заданий, из которого последовательно изымаются наименееудачные, пока не достигается требуемая валидность теста. Поскольку да-же такие методы требуют большого объема вычислений, к ним целесо-образно обращаться только при наличии вычислительной техники(J.A.Fossum, 1973; S.Henrysson, 1971). Следует отметить, что все способы отбора заданий по их чистой эф-фективности представляют подход, обратный тому, который ориентиро-ван на внутреннюю согласованность. В первом случае чем выше корре-ляция между заданием и тестом, тем больше шансов на то, что заданиебудет изъято; во втором же случае чем выше такая корреляция, тембольше вероятность того, что задание будет включено в тест. Цели обо-их подходов, разумеется, различны. Один направлен на наиболее широ-кий охват критерия и меньшее дублирование заданий; второй же предус-матривает повышение однородности теста. И то и другое желательноиметь в виду при составлении теста. Выбор конкретной процедурыв большой степени зависит от характера теста и его назначения. Так,в биографическом опроснике задания (вопросы) можно оценивать и от-бирать только в соответствии с внешним критерием, причем охватывае-мое опросником содержание в высшей степени неоднородно. Примеромсовсем иного рода может служить тест на правописание, весьма одно-родный по содержанию; здесь уже существенным ориентиром для отбо-ра заданий является внутренняя согласованность. Применительно ко многим задачам тестирования удовлетворитель-ное решение означает распределение сравнительно однородных заданийпо отдельным тестам или субтестам, каждый из которых относится к ка-кому-то одному аспекту критерия.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Таким образом, учет разных аспектовдостигается разнообразием тестов, каждый из которых позволяет полу-чить более или менее однозначный результат, а не разнородностью зада-ний в рамках одного теста. При таком подходе задания с низкими ин-дексами внутренней согласованности не отбрасываются, а выделяются.Тем самым в пределах каждого субтеста или группы заданий можетбыть достигнута довольно высокая внутренняя согласованность. В то жевремя такая согласованность не будет трактоваться как заменитель ва-лидности по критерию, и потребуется лишь уделить некоторое вниманиетому, чтобы разные аспекты критерия были адекватно представленыв тесте и чтобы не было чрезмерной концентрации заданий по неко-торым из аспектов.196 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯАНАЛИЗ ЗАДАНИЙ ТЕСТОВ НА СКОРОСТЬНезависимо от того, входит ли скорость в число измеряемых функций,индексы заданий, вычисленные для скоростных тестов, могут создаватьложное впечатление. Если не считать заданий, при выполнении которыхникто или почти никто из обследуемых не испытывает недостатка време-ни, эти индексы отражают не столько действительную трудность или ва-лидность заданий, сколько их положение в тесте. Задания, выполняемыев тесте позднее, будут выполнены сравнительно малым числом испы-туемых, поскольку лишь немногие успевают до них добраться. Каким былегким ни было задание, если оно расположено в конце теста на ско-рость, оно будет казаться трудным. Если, скажем, вопрос об имени ис-пытуемого поместить в конце скоростного теста, то процент лиц, отве-тивших на него, будет весьма низким. Точно так же переоценивается валидность заданий, к выполнениюкоторых многие испытуемые не успевают приступить. Поскольку болееопытные индивиды обычно работают быстрее, они, по-видимому, скореедоберутся до заданий, находящихся в конце теста на скорость(W.G. Mollenkopf, 1950 а). Таким образом, независимо от характерасамого задания некоторая корреляция между ним и критерием будет об-наружена, даже если оно находится ближе к концу теста. Чтобы избежать некоторых из этих затруднений, можно ограничитьанализ каждого задания только данными испытуемых, достигших со-ответствующего задания в тесте. Это решение, однако, нельзя считатьудовлетворительным, если число лиц, выполнивших задание, невелико.Такая процедура сопряжена с использованием быстро сокращающегосячисла испытуемых, вследствие чего результаты по последним заданияммогут оказаться ненадежными. Более того, испытуемые, выполнившиетакие задания, вероятно, будут представлять собой селективную выбор-ку, не сопоставимую с более широкой выборкой, использованной дляанализа ранних заданий. Как уже отмечалось, испытуемые, работающиебыстро, часто также более опытны. Таким образом, более поздние зада-ния будут анализироваться на выборке индивидов с более высоким уров-нем. Последствием такого селективного фактора окажется занижениеуровня трудности более поздних заданий, поскольку процент справив-шихся с заданием в селективной выборке выше, чем во всей выборке.Отметим, что в данном случае ошибка обратна той, которая появляетсяпри вычислении процента справившихся с заданием относительно всейисходной выборки. В этом случае происходит завышение трудностизаданий. Влияние вышеописанной процедуры на индексы валидности заданийне столь очевидно, но тем не менее реально. Замечено, например, что не-которые из испытуемых, показывающих низкие результаты, торопясьвыполнить тест в отведенное время, отмечают в тестовом бланке (илитетради) ответы почти наугад. Среди испытуемых с высокими результа-тами эта тенденция выражена гораздо меньше. В итоге выборка, на ко-торой производится анализ более позднего задания, нередко включаетв себя нескольких весьма слабых респондентов, выполняющих заданияна уровне случайности, и довольно значительное число опытных и бы-стрых испытуемых, чьи ответы обычно оказываются правильными. В та-кой группе корреляция задания и критерия, вероятно, будет выше. чемВ боттРР прттгч>">вт11-,1-т"-"-"- —" "197 АНАЛИЗ ЗАДАНИЙреспондентов выборка, на которой анализируются задания, располо-женные в конце теста, охватывала бы относительно узкий диапазон спо-собности. В этих условиях валидность более поздних заданий скорее все-го окажется ниже, чем если бы она вычислялась на всей выборке. Ожидаемое влияние скорости на индексы трудности и валидностизаданий проверялось опытным путем как для случаев, когда статистиче-ская обработка проводится по всей выборке (A.G.Wesman, 1949), таки для случаев, когда выборка ограничивалась лицами, пытавшимися вы-полнить задание (W.G. Mollenkopf, 1950 а). Во втором из этих двух ис-следований сопоставимым группам старшеклассников давались двеформы вербального теста и две формы математического теста. Каждаяиз двух форм состояла из одних и тех же заданий, но начальные и ко-нечные серии в этих формах менялись местами. Каждая форма предъя-влялась в жестких (условия скорости) и свободных (условия возможно-стей) временных рамках. Такой способ тестирования позволил сравнитьмежду собой как формы тестов, так и временные условия. Результатыясно показали, что положение задания в скоростном тесте влияет на ин-дексы трудности и валидности. Когда одной то же задание предъявля-лось не в самом начале скоростного теста, оно выполнялось большимпроцентом испытуемых, пытавшихся его решить, и имело более высокуюкорреляцию с критерием. Трудности, возникающие в ходе анализа заданий скоростного теста,в принципе аналогичны тем, о которых говорилось в гл. 5 в связис надежностью тестов на скорость. Были предложены различные спо-собы преодоления этих трудностей, касающиеся как процедуры тестиро-вания, так и статистической обработки результатов. Одним из эмпириче-ских решений было увеличение лимита времени для групп, на которыхпроводится анализ заданий. Такое решение приемлемо, если только самаскорость не является важным аспектом измеряемой тестом способности.Помимо технических проблем, относящихся к конкретным тестам, необ-ходимо иметь в виду, что данные, получаемые в ходе анализа заданийскоростных тестов, ненадежны и нуждаются в тщательном изучении.ПЕРЕКРЕСТНАЯ ВАЛИДАЦИЯЗначение перекрестной валидации. Важно, чтобы валидность тестаопределялась на выборке испытуемых, отличной от той, с помощью ко-торой производился отбор заданий. Такое независимое измерение валид-ности всего теста называется перекрестной валидацией (C.I. Mosier,1951). Любой коэффициент валидности, найденный по выборке, приме-нявшейся для отбора заданий, окажется завышенным, так как случайныеособенности этой выборки будут учитываться как истинные свойства по-пуляции. Фактически при таких обстоятельствах высокий коэффициентвалидности может появиться, даже когда тест совершенно не обладаетвалидностью в предсказании конкретного критерия. Предположим, что в выборке из 100 студентов-медиков было выде-лено 30 человек с самой высокой успеваемостью и 30 с наиболее низкойуспеваемостью, которые составили контрастные критериальные группы.Если теперь эти две группы сопоставить по ряду качеств, фактически неимеющих отношения к успеваемости в медицинском институте, то, не-198 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯчастных школ и рыжеволосых студентов. Если бы нам пришло в головуприписывать каждому человеку по очку за окончание частной школыи за рыжий цвет волос, то средний результат оказался бы, несомненно,выше в верхней, чем в нижней критериальной группе. Однако это не сви-детельствует о валидности выбранных признаков, так как данный про-цесс валидации содержит круг в доказательстве. Оба предиктора вы-браны в первую очередь на основе случайных особенностей, характери-зующих данную выборку. И те же случайные различия ответственны запоявление различий между суммарными результатами. Однако при про-верке на другой выборке случайные различия в количестве окончившихчастные школы и рыжих, скорее всего, исчезнут или изменят знак, и сле-довательно, валидность показателей нарушится. Практический пример. Конкретной иллюстрацией необходимо-сти перекрестной валидации является исследование, в котором былапредпринята попытка выяснить применимость роршаховского теста чер-нильных пятен для найма управляющих агентствами по страхованиюжизни (А. К. Kurtz, 1948). Этот тест был применен к 80 испытуемым,тщательно отобранным среди нескольких сот таких управляющих, рабо-тавших в восьми страховых компаниях. Из этих 80 человек 42, считав-шихся весьма компетентными работниками, составили верхнюю крите-риальную группу. Остальные 38 человек были неудовлетворительнымиработниками, и они образовали нижнюю критериальную группу. Полу-ченные 80 тестовых ответов были изучены экспертами по тесту Роршаха,отобравшими 32 знака (т.е. характеристики ответов), чаще встречавших-ся в одной группе, нежели в другой. Затем каждому испытуемому былоприсуждено по +1 очку за каждый знак, чаще обнаруживаемый в верх-ней критериальной группе, и по-1 очку за каждый знак, чаще встречав-шийся в нижней критериальной группе. Поскольку всего имелось по 16знаков каждого типа, суммарный результат теоретически мог приниматьзначения от -16 до +16. Когда этот ключ, основанный на 32 знаках, был применен к перво-начальной группе из 80 человек, принадлежность 79 из них к верхней илинижней группе была определена правильно. Таким образом, корреляциямежду результатом теста и критерием оказалась близкой к 1,00. Однакокогда была проведена перекрестная валидация теста на второй сопоста-вимой выборке управляющих страховыми агентствами, насчитывавшей41 человек (21 в верхней группе и 20 в нижней), коэффициент валидностиупал до ничтожной цифры 0,02. Очевидно, таким образом, что ключ, раз-работанный на первой выборке, не пригоден для отбора персонала натакую должность. Пример со случайными данными. Э. Э. Кьюретон (Е. Е. Ки-reton, 1950) убедительно показал, что использование одной и тойже выборки для отбора заданий и валидации теста может привестик значительному завышению коэффициента валидности даже при чистослучайных условиях. В этой работе прогнозируемым критерием служилсредний балл каждого из 29 студентов, записавшихся на курс психоло-гии. Весь диапазон значений этого критерия был разбит на две области:оценки не ниже и оценки ниже . Роль в этом экспери-менте играли 85 номерков (1-85). Чтобы получить тестадля каждого испытуемого, номерки складывались в коробочку, переме-ТТТИВЯ ЛИСТ. И RЫГTПЯTTИr НЯ Г-ТПТТ Тр тлч UMV vn-rnner ттзгтпгтп гтт1ттот1Г>й г-гп-199 АНАЛИЗ ЗАДАНИЙдентом заданий. Подобный был проведен 29 раз, что далополный набор каждого студента по каждому .Эту процедуру Э. Кьюретон остроумно назвал . Затем был проведен анализ заданий, в котором в качестве критерияфигурировал средний балл студента. В результате из 85 былоотобрано 24, из коих 9 чаще членами верхней крите-риальной группы и поэтому получили веса + 1, тогда как 15 чаще в нижней группе, и им приписывались веса — 1. Сумма весов составляла итоговый результат каждого студента. Несмотряна заведомо случайное происхождение данных, корреляция с критерием успеваемости для все той же группы из 29 студентовоказалась равной 0,82. Этот результат аналогичен тому, который былполучен в примере с тестом Роршаха. В обоих случаях очевидное со-ответствие между результатами теста и критерием объясняется исполь-зованием одних и тех же случайных различий как для отбора заданий,так и для определения валидности теста в целом. Условия, влияющие на снижение валидности. Степень сни-жения коэффициента валидности при перекрестной валидации частичнозависит от размера первоначальной совокупности заданий и от того, ка-кая часть заданий сохраняется. Если первоначальное число заданий вели-ко, а доля отобранных заданий мала, то возрастает возможность исполь-зования случайных различий и тем самым получения завышенногокоэффициента валидности. На степень снижения валидности при пере-крестной валидации влияет также размер выборки. Поскольку завыше-ние валидности в первоначальной выборке является результатом нако-пления ошибок выборки, при малых выборках (для которых такиеошибки больше) будет наблюдаться большее снижение валидности. Если задания отбираются сообразно гипотезам, которые формули-руются заранее, исходя из психологической теории или опыта работыс данным критерием, то при перекрестной валидации сокращение валид-ности будет минимальным. Например, если согласно частной гипотезеответ должен появляться чаще среди успевающих учеников, то за-дание следует отбросить, когда ответ значительно чаще исходит отнеуспевающих учеников. Наоборот, бездумный эмпирический подход оз-начал бы, например, включение в первоначальную серию самых разно-образных вопросов, безотносительно к их связи с критериальным пове-дением, в расчете на последующий отбор заданий, имеющих значимуюположительную или отрицательную корреляцию с критерием. В послед-нем случае следует ожидать большего снижения валидности, чемв первом. Итак, снижение валидности теста при перекрестной валида-ции будет наибольшим, если выборки малы, исходный набор заданий ве-лик, величина отобранных заданий мала и задания подбираются без за-ранее выработанной системы гипотез.ВЗАИМОДЕЙСТВИЕ МЕЖДУ ЗАДАНИЕМ И ГРУППОЙПредварительные исследования. В той мере, в какой разные куль-туры или субкультуры благоприятствуют развитию различных навыкови знаний, эти различия сказываются и на результатах тестов. Общий200ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯсредой. В связи с этим возникает вопрос об относительной трудностизаданий для групп с различными культурами. Если трудность измеряет-ся обычным способом, т.е. с помощью процента справившихся с зада-нием, то будет ли ранг порядка задания тем же самым от группы к груп-пе, независимо от общего уровня его выполнения? Уже в первыхисследованиях, направленных на выяснение этого вопроса, был обнару-жен ряд существенных различий между городскими и сельскими детьмипо отношению к трудности заданий тестов Станфорд-Бине (Н.Е. Jones,H.S.Conrad, M.B.BIanchard, 1930) и общей информативности теста(M.E.Shimberg, 1929). Более полную информацию о групповых различиях относительнотрудности заданий дает мера взаимодействия между заданием и груп-пой, получаемая посредством дисперсионного анализа. Существуети другой метод, по которому определяется корреляция в двух группахпроцента выполнивших одни и те же задания или значений А. При отсут-ствии значимого взаимодействия между заданием и группой, т.е. еслиРис. 27. Двумерное распределение трудности заданий предварительного теста способ-ности к обучению для двух случайных выборок белых учеников-старшеклассников(W. Н. Angoff, S. F. Ford, 1973).С разрешения Национального совета по статистике в образовании201АНАЛИЗ ЗАДАНИЙотносительные трудности заданий одинаковы для обоих групп, эта кор-реляция должна быть близка к 1,0. Эти более совершенные средства ста-тистического анализа были применены для исследования предваритель-ного теста способности к обучению для старшеклассников. Изучениюбыло подвергнуто влияние на относительную трудность заданий этоготеста таких факторов, как этнический, социоэкономический и проживаниев городе или в сельской местности (W.H. Angoff, S.F. Ford, 1973;Т. A. Cleary, Т. L. Hilton, 1968). Было обнаружено значимое, хотя и слабое взаимодействие междузаданиями и группами. Корреляция между значениями А для двух этни-ческих групп была несколько ниже корреляции для двух случайных вы-борок из одной и той же этнической группы. На рис. 27 и 28 представ-лены два двумерных распределения показателя А. При сравнении двухслучайных выборок белых старшеклассников (рис. 27) значения показате-ля А для заданий теста оказались весьма сходными, причем коэффициенткорреляции достиг 0,987. Когда же были сопоставлены результаты белыхРис. 28. Двумерное роспредепение трудности заданий предварительного теста способ-ности к обучению для двух случайных выборок белых и черных учеников-старше-классников (W. Н. Angoff, S. F. Ford, 1973).С разрешения Национального совета по статистике в образовании10 12 14 16 Чмакйыия А для выбооки черных школьников202 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯи черных школьников (рис. 28), выяснилось, что для негритянских детейзадания не только были в целом труднее, но и имели несколько иную от-носительную трудность, на что указывает коэффициент корреляции 0,929. Попытки выяснить причины этих различий привели к следующимпредварительным выводам. Во-первых, обследование содержания зада-ний не вскрыло какой-либо связи между ними и известными различиямив предшествующем жизненном опыте сравниваемых групп. Во-вторых,уравнивание групп по когнитивной переменной, на которую были ориен-тированы задания, приводило к сокращению групповых различий как посреднему показателю, так и по взаимодействию между заданием и груп-пой. Последний результат указывает на то, что относительная трудностьзаданий зависит, по крайней мере отчасти, от абсолютного уровня раз-вития измеряемой тестом способности. Возможно, например, что лицас разными уровнями способностей пользуются при выполнении одногои того же задания различными методами решения задач или когни-тивными навыками. Поэтому задания, оказавшиеся относительнотрудными при решении их методом А, могут оказаться намного легче,если их решать методом В, и наоборот. Следует добавить, что все методы исследования взаимодействиямежду заданием и группой в тестах способностей применимы такжек личностным тестам. В последнем случае, правда, измеряется не труд-ность заданий, а относительная частота выбора конкретных ответовв тестах типа шкал способностей или личностных опросников. Отбор заданий для минимизации или максимизации груп-повых различий. При построении определенных тестов взаимодей-ствие между заданием и группой используется в качестве признака дляотбора заданий. В ходе разработки, например, тестов Станфорд-Винесоставители стремились исключить задания, ставящие представителейтого или иного пола в более выгодное положение. При этом предполага-лось, что такие задания отражают чисто случайные и несущественныеразличия в опыте двух полов (Q. McNemar, 1942, гл. 5). Однако ввидуограниченного числа заданий для каждого возрастного уровня было не-возможно изъять все задания, выполняемые по-разному представителя-ми полов. Поэтому чтобы исключить фактор пола из суммарного ре-зультата теста, оставшиеся задания такого рода были сбалансированытак, чтобы мальчики имели преимущество в таком же числе заданий, чтои девочки. Описанный подход, однако, нельзя применить ко всем случаям груп-повых различий. В то время как одни тесты, такие, как Станфорд-Бине,сглаживают различия в выполнении теста испытуемыми мужскогои женского пола, в других тестах такие различия сохраняются, но длякаждого пола приводятся отдельные нормы. Это чаще практикуетсяв тестах специальных способностей, в которых, как правило, системати-чески обнаруживается значительная разница в пользу одного или друго-го пола. Более того, при определенных обстоятельствах задания выбираютсяс целью не сократить, а довести до максимума различия между резуль-татами мужчин и женщин. Примером здесь служат шкалы мужественно-сти и женственности, разработанные для использования в некоторыхличностных опросниках (см. гл. 17). Поскольку цель этих шкал-опреде-лить, в какой степени ответы индивида согласуются со свойственной на-шей культуре характеристиками мужественности и женственности, то203 АНАЛИЗ ЗАДАНИЙв них сохраняются только те задания, которые обеспечивают значимоеразличение полов. Подобное разнообразие методик можно обнаружить и применитель-но к другим групповым различиям в выполнении заданий. При разра-ботке шкалы социоэкономического статуса многостадийного личностно-го опросника штата Миннесота (ММР1) сохранялись только те вопросы,которые значимо дифференцировали ответы старшеклассников, принад-лежащих к двум контрастным социоэкономическим группам (H.G.Ga-ugh, 1948). Перекрестная валидация этой шкалы на новой выборке стар-шеклассников обнаружила корреляцию 0,5 с объективными показателя-ми социоэкономического статуса. Цель этого теста-определить, в какойстепени индивидуальные эмоциональные и социальные реакции испытуе-мого сходны с реакциями, характерными для людей высшего или низше-го социоэкономического уровня. Поэтому задания, подчеркивающие раз-личия между социальными слоями, включались в тест, а те, которыеобладали низкой или нулевой разрешающей способностью, отбрасыва-лись. Эта процедура напоминает ту, которая была использована при раз-работке шкал мужественности и женственности. Очевидно, что в тестахобоих типов дифференциация групп является критерием, по которомупроводится валидация теста. В подобных случаях социоэкономическийуровень и пол являются соответственно наиболее существенными пере-менными, на основе которых выбираются задания. Можно также привести примеры противоположного подхода к со-циоэкономическим и культурным различиям в тесте. Широкое исследова-ние культурных различий в заданиях тестов интеллекта было предприня-то в Чикагском университете (К. Eells et а1., 1951). Исследователиполагали, что большая часть таких тестов ставит в невыгодные условиядетей из семей низших социоэкономических слоев, поскольку многие за-дания предполагают наличие у испытуемых информации, навыков и ин-тересов, типичных для детей из семей среднего достатка. Чтобы подтвер-дить эту гипотезу фактическими данными, был проведен детальныйанализ заданий восьми весьма распространенных групповых тестов ин-теллекта. По каждому заданию сравнивались частоты правильных отве-тов детей из семей более высокого и более низкого социоэкономическогоуровня. На основании полученных результатов двумя исследователямибыл подготовлен специальный тест, как предполагалось, более по отношению к американским детям из низших слоев городско-го населения. При разработке этого теста составители стремились ис-ключить из него задания, которые, как выяснилось, ставят в болеевыгодное положение детей из семей среднего достатка. Как и в случае различий пола, нельзя выработать при рассмотрениизаданий строгой линии поведения, ведущей к выявлению культурныхразличий, но можно указать на некоторые основные положения соста-вления и интерпретации тестов. Во-первых, вопрос о том, сохранить илиотбросить задание, значимо дифференцирующее те или иные группы, ре-шается в зависимости от назначения теста. Если прогнозируемые крите- Применение этого теста, известною под названием , быловпоследствии приостановлено, поскольку он оказался неудовлетворительным по ряду фак-торов, включая низкую валидность в прогнозировании школьной успеваемости и другихпрактических критериев. Более того, ожидаемое преимущество в этом тесте для детей низ-ших слоев населения не подтвердилось на других выборках.204 ПРИНЦИПЫ ПСИХОЛОГИЧЕСКОГО ТЕСТИРОВАНИЯрии существенно различаются для лиц разного пола, социоэкономиче-ского уровня или иных категорий, то задания теста, по всей вероятности,должны выявлять такие групповые различия. Устранить подобные зада-ния из теста-значило бы понизить его валидность по прогнозированиюданных критериев (A. Anastasi, 1966). Во-вторых, если с помощью тестапредполагается измерять сходство индивида с той или иной группой, тозадания должны, очевидно, усиливать различия между такими группами.Для тестов этого типа выбираются задания с наибольшими групповымиразличиями в ответах как в случае уже упоминавшихся шкал мужествен-ности и женственности или шкал социального статуса. В-третьих, этипроблемы касаются не столько составителя, сколько пользователя тестаи изучающих психологию, желающих правильно интерпретировать ре-зультаты теста. Тесты, задания которых прошли отбор согласно их выполнениючленами каких-либо конкретных групп, нельзя использовать для сравне-ния таких групп. Например, утверждение, что мальчики и девочки не от-личаются значимо по IQ шкал Станфорд-Вине, не дает никакой инфор-мации о различиях между ними. Эти различия были сознательноустранены в процессе отбора заданий для теста, и их отсутствие в окон-чательных результатах просто указывает на то, что данный аспект по-строения теста был успешно реализован. Точно так же отсутствие со-циоэкономических различий в результатах теста, построенного с цельюустранить такие различия, не даст нам никакой информации об относи-тельном выполнении этого теста группами разного социоэкономическо-го статуса. Тесты, в которых групповые различия доводятся до максимума (на-пример, шкалы мужского и женского начала или шкалы социальногостатуса), по тем же причинам не годятся для групповых сравнений.В этих случаях дифференциация по признаку пола или социоэкономиче-ского уровня искусственно преувеличена. Для получения несмещеннойоценки существующих групповых различий необходимо отбирать зада-ния безотносительно к результатам таких групп. Главный вывод, ко-торый следует сделать из настоящего обсуждения, состоит в том, чтодля правильной интерпретации результатов любого теста необходимознать, по какому признаку отбирались составляющие его задания.Часть 3ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГОРАЗВИТИЯГЛАВА 9. ИНДИВИДУАЛЬНЫЕ ТЕСТЫВо второй части мы познакомились с основными принципами психоло-гического тестирования и теперь можем применить их для оценки кон-кретных тестов. Третья, четвертая и пятая части книги преследуют двоя-кую цель. Во-первых, проследить за применением принципов тестирова-ния к разнообразным типам тестов. Во-вторых, познакомить читателяс некоторыми из наиболее характерных тестов в каждой из основныхобластей их применения, не пытаясь при этом дать их исчерпывающийобзор. Такой обзор не составляет цели данной работы и скорее всегоустарел бы еще до выхода книги в свет из-за той быстроты, с какой по-являются новые тесты. По этим причинам в каждой разновидности те-стов обсуждаются лишь несколько наиболее типичных, выбранных либоиз-за их общеупотребительности, либо из-за того, что они иллюстри-руют важные достижения в процедуре тестирования. При этом тесты об-щего интеллектуального развития рассматриваются в части 3, тесты от-дельных способностей-в части 4 и личностные тесты-в части 5.Тсли неоговорено особо, следует иметь в виду, что все данные об обсуждаемыхв книге тестах берутся из руководства по применению тестов или мето-дических приложений, которыми издатели снабжают тест. Обсуждаемые в части 3 виды тестов, традиционно называемые те-стами интеллекта, берут свое начало от шкал Вине. Эти тесты исполь-зуются в достаточно разнообразных ситуациях и валидны относительношироких критериев. Этим тестам свойственно применение единственно-,го показателя, такого, как IQ, свидетельствующего об общем уровне ин-теллектуального развития индивида. Обычный способ получить стольобщую оценку выполнения теста интеллекта- (L. М. Terman, М. A. Merrill, 1937, р. 4). Другими словами,индивиду предъявляется обширное множество задач в предположении,что таким образом будет обеспечена адекватная выборка всех важней-ших интеллектуальных функций. На практике же тесты обычно перегру-жены заданиями на измерение некоторых качеств, таких, как вербальныеспособности, и совершенно не затрагивают измерения других. Из-за того, что многие интеллектуальные тесты валидны по отноше-нию к академической успеваемости, они часто разрабатываются кактесты способности к обучению. Тесты интеллекта часто используютсякак отсеивающая процедура, предваряющая применение тестов спе-циальных способностей. Особенно часто они применяются в тестирова-нии нормальных детей в подростковом и юношеском возрасте иливзрослых при консультировании по вопросам обучения, выбора профес-сии, профессионального отбора и для других схожих целей. Еще однимдовольно распространенным применением тестов общего интеллектаявляется клиническое тестирование, особенно при определении умствен-ной отсталости. Для этих целей обычно .используются индивидуальныетесты. Среди наиболее употребительных индивидуальных тестов интел-лекта можно назвать обсуждаемые в этой главе шкалы Станфорд-Бинеи Векслера.206 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯШКАЛА СТАНФОРД-ВИНЕРазвитие шкал. Первые шкалы Бине-Симона вкратце уже были опи-саны в гл. 1. Напомним только, что шкала 1905 г. содержала всего лишь30 расположенных по степени трудности небольших заданий. Шкала1908 г. была первой возрастной шкалой, а шкала 1911 г. отличалась отнее незначительными улучшениями и добавлениями.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Возрастной диапа-зон шкалы 1911 г. охватывал период от 3 лет до взрослого состояния.Среди многочисленных переводов и адаптаций ранних тестов Бине былинесколько американских вариантов, среди которых самым жизнеспо-собным оказался тест Станфорд-Бине. Первый станфордский вариантшкал Бине-Симона, подготовленный Л.М.Терменом и его коллегамив Станфордском университете, был опубликован в 1916 г. (L.M. Terman,1916). В него было введено так много изменений и дополнений, что фак-тически он уже представлял собой новый тест. В этот тест было введеноболее одной трети новых заданий, а ряд старых или переделан, или пере-адресован к другим возрастным уровням, или отброшен. Вся шкала бы-ла заново стандартизована на национальной выборке, состоявшей при-близительно из 1000 детей и 400 взрослых. Были подготовленыподробные инструкции по применению и обработке показателей каждоготеста, а коэффициент IQ первое время применялся в любом психологи-ческом тесте. Вторая станфордская редакция теста, появившаяся в 1937 г., состоя-ла из двух эквивалентных форм LH М (L.M. Terman, М.А. Merill, 1937).В этом варианте шкала была значительно увеличена в объеме и пол-ностью рестандартизована на новой и тщательно отобранной выборкеиз населения США. Для этой цели были привлечены 3184 испытуемых,среди которых на каждую возрастную группу от 1,5 до 5,5 лет (группыотличались полугодовым интервалом) приходилось приблизительно по100 детей, по 200 индивидов приходилось на каждую возрастную группуот 6 до 14 лет и по 100 на каждую группу от 15 до 18 лет. У всех испы-туемых день рождения приходился на один и тот же месяц или по край-ней мере на одно и то же полугодие; в каждую возрастную группу вхо-дило равное количество мальчиков и девочек. Испытуемые от 6 лети старше тестировались в школе, хотя для групп из более взрослых де-тей, с тем чтобы заполнить выборку, привлекались и не учащиесяшколы. Детей дошкольного возраста набирали разными путями, многиеиз них были просто родственниками включенных в выборку школьников.Несмотря на стремление представить в выборке разные слои населения,ее состав был выше в социально-экономическом отношении, чем населе-ние США: преобладали городские жители и включались только предста-вители коренного белого населения. Опубликованная в 1960 г. третья редакция вводила единую форму(L-M), объединившую в себе лучшие задания двух форм 1937 г.(L. М. Terman, М. A. Merrill, 1960). Это давало возможность, не вводя но-вого содержания, исключить устаревшие задания и пересмотреть поря- Подробный разбор шкал Станфорд-Бине, их развития, использования и интерпре—"""""Ї в паботе Дж. Саттлера (J.M. Sattler, 1974, гл. 8-10). — —"-" поскольку каждый предъяв-207ИНДИВИДУАЛЬНЫЕ ТЕСТЫдс заданий, чей уровень трудности за прошедшие годы, изменившиекультурный уровень общества, стал иным. При подготовке тестов Стан-форд-Бине 1960 г. их создатели столкнулись с обычной дилеммой пси-хологического тестирования. С одной стороны, частые переделки тестажелательны, поскольку позволяют воспользоваться методическими до-стижениями, усовершенствованиями в построении тестов и накопленнымопытом применения теста, а также соотнести содержание теста с совре-менными условиями жизни. Последнее особенно важно для заданий наинформированность и для изобразительного материала теста, чье содер-жание подвержено влиянию моды: изменению фасонов одежды, домаш-ней утвари, машин и других предметов. Использование теста с устарев-шим содержанием может значительно уменьшить взаимопониманиеиспытуемого и экспериментатора и повлиять на уровень трудности зада-ний. С другой стороны, пересмотры теста могут привести к тому, что на-копленные данные о тесте окажутся неприменимыми к его новому ва-рианту. По тестам, широко применявшимся многие годы, накапливаетсябольшой материал по интерпретации их результатов, значимость ко-торых необходимо тщательно взвесить прежде, чем признать необходи-мость переделки теста. По этой причине создатели шкалы Станфорд-Бине предпочли свести две прежние формы в одну, тем самымпреодолевая опасность старения и ненужности теста. Отказ от парал-лельной формы не был слишком большой платой для достижения этойцели. В 1960 г. необходимость во взаимозаменяемой форме ощущаласьменее остро, чем в 1937 г., когда не существовало иных достаточно раз-работанных индивидуальных шкал интеллекта. При подготовке шкалы 1960 г. задания из форм L и М отбиралисьна основе их выполнения 4498 испытуемыми в возрасте от 2,5 до 18 лет,которым предъявляли в период между 1950 и 1954 гг. либо одну, либообе формы теста. Испытуемые были отобраны в 6 штатах, расположенных на северо-востоке и западе страны. Хотя такой подбор испытуемых и не составлялрепрезентативной выборки американских школьников, некоторые мерыпредосторожности позволили избежать действия основных селективныхфакторов. Станфорд-Бине 1960 г. не предусматривал рестандартиза-ции нормативной шкалы. Новые выборки были использованы толькодля того, чтобы выявить изменения в трудности заданий, происшедшиеза истекший период. Соответственно, трудность каждого задания былаопределена заново на основании процента детей, выполнивших задания1937 г. в последовательности умственных возрастов. Чтобы проанализи-ровать задание, группы формировались не по фактическому возрасту де-тей, а в соответствии с тем умственным возрастом, который они получи-ли после выполнения этих форм. Следовательно, умственный возрасти IQ в форме L-M 1960 г. по-прежнему выражался в терминах норматив-ной выборки 1937 г. Следующей стадией была рестандартизация формы L-M, произве-денная в 1972 г. (L.M.Terman, М.А. Merrill, 1973, часть 4). На этот раз Для специального статистического анализа были сформированы две дополни-тельные выборки детей из Калифорнии, состоявшие из 100 6-летних детей, стратифициро-ванных относительно общественного положения их отцов, и из 100 15-летних детей, стра-т-игЬипиоованных относительно как положения отцов, так и распределения отметок208 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ / /содержание теста осталось неизменным, но нормы были получены/надвух новых выборках, состоявших приблизительно из 2100 человек, про-шедших тестовые испытания в 1971/72 учебном году. Чтобы получитьрепрезентативность выборки в масштабах страны и учитывая практиче-скую невозможность предъявления индивидуальных тестов к чрезмернобольшой выборке, издатели теста воспользовались выборкой, поручен-ной при стандартизации группового теста познавательных способностей(в каждом возрастном уровне испытание прошли около 20000 детей).Эта выборка, состоявшая почти из 200 000 школьников с III по XII класс,была сформирована из детей, принадлежавших к разным слоям обще-ства, учитывала численность таких социальных групп, их место житель-ства, экономический статус и включала детей негров, мексиканцеви пуэрториканцев. Дети, тестировавшиеся тестом Станфорд-Бине, идентифицирова-лись на основе их показателей по вербальной батарее теста познава-тельных способностей таким образом, что распределение показателейв этой подвыборке соответствовало национальному распределению вы-борки в целом, за исключением детей, чей родной язык, на котором ониговорили дома, не был английским. Для того чтобы представить возрастот 2 до 8 лет, исследователи привлекли младших членов семей детей извыборки для группового теста. При этом каждый ребенок подбиралсяв группу на основе тех показателей, которые были получены их старши-ми братьями и сестрами по тесту познавательных способностей. Выбор-ки теста Станфорд-Бине состояли приблизительно из 100 детей длякаждой возрастной группы от 2 до 5,5 лет (с интервалом в 0,5 года) и от6 до 18 лет (с интервалом в 1 год). По сравнению с нормами 1937 г. нормы 1972 г. основывались на бо-лее репрезентативной выборке и, будучи более современными, отражалипроисшедшие культурные изменения, повлиявшие на выполнение теста.Интересно отметить, что эти нормы выявили некоторое улучшение в вы-полнении тестов во всех возрастных группах. Выполнение значительноулучшилось в дошкольном возрасте, в среднем IQ увеличился на 10 еди-ниц. Авторы теста объясняют этот феномен воздействием, наряду с дру-гими изменениями в культуре, радио и телевидения, ростом грамотностии общего образовательного уровня родителей. Наблюдалось также не-сколько меньшее, но заметное повышение уровня выполнения тестав возрасте 15 лет и выше, что, как полагают авторы, может быть связанос увеличением в 70-х гг. числа учащихся, продолжающих свое образова-ние в высшей школе. Проведение тестирования и обработка результатов. Мате-риалы, необходимые для проведения теста Станфорд-Бине, можно уме-стить в чемоданчик. Туда войдут стандартный набор игрушек для тести-рования детей младшего возраста, 2 тетради с распечатаннымикарточками, тетрадь с протоколами для регистрации ответов и руковод-ство по применению теста. Тесты группируются по возрастным уровнямот уровня II до уровня взрослого. Для уровней 11-V тесты составляютсяс разницей в полгода. Таким образом, существуют тесты, относящиесяк уровням II, 11-6, III и т. д. Поскольку дети в это время развиваются до- За исключением двух незначительных изменений: для возраста II были осовреме-нены картинки с изображением кукол и в тестах сходства для возраста VII слова .ИНДИВИДУАЛЬНЫЕ ТЕСТЫстточно быстро, желательно проводить измерения через каждые 6 меся-цев. Для возрастных уровней от V до XIV тесты учитывают разницув возрасте в один год. Остальные уровни обозначаются как подрост-ковый и взрослый 1, II и III уровни. Батарея тестов для каждого возраст-ного уровня, за исключением подросткового, состоит из 6 тестов. Дляподросткового уровня предлагаются 8 тестов. есты внутри каждого возрастного уровня примерно одинаковы потрудности и расположены без учета сложности заданий. Дя каждоговозрастного уровня предусмотрен запасной тест этой же степени трудно-сти, применяющийся по мере необходимости вместо любого из тестовэтого уровня, например когда один из основных тестов нельзя использо-вать, поскольку он не подходит данному индивиду или что-то мешаетего предъявить. 4 теста из каждого уровня в соответствии с их валидностью и репре-зентативностью отбираются для сокращенной шкалы, которой пользуют-ся в тех случаях, когда время не позволяет предъявить шкалу полностью.Эти тесты отмечаются в их распечатках звездочками. Сравнения IQ, по-лученных по полной и сокращенным шкалам на разных группах испы-туемых, установили достаточно полное соответствие между ними, корре-ляция приблизительно так же высока, как коэффициент надежностиполной шкалы (P.Himelstein, 1966; J.M. Saltier, 1974, p. 116;L.M. Terman, M.A. Merrill, 1973, p. 61-62). Среднее значение IQ, однако,слегка снижается на короткой шкале. Это расхождение проявляетсяи при сравнении числа испытуемых, показавших в каждом из вариантовшкалы более высокие результаты. Свыше 50Їо из них в коротком ва-рианте по сравнению с полным получают более низкие значения IQи только у ЗОо значение IQ выше. Так же как и большинство тестов интеллекта тест Cтaнфopд-Бинeтребует хорошо подготовленных экспериментаторов. И предъявлениеи обработка многих тестов достаточно сложны. Поэтому четкое прове-дение теста невозможно без достаточного знакомства и опыта работы сошкалой. Нерешительность и неумелость могут губительно сказаться навзаимопонимании с испытуемым. Незначительные изменения в сло-весных формулировках могут изменить трудность заданий. Проведениетеста усложняет также необходимость его обработки сразу же послепредъявления, поскольку последующее проведение испытания зависит оттого, как выполнил ребенок задания предыдущих уровней. Многие клиницисты относятся к тесту Станфорд-Бине не толькокак тесту стандартизованному, но и как к диагностическому интервью.Те же особенности, которые столь затрудняют применение этой шкалы,делают эти тесты -крайне удобными для взаимодействия психологаи обследуемого и позволяют опытному клиницисту выявить необходи-мую ему для диагноза информацию. Более чем какие-либо иные индиви-дуальные тесты тест Станфорд-Бине позволяет наблюдать методы ум-ственной работы испытуемого, его подход к проблеме и другиекачественные аспекты выполнения заданий. Экспериментатор может так-же судить о некоторых личностных качествах, таких, как уровень актив-ности, уверенность в себе, настойчивость, способность сосредоточиться.Конечно, любые качественные наблюдения, делаемые в момент проведе-ния теста Станфорд-Бине, необходимо фиксировать именно как наблю-дения, но не интерпретировать тем же способом, что и объективные те-стовые показатели. Ценность качественных наблюдений зависит от210 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯумения, опыта и психологического чутья психолога, от его понимания,насколько метод наблюдения ограничен и необъективен. Виды клиниче-ских наблюдений, осуществляемых в ходе проверки интеллекта индиви-да, подробно разбираются в работах, А. Е. Мориарти (А. Е. Moriarty,190; 1961: 1966). В тесте Станфорд — Вине ни один испытуемый не проверяется на вы-полнение всех заданий. Индивиду предъявляются только те задания, ко-торые соответствуют его интеллектуальному уровню. Обычно для про-ведения тестирования маленьких детей требуется 30-40 мин, для болеестарших не более 1,5 ч. Стандартная процедура тестирования начинаетсяс заданий, относящихся к более низкому уровню, чем умственный воз-раст испытуемого. Это значит, что первый предъявляемый тест долженбыть достаточно легким, чтобы появилась уверенность в своих силах, ноне настолько легким, чтобы испытуемому стало неинтересно. Если инди-вид не справился с предварительным тестом, ему следует предъявить за-дания из теста, адресованного к еще более низкому уровню. Эта проце-дура продолжается до тех пор, пока испытуемый не справится со всемизаданиями теста. Этот уровень называется базовым возрастом. Затем те-стирование продолжается по возрастающему уровню до тех пор, пока накаком-то уровне во всех тестах испытуемый терпит неудачу. Этот уро-вень называется потолочным возрастом. По достижении этого уровнятестирование заканчивается."; Задания или тесты Станфорд-Бине обрабатываются по принципу . В руководстве по каждому тесту устанавливается тотминимальный уровень исполнения, с которого тест считается выпол-ненным.. -Например, при идентификации предметов для возрастногоуровня 11-6 тест считается решенным, если ребенок правильно опознает3 из 6 предложенных предметов, для уровня VIII задание на пониманиевопросов считается выполненным, если даны правильные ответы налюбые 4 из 6 представленных вопросов. Некоторые тесты даются на раз-ных возрастных уровнях, но критерии их выполнения для каждого уров-ня свои. Предъявляется такой тест лишь однажды, и его выполнениеопределяется по тому возрастному уровню, к которому отнесен индивид.Например, результаты теста на словарный запас могут быть подсчитаныдля любого уровня от VI до II взрослого в зависимости от числа слов,определенных правильно. Задания, решенные или не решенные испытуемым, дают опреде-ленный разброс на соседние возрастные уровни. Не бывает такого, чтобыиспытуемые решили все тесты своего или более низкого умственноговозраста и потерпели неудачу во всех тестах выше их уровня. Кроме то-го, успешно решенные тесты распределяются по нескольким уровням отбазового до потолочного возраста испытуемого. Умственный возрастиндивида в шкалах Станфорд-Бине находится принятием базового воз-раста и прибавлением к нему добавочных месяцев за каждый правильнорешенный тест, находящийся выше этого уровня. Для уровней 11-V с по-лугодовыми интервалами каждый решенный из 6 тестов засчитываетсяза 1 мес, для уровней VI-XIV решение одного теста из 6 тестов соответ-ствует 2 добавочным месяцам. Поскольку на каждый из взрослых уров-ней приходится более чем 1 год умственного возраста, то число доба-вочных месяцев определяется в зависимости от величины интервала-.." птаии и ЧИСЛОМ ТОСТОВ. Например, ДЛЯ ПОДРОСТКОВОГО ВОЗ-211 ИНДИВИДУАЛЬНЫЕ ТЕСТЫранивается к 2 мес умственного возраста. Взрослый уровень 1 содержит6 Тестов, и выполнение одного принимается за 4 мес умственноговозраста. Высший умственный возраст, теоретически достигаемый по тестуСтанфорд-Бине, составляет 22 года и 10 мес. Такой показатель, конечно,есть не истинный умственный возраст, а лишь количественный показа-тель степени превосходства над выполнением тестов подросткового воз-раста. Разумеется, он не соответствует среднему достижению для 22-лет-них (согласно нормам 1972 г., в среднем 22-летние испытуемые получаютумственный возраст XVI-8). Для любого взрослого старше 18 лет ум-ственный возраст XVI-8 свидетельствует о том, что по этой шкале испы-туемый достигает IQ, равного 100. Фактически после 13 лет умственныйвозраст уже не столь важен в сравнении с его значимостью для болеенизких уровней; после 13 лет среднее значение умственного возраста на-чинает отставать от фактического возраста. Шкала Станфорд-Бине непригодна для тестирования взрослых, и в первую очередь тех, чье ум-ственное развитие находится в пределах и выше нормы. Несмотря на на-личие в шкале 3 взрослых уровней, это не достаточный предел для боль-шинства взрослых с высоким умственным развитием или даже для оченьразвитых подростков (W.A. Kennedy et а1" 1960). В таких случаях частоневозможно достичь потолочного возрастного уровня, означающего, чтовсе тесты данного уровня были не решены. Более того, большинство те-стов Станфорд-Бине адресованы детям, а не взрослым, и их содержаниевряд ли показалось бы интересным большинству взрослых. Интерпретация нормативов.. Главное новшество шкал Стан-форд-Бине в 1960 г. состояло в замене относительного IQ стандартным.Стандартные IQ-это тип стандартных показателей со средним значе-нием 100 ист равным 16. Как уже объяснялось в гл. 4, принципиальноедостоинство такого типа IQ -возможность сравнивать показатели всехвозрастных уровней, поскольку при этом сводится на нет неустойчивостьоценки относительного IQ. Несмотря на меры предосторожности, с ко-торыми разрабатывались шкалы 1937 г. с целью избежать изменчивостиIQ во всех возрастах, ст относительного IQ в этих шкалах колебалось от13 для возраста VI до 21 для возраста 11-6. А это значит, что IQ = 113для возраста VI соответствовало IQ = 121 для возраста 11-6. Чтобы как-то учесть значительную изменчивость IQ в шкалах 1937 г., разрабатыва-лись специальные коррекционные таблицы (Q. McNemar, 1972,р. 172-174). Все эти трудности были преодолены в форме 1960 г. использованиемстандартного IQ, имеющего одно и то жест по всему возрастномудиапазону. В помощь экспериментатору С. Р. Пиннью были подготовлены та-блицы стандартного IQ для умственного и фактического возраста, рас-писанные по годам и месяцам. Эти таблицы приводятся в руководствахк проведению теста Станфорд-Бине (L.M.Terman, M.A.Merrill, 1973).Самое последнее из них содержит нормативные таблицы IQ как 1972,так и 1937 г. Для основных частей тестирования пригодны нормы 1972 г.,позволяющие сравнить выполнение теста ребенком с результатами дру-гих детей его возраста. Но чтобы сравнить показатели IQ с IQ, полу-ченными ранее, более удобны нормы 1937 г. Они предпочтительней при > прповании или при сравнении IQ ис-212 ТЕСТЫ ОБЩЕГО И1-1ТК.ПЛЕКТУАЛЬНОГО РАЗВИТИЯнем возрасте. В этом случае стандартизованная выборка 1937 г. предста-вляет фиксированную референтную группу подобно той, какую соста-вляют студенты, тестированные тестом способности к обучению (SAT)Совета колледжей в 1941 г. (см. гл. 4). Хотя стандартный IQ очень удобен для оценки места индивида в еговозрастной группе, МА (умственный возраст) сам по себе также весьмаполезен. Неспециалисту гораздо понятнее сообщение, что 6-летний ребе-нок выполняет задания так же хорошо, как 8-летний, нежели слова, чтоIQ этого ребенка равно 137. Знание умственного возраста (МЛ) ребенкапомогает понять, сколь велики будут его успехи в обучении и насколькобыстро он развивается. Следует отметить, что МА, получаемый с по-мощью шкал Станфорд-Бине, выражается в соответствии с нормами1937 г., и только таблицы IQ включают переработанные нормы 1972 г.Обращение к этим таблицам покажет, например, что IQ 5-летнего ребен-ка, получившего МА = V-0, не равен 100. Чтобы получить IQ, равный100 по нормам 1972 г., этот ребенок должен иметь МА равный V-6. Одно из преимуществ шкал Станфорд-Бине связано с массой нако-пленных по ней интерпретирующих данных и клинического опыта. Длябольшинства клиницистов, преподавателей и людей, занимающихсяоценкой уровня общих способностей, IQ, полученный в шкалах Стан-форд-Бине, стал почти синонимом интеллекта. Многое уже известноо поведении, которое можно ожидать от ребенка, получившего по этомутесту IQ равное 50, или 80, или 120. Распределения IQ в последова-тельных выборках стандартизации (1916, 1937, 1972) обеспечили общуюсистему отсчета для интерпретации IQ. Поскольку величину ошибки измерения IQ, полученного по шкалеСтанфорд-Бине, принято считать приблизительно по 10 единиц в ка-ждую из сторон от полученного значения IQ, то любое значение IQв промежутке от 90 до 110 единиц считается эквивалентным среднемуIQ, равному 100. Коэффициенты, превышающие 110, рассматриваютсякак высшие, а меньше 90-как низшие отклонения. Не существует обще-принятой системы отсчета для классификации высших значений IQ. Од-нако заслуживает внимания тот факт, что в классическом длительном ис-следовании одаренных детей, проводившемся Л. Терменом и егоколлегами, в группу испытуемых включались дети, IQ которых как ми-нимум равнялся 140 (L.M.Terman, M.H.Oden, 1959). Для другого конца шкалы существует достаточно известная класси-фикация умственной отсталости в отношении способности к обучению.По этой классификации различаются обучаемые, тренируемые в опреде-ленных пределах и лица, нуждающиеся в опеке. Первая категория детейс IQ в диапазоне от 50 до 75 может при специально организованнойучебной работе продвинуться по крайней мере до III, а в некоторых слу-чаях до VI класса. Вторая категория детей с IQ от 25 до 50 может бытьобучена навыкам самообслуживания и приспособиться к специально ор-ганизованной социальной среде. Те же, чей IQ ниже 25, обычно нуждают-ся в опеке и специальном уходе. В своей инструкции по терминологии и классификации Американ-ская ассоциация по изучению умственной неполноценности (AAMD) на-зывает 4 уровня умственной отсталости, определяемые в соответствии состандартным отклонением. Эта классификация приводится в табл. 23 …….. """""д i соответствующих каждому уровнюСтепени умственной отсталости, согласноИнструкции Американской ассоциации поизучению умствениой иеполиоцеиности.(Данные в первых двух колонках вмтыу X. Гроссмана (1-1. Grossman, 1973, р. 18))С разрешения AAMDНормативные Диапазон JQ Процент точки (в по Стан- случаев ст единицах форд-Ьине среднего (о = 16) значения)СтепеньЛегкая-268-522,14Средняя-351-360,13Тяжелая-435-200,003Глубокая19 и ниже0,00003Z13 ИНДИВИДУАЛЬНЫЕ ТЕСТЫвана на разделении нижней части Таблица 23кривой нормального распределенияна отрезки величиной в 1 о каждый,начиная с — 2ст. Преимущество такойклассификации состоит в том, чтоона может быть легко переведенав стандартные показатели или стан-дартный IQ по любой шкале. По-скольку стандартный IQ для шкалыСтанфорд-Бине имеет а = 16, лег-кая степень, расположенная от- 20 вниз до — За, имеет диапазонот 68(100-2х16) до 52(100 -3 xx 16). Остальные диапазоны IQ мо-гут быть найдены точно так же. Про-цент вероятности случаев для каждо-го уровня рассчитывается исходя изнормального распределения (см.рис. 6, гл. 4) и полностью совпадает с найденным эмпирическим путемпроцентом людей с такими уровнями IQ в популяции в целом. Частота ум-ственной отсталости в общей популяции обычно считается близкой к 1Ї/ц.Руководство к шкале Станфорд-Бине содержит еще одну классифика-цию уровней умственной отсталости, основанную на несколько иныхпределах IQ. Эта классификация широко используется как системаотсчета для интерпретации данных психологами-клиницистами (L.М. Terman, М.А. Merill, 1973, р. 18). Применение таких классификаций уровней IQ, хотя несомненно по-могает при стандартизации интерпретации выполнения теста, чреватоопределенными последствиями. Как и любые классификации личности,ее не следует ни применять буквально, ни использовать без привлечениядругих данных об индивиде. Не существует, конечно, четких границ нимежду умственной отсталостью и нормой, ни между нормой и одарен-ностью. Известно, что индивиды с IQ, равным 60, могут вполне приспо-собиться к требованиям повседневной жизни, в то время как некоторыеиндивиды с IQ близким к 100 могут нуждаться в изоляции. Решение о помещении в лечебное учреждение, об излечении, об от-мене и назначении специального курса обучения умственно отсталыхдолжно основываться не только на учете значения IQ, но также на ана-лизе социальной зрелости, эмоциональной устойчивости, физического со-стояния и других особенностей, характерных для данного случая. AAMD определяет умственную отсталость как (Н. Grossman, 1973, р. II). Это опреде-ление достаточно точно оговаривает условие, что ребенка не следуетопределять как умственно отсталого, если только не выявлено его отста-вание как в функционировании интеллекта, на что указывает уровень IQ,так и в адаптивном поведении, проверенном такими методами, как шка-ла социальной зрелости школы в Вайнленде или шкала адаптивного по-ведения AAMD (см. гл. 10). Высокие IQ не обязательно являются признаком гениальности. Лица -"" iftO иногда незаметно проводят свои дни, в то время как214 ТЕСТЫ ОЫЦЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯнекоторые обладатели IQ, близкого к 100, могут добиться выдающихсяуспехов. Высокие достижения в конкретных областях могут означатьспецифический талант, оригинальность, настойчивость, целеустремлен-ность и другие благоприятные эмоциональные и мотивационныеусловия. Надежность. Надежность теста Станфорд-Бине 1937 г. опреде-лялась путем корреляций значений IQ форм L и М, проводившихсяв нормативной группе с интервалом в одну неделю и менее. Коэффи-циенты надежности измеряли, таким образом, краткосрочную времен-ную стабильность и эквивалентность содержания по двум выборкам за-даний. Подробнейший анализ надежности этого теста с учетом возрастаи уровня IQ испытуемых (Q. McNemar, 1942, гл. 6) показал, что, как пра-вило, тест Станфорд-Бине более надежен для лиц старшего возрастаи для испытуемых с недостаточно высоким IQ. Так, в возрасте от 2,5 до5,5 лет коэффициенты надежности колеблются от 0,83 (для IQ 140-149)до 0,91 (для IQ 60-69); для возраста от 6 до 13 лет они колеблются от0,91 до 0,97 соответственно тем же уровням IQ, и для возраста от 14 до18 лет соответствующий диапазон коэффициентов надежности прости-рается от 0,95 до 0,98. Увеличение надежности показателей с увеличением возраста испы-туемых вообще характерно для тестов. Отчасти оно есть следствие луч-шего контроля условий, который возможен с более старшими испы-туемыми (особенно по сравнению с дошкольниками). Еще однимфактором является замедление с возрастом скорости развития. Когданадежность измеряется с помощью повторного тестирования, индивиды,подверженные меньшим изменениям, вероятно, покажут через короткийпериод времени меньше случайных колебаний (S. P. Pinneau, 1961, гл. 5). Более высокая надежность, получаемая для более низких уровнейIQ, независимо от фактического возраста, по-видимому, связана со спе-цифическими структурными характеристиками теста Станфорд-Бине.Напомним, что из-за разницы в числе заданий, даваемых для разныхвозрастных уровней, выполнение каждого задания приравниваетсяк 1 мес на самых низких уровнях, к 2 мес на средних уровнях и к 4,5 или6 мес на самых высоких уровнях. Такое распределение весов заданий уве-личивает ошибку измерения в высших уровнях, поскольку случайное вы-полнение или невыполнение одного задания сильнее влияет на значениесуммарного показателя, чем на более низких уровнях. Так как при лю-бом фактическом возрасте индивиды с более высоким IQ тестируютсяпо шкале для более высоких возрастных уровней, эти IQ будут иметьбольшую ошибку измерения и более низкую надежность (S. P. Pinneau,1961, гл. 5). Взаимосвязь между уровнем IQ и надежностью в шкалахСтанфорд-Бине поясняется на рис. 29, изображающем бивариантноераспределение IQ, полученных 7-летними детьми по формам L и М.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Изрисунка видно, что индивидуальные результаты приближаются к диаго-нали на более низких уровнях и отходят от нее на более высоких уров-нях. Это означает большую согласованность между IQ по формам Lи М на более низких уровнях и меньшую на уровнях более высоких. Притакой веерообразной форме распределения единственный коэффициенткорреляции вводит в заблуждение. По этой причине приводятся от-дельные коэффициенты надежности для разных диапазонов IQ. В целом данные показывают, что тест Станфорд — Бине обладает вы—….", ,rгauwтhю. большинство из опубликованных коэффициентов215ИНДИВИДУАЛЬНЫЕ ТЕСТЫнадежности для различных возрастов и уровней превышают 0,9. Такиевысокие коэффициенты надежности были получены несмотря на то, чтоони вычислялись для каждой возрастной группы отдельно. Напомнимв этой связи, что дни рождения всех испытуемых в выборке стандартиза-ции располагались в зависимости от возрастного уровня в пределах1 мес или полугода. Такие ограничения на возрастной диапазон моглитакже ухудшить значение коэффициентов надежности, поскольку длябольшинства тестов используются более разнородные выборки. В терминах индивидуальных значений IQ коэффициент надежности,равный 0,90, и IQ ребенка, установленный по тесту Станфорд-Бине, отли-чается 5 единицами или менее от IQ, полученного в единичном тестиро-вании, и шанс 95 из 100, что он изменится не более чем на 10 единицРис. 29. Надежность шкалы Станфорд-Бине, определенная методом взаимозаменяемыхформ: двумерное распределение IQ 7-летних детей, полученных по формам L и М(L. М. Тегтап, М. A. Merrill, 1937).Р разрешения Хаугтон Миффлин Компани145-149 140 -144 135-139 130-134 125-129 120-124 115-119 110-114 105-109 100 -104 95 — 99 190-94 185-89 080-84 75-79 70-74 65-69 60-64 55-59 50-54 45-49 40-4411111111111111111111111411MIIII111wt iwt iwt iii1i1нн-iiwt nilIII411111т iiwt iii1/iiiIIIwt wt1111HH-11м IIIн> HHIwt iMIll1///тWtWt1///iii1///1///////-т>(т>l-cnст)lcэ-а-i5cDГg;r?;аrg>-,3-ir)ini?u3 [.ооооспспоОг iоLr) ОIT) ЮО 10 ОСМ СМ ГО216 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ(5 х 1,96 = 9,8). Имея в виду найденные в коэффициентах надежностиразличия, можно сказать, что ошибки измерения будут выше для млад-ших, нежели для старших детей, и несколько выше для индивидов с бо-лее развитым интеллектом. Валидность. Информация о валидности по содержанию тестаСтанфорд-Бине обеспечивается проверкой заданий, выполняемых испы-туемыми в различных тестах. Диапазон этих заданий достаточно широк:от простого манипулирования до абстрактного мышления. Тесты самыхранних возрастных уровней проверяют главным образом зрительно-мо-торную координацию, перцептивное различение и способность следоватьуказаниям типа: сложить кубики, нанизать бусинки, сравнить длину, со-поставить геометрические фигуры. Значительное количество тестов длясамых низких уровней включает также опознание, общеизвестных пред-метов, предъявляемых в виде игрушек или на картинках. Некоторые тесты, используемые в разных возрастных диапазонах,выявляют способность к здравым суждениям. Например, испытуемогоспрашивают: В других тестах его просят объяснить, почемупринято следовать определенным правилам или для чего в повседневнойжизни используются некоторые предметы. К этой же категории можноотнести тесты на интерпретацию ситуаций, описанных словесно илиизображенных на картинках, на обнаружение нелепостей либо на картин-ках, либо в коротких рассказах. Тесты на память применяются по всейшкале, и их содержание весьма разнообразно. От индивида требуетсявспомнить или узнать предметы, картинки, геометрические конструкции,расположение бусинок, цифры, предложения и содержание прочитанноготекста. Разброс по возрастным уровням некоторых тестов на простран-ственную ориентацию также достаточно широк. Здесь и поиски выходаиз лабиринта, складывание и разрезание бумаги, воспроизведение распо-ложения геометрических фигур, ориентирование в заданном направле-нии. Навыки, приобретенные в школе, такие, как умение читать и знаниеарифметики, требовались только на высоких возрастных уровнях. Наиболее распространенные типы тестов, особенно для высших воз-растных уровней, это тесты, использующие вербальное содержание.В эту категорию входят такие хорошо известные тесты, как тесты насловарный запас, аналогии, завершение и упорядочение предложений,определение абстрактных понятий и интерпретация пословиц. Некоторыетесты относятся к плавности, беглости речи, например называние какможно быстрее не связанных между собой слов, подбор рифм или по-строение предложений из трех заданных слов. Следует также отметить,что многие тесты, построенные с минимальным использованием вер-бального содержания, тем не менее требуют понимания довольносложных словесных инструкций. То, что вся шкала затрагивает в основ-ном вербальные способности, видно из корреляций, полученных междусловарным тестом из 45 слов и умственным возрастом для шкалы в це-лом. Эти корреляции равны 0,71; 0,83; 0,86 и 0,83 для групп испытуемыхсоответственно в возрасте 8, II, 14 и 18 лет (Q. McNemar, 1942,р. 139-140; A.J. Edwards, 1963). Корреляции по крайней мере столь же Будучи корреляциями части и целого, такие корреляции приводят к неоправданно-му включению теста на словарный запас в определение умственного возраста, хотя влия-ние этого теста весьма незначительно, поскольку его задания составляют лишь 5Ї/" от об- — _".."".," .,"""""" ( McNemar. 1942, р. 140).217 ИНДИВИДУАЛЬНЫЕ ТЕСТЫвысоки, как и обычные корреляции тестов, предназначенных для измере-ния одних и тех же функций, и их числовое значение никак не отклоняет-ся от обычных коэффициентов надежности. Поскольку все перечисленные функции релевантны тому, что обычноприписывается интеллекту, можно сказать, что шкала имеет валидностьпо содержанию. Преобладание вербального содержания тестов для выс-ших уровней оправдывается их авторами следующей теоретическойпозицией: (L. М. Terman, М.-А. Merrill, 1937, р. 5). Следует добавить, что психологи-клиницисты разработали схемыклассификации тестов Станфорд-Бине как средства качественного опи-сания выполнения теста индивидами (J.M.Sattler, 1974). Структурныйанализ успехов и неудач выполнения испытуемым различных функцийможет указать на необходимые средства для последующего клиническо-го изучения. Результаты такого анализа, однако, должны рассматривать-ся как предварительные и интерпретироваться с осторожностью. Боль-шинство функций представлены слишком незначительным числом тестови не могут быть измерены с достаточной надежностью, а степень рас-смотрения какой-то одной функции заметно меняется от одного возраст-ного уровня к другому. Данные критериальной валидности теста Станфорд-Бине, как одно-временной, так и предсказательной, были получены главным образом наоснове академической успеваемости. Со времени публикации исходнойшкалы 1916 г. были вычислены многочисленные корреляции между IQпо тесту Станфорд-Бине и школьными оценками, мнением учителейи показателями по тесту достижений. В основном эти корреляции распо-лагаются в диапазоне от 0,40 до 0,75. Было установлено также, что успе-хи в школе связаны со значением IQ по тесту Станфорд-Бине. У детей,обгонявших своих сверстников на один или более класс, среднее значе-ние IQ было явно выше, чем у детей, учившихся в классах в соответствиисо своим возрастом; у детей, отстававших на один или более класс, сред-нее значение IQ было значительно ниже (Q. McNemar, 1942, гл. 3). Как и у большинства тестов интеллекта корреляция шкалы Стан-форд-Бине с успешностью обучения почти для всех учебных предметоввесьма высока, но она особенно высока для предметов, где преобладаетсловесный материал, например язык или история. Корреляция с тестамидостижений почти та же самая. В исследовании старшеклассников, на-пример, IQ по форме L коррелировал на уровне 0,73 с показателями потесту на понимание прочитанного, на уровне 0,54 с успеваемостью побиологии и 0,48 с успехами по геометрии (Е.А. Bond, 1940). Как устано-влено, корреляция с оценками в колледже составляет 0,5 и 0,6. У студен-тов колледжа и факторы отбора, и недостаточный верхний предел тестачасто снижают корреляции. Валидность формы L-M 1960 г. исследована недостаточно(P. Himelstein, 1966). В работе В. А. Кеннеди, В. Ван де Рейта и Дж. УайтаCW A Kftnnerlv V Van fie Reit. J. White. 1963) установлено, что корреля-218 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯвнушительная выборка детей из негритянской начальной школы) равна0,69, причем корреляция с показателями по отдельным частям этой бата-реи была для чтения 0,68, арифметики-0,64, языка-0,7. Интерпретация IQ неизбежно наталкивает на мысль, что тест Стан-форд-Бине, подобно большинству так называемых тестов интеллекта,в основном измеряет школьные способности и что он сильно перегруженвербальным материалом, особенно в тестах для высоких уровней. Инди-виды с недостаточным языковым развитием, так же как и те, чьи способ-ности нельзя отнести к вербальным, будут поэтому иметь сравнительнонизкие результаты по такому тесту. Несомненно также, что существуюттакие ситуации, в которых школьные способности и вербальное понима-ние не имеют первостепенного значения. Очевидно, применение какого-либо теста к ситуациям, для которых он не подходит, снизит его эффек-тивность. Из-за распространенного отождествления IQ, полученного потесту Станфорд-Бине, с самим интеллектом от этого теста обычно ожи-дают больше, чем он может дать. О конструктной валидности шкалы Станфорд-Бине говорят многиеисточники. Преемственность измерения функций в шкалах 1916, 1937,1960 гг. обеспечивалась сохранением в каждом варианте только тех зада-ний, чья корреляция с умственным возрастом по предшествующей фор-ме была достаточной. Следовательно, информация, которую накопилис годами клиницисты относительно типичного поведения индивидов приразных уровнях МА и IQ, может использоваться ими при интерпретациипоказателей по этой шкале. Возрастные различия являются основным критерием при отборе за-даний теста Станфорд-Бине. А это служит гарантией того, что тестСтанфорд-Бине действительно измеряет способности, которые в культу-ре нашего типа с возрастом развиваются. Для каждой формы внутрен-няя согласованность была еще одним критерием для отбора заданий.О том, что тест Станфорд-Бине функционально однороден, несмотря наявную вариативность содержания, говорит корреляция заданий шкалыравная для варианта 1960 г. 0)6. Преобладание вербальных функцийв шкале подтверждает более высокая корреляция с общим выполнениемшкалы вербальных заданий в отличие от заданий невербальных(L.M. Terman, М.А. Merrill, 1973, р. 33-34). Последующие данные о конструктной валидности получены прианализе некоторых независимых факторов заданий теста Станфорд-Би-не. Если показатели IQ сравнимы по разным возрастам, то шкала навсех возрастных уровнях должна иметь приблизительно одинаковуюфакторную компановку. Более того, для однозначной интерпретации IQшкала должна быть насыщена единым общим фактором. Последнее по-ложение уже обсуждалось в связи с однородностью в гл. 5. Если показа-тели уравновешены двумя группами факторов, например вербальныеи вычислительные способности, IQ, равное 115, для различных людейможет говорить о высоких вербальных способностях в одном случаеи высоких вычислительных способностях-в другом. К. Макнемар (Q. McNemar, 1942, гл. 9) провел раздельный фак-торный анализ заданий теста Станфорд-Бине в 14 возрастных уровнях,включая полугодовые интервалы для уровней 11-V и годовые интервалыдля уровней VI, VII, IX, XI, XIII, XV и XVIII. Число испытуемых при ка-219 ИНДИВИДУАЛЬНЫЕ ТЕСТЫа полученные корреляции подвергались факторному анализу. Включе-нием заданий из соседних возрастных уровней в более чем один анализбыло получено доказательство относительной идентичности общего фак-тора для разных возрастов. Исследование тестов, используемых для не-скольких возрастных уровней, подтвердило эту точку зрения. В общем,результаты анализа показали, что выполнение заданий теста Станфорд-Бине по большей части объяснимо с точки зрения одного общего факто-ра. Влияние дополнительных групп факторов установлено для несколь-ких возрастных уровней, но оно оказалось ничтожным. Было такжепоказано, что общий фактор, найденный в соседних возрастных уровнях,был по существу тем же самым, хотя этого нельзя сказать о большин-стве достаточно разделенных возрастных уровней. Фактически существо-вали основания для предположения, что общий фактор для более высо-ких уровней постепенно становится вербальным. Общий факторный вес,например словарного теста, увеличился от 0,59 в 6-летнем возрасте до0,91 для возраста 18 лет. В других исследованиях 1937 и 1960 гг. с использованием факторно-го анализа были применены статистические методы, разработанные спе-циально для более полного выявления действия групп факторов (L.V.Jones, 1949, 1954; P.H.Ramsey, J.R. Vane, 1970; J.M.Sattler, 1974,гл. 10; L.H. Stott, R.S. Ball, 1965). Среди выявленных таким образом фак-торов были некоторые вербальные способности, память, мышление, про-странственные представления и перцептивные способности. В общем ре-зультаты подтверждают, что шкале как целому свойственно многообщего. Такое качество шкалы во многом оказалось следствием отборазаданий, чья корреляция с тестом Станфорд-Бине как целого была до-статочно высокой. В то же время выполнение заданий подвержено влия-нию ряда специальных способностей, сочетание которых меняется притестировании определенного возрастного уровня.ВЕКСЛЕРОВСКИЕ ШКАЛЫ ИНТЕЛЛЕКТА ДЛЯ ВЗРОСЛЫХВ остальной части главы рассмотрим шкалы интеллекта, подго-товленные Дэвидом Векслером.: Применяемые как индивидуальныетесты и разработанные в основном для тех же целей, что и тесты Стан-форд-Бине, эти шкалы отличаются от обсуждавшихся выше по неко-торым важным параметрам. Задания одного типа в этих тестах не сгруп-пированы по возрастным уровням, а объединены в субтестыи расположены в порядке возрастающей трудности. В этом отношениишкалы Векслера более похожи на групповые тесты, нежели на тесты ти-па шкал Станфорд — Бине. Другой особенностью шкал Векслера являетсявключение в них вербальных субтестов и субтестов действия с раздель-ным вычислением IQ для тех и других. Помимо использования шкал Векслера для измерения общего ин-теллекта они применяются и как вспомогательное средство психиатриче-ского диагноза. Исходя из того факта, что повреждения мозга, психиче-ские и эмоциональные нарушения могут задевать одни интеллек-туальные функции больше, чем другие, Д. Векслер и другие психологи-клиницисты утверждали, что анализ выполнения индивидом разных>,.к.ап ,,пт- йтт пчтпт-тт vnlnrfгue пясстпойства психики, Поо-220 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯлера, будут рассмотрены в гл. 16 как пример использования тестов в ус-ловиях клиники. Об интересе к шкалам Векслера и широте их применения свидетель-ствуют почти 2000 публикаций по этим тестам. Помимо обычных обзо-ров по тестам в ис-следования, касающиеся шкал Векслера, периодически освещаютсяв журналах (W.H. Guertin et а1" 1956, 1962, 1966, 1971; W.M. Littell, 1960;А.1. Rabin, W. Guertin, 1951; LL. Zimmerman, J.M. Woo-Sam, 1972) и обо-бщены в нескольких книгах (A.J.GIasser, 1. L. Zimmerman, 1967;J.D. Matarozzo, 1972; D. Wechsler, 1958; LL. Zimmerman, 1967; J.M. Woo-Sam, A.J.GIasser, 1973). Первые векслеровские шкалы интеллекта длявзрослых {WAIS). Первая форма шкал Векслера, известная как шкала"интеллекта Векслера-Белльвью, была опубликована в 1939 г. Одной изглавных целей подготовки этой шкалы была разработка теста интеллек-та, пригодного для тестирования взрослых людей. Представляя впервыеэту шкалу, Д. Векслер отмечал, что известные ранее тесты интеллектаразрабатывались главным образом для школьников и адаптировалисьдля взрослых добавлением более трудных заданий того же типа. По со-держанию такие тесты для взрослых людей малоинтересны. Как писалД. Векслер, , и или демобилизованного сержанта придуматьпредложение со словами , не следует надеяться, чтоэто вызовет у них интерес и уважение к эксперименту> (D. Wechsler, 1939,р. 17). Ориентировка большинства тестов на скорость выполнения можетпоставить в невыгодные условия пожилых людей. Д. Векслер также по-лагал, что относительно шаблонные манипуляции словами занималичрезмерно много места в традиционных тестах интеллекта. Он обратилвнимание на неприменимость норм умственного возраста к взрослыми отметил, что прошлые выборки стандартизации для индивидуальныхтестов интеллекта включали лишь незначительное число взрослых. Все эти причины и привели к разработке первых шкал Векслера-Белльвью. По форме и по содержанию эта шкала очень похожа на однуиз последних векслеровских шкал интеллекта для взрослых (WAIS), за-менивших первоначальный вариант, имевший ряд методических недо-статков (особенно это касалось величины и репрезентативности норма-тивной выборки и надежности субтестов). Этих недостатков в основномудалось избежать в более позднем варианте. Описание WAIS. Опубликованная в 1955 г. шкала Векслера со-держала II субтестов. 6 субтестов составляли вербальную шкалуи 5-шкалу действий. Ниже перечисляются и кратко описываются этисубтесты в порядке их предъявления испытуемым.Вербальная шкала 1. Осведомленность: 29 вопросов, ответы на которые требуют разнообразных зна-ний, приобретаемых взрослым по мере приобщения к культуре. Были приняты меры,чтобы избежать включения заданий, требующих специальных или теоретических знаний.Можно также добавить, что вопросы на общую информированность уже давно исполь-зуются при неофициальных психиатрических проверках уровня интеллекта индивида и егопрактической ориентации. 2. Понимание: 14 заданий, в каждом из которых испытуемого просят объяснить, какнадо поступить в некоторых обстоятельствах, почему следуют каким-то обычаям, каков221ИНДИВИДУАЛЬНЫЕ ТЕСТЫний и здравого смысла, этот тест аналогичен заданиям на понимание в шкале Стан-форд-Бине, но их содержание было подобрано таким образом, чтобы оно соответствова-ло интересам и деятельности взрослых людей. 3. Арифметика: 14 задач, аналогичных тем, которые встречались в курсе арифмети-ки для начальной школы. Каждая задача должна решаться устно. 4. Нахождение сходства: 13 заданий, в которых испытуемый должен объяснить,в чем сходство двух предметов. 5. Запоминание цифр: вначале требуется воспроизвести ряд, содержащий от 3 до9 цифр, предъявляемых экспериментатором устно. Во второй части испытуемый долженвоспроизвести ряд, содержащий от 2 до 8 цифр в обратном порядке. 6. Словарный запас: на слух и зрительно предъявляются 40 слов по возрастающейтрудности. Испытуемый должен объяснить значение каждого слова.Шкала действия 7. Цифровые символы: это вариант известного теста на кодовые замены, который ча-сто включается в так называемые неязыковые шкалы интеллекта. Ключ содержит 9 сим-волов, объединенных в пары с 9 цифрами. Испытуемый, пользуясь находящимся передним ключом, должен за 1,5 мин расположить под числами как можно больше символов. 8. Завершение картинок: испытуемому предъявляется 21 карточка, на каждой изоб-ражены картинки, в которых недостает какой-то части. Испытуемый должен сказать, чегонедостает в каждой картинке. 9. Конструирование блоков: этот субтест состоит из набора карточек с изображе-нием чертежей, выполненных в красном и белом цвете, и набора идентичных однодюй-мовых кубиков, стороны которых окрашены в красный и белый цвет или же краснымии белыми полосами. Испытуемому показывают образен чертежа, который тут же долженбыть воспроизведен путем подбора и соединения соответствующих кубиков. 10. Расположение картинок: каждое задание состоит из набора карточек, содержа-щих картинки, которые должны быть переставлены в такой последовательности, чтобы поним можно было составить рассказ. На рис. 30 приведен один из наборов карточек в томпорядке, в котором они предъявлялись испытуемому. Этот набор является самым первымиз восьми заданий, составляющих субтест. II. Сборка объекта: в каждой из четырех частей этого субтеста требуется собрать избумажных вырезок изображение хорошо знакомого предмета. При обработке данных, полученных по субтестам арифметика, ци-фровые символы, конструирование блоков, расположение картинок,сборка объекта, учитывается как скорость, так и точность выполнения.. " Со времени выхода в свет первой шкалы Векслера — Белльвью былопредложено множество сокращенных шкал. Эти шкалы создавались про-стым изъятием некоторых субтестов и соогветствующим распределе-нием показателей для получения IQ по полной шкале, сравнимой с опу-бликованными нормами. То, что некоторые сочетания субтестов,создавая значительную экономию во времени, коррелируют с IQ по пол-Рис. 30. Легкое задание из теста на расположение картинок в шкале WMS.С разрешения Психологической корпорации штата Нью-Йорк222 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯной шкале на уровне выше 0,90, стимулирует развитие и использованиесокращенных шкал в целях более быстрой проверки и отбора испы-туемых Были проведены обширные исследования, чтобы установить на-иболее эффективные сочетания двух, трех, четырех и пяти субтестов дляпредсказания показателей IQ по вербальной шкале, шкале действияи полной шкале (J.E.Doppelt, 1956; P. Levy, 1968; E.Maxwell, 1957;Q.Mc Nemar, 1950; A.B.Silverstein, 1970; 1971; A.Tellegen, P.F.Briggs,1967). Сравнительный анализ одного сочетания из четырех субтестов наразных возрастных уровнях-от 18-19 лет до 75 и выше-дал корреляциис полной шкалой на уровне 0,95-0,97 (J.E. Doppelt, 1956). Столь же по-лное соответствие установлено в некоторых исследованиях сокращенныхшкал, полученных сокращением числа заданий в субтестах (W. Н. Guertinet а1., 1966, p. 388-389; J.D. Matarazzo, 1972, p. 252-255). По большей ча-сти эти работы основывались на нормативных данных WAIS, хотя ана-логичные исследования проводились с умственно отсталыми испытуемы-ми л с пациентами психиатрических клиник (J.D. Matarazzo, 1972, р. 252). Хотя на составление и отбор коротких форм шкал Векслера былозатрачено много сил и энергии, лучше всего такими шкалами не пользо-ваться за исключением тех случаев, когда необходим лишь приблизи-тельный отбор испытуемых. При использовании сокращенных шкалмногие качественные наблюдения оказываются невозможными. Болеетого, не всегда обоснованно допущение о том, что исходные нормы пол-ной шкалы пригодны для пропорционального распределения общих по-казателей по короткой шкале., Нормы. При стандартизации шкалы Векслера особенно тщательноформировалась выборка, обеспечивающая репрезентативность этойшкалы. Нормативная выборка состояла из 1700 испытуемых с равнымколичеством мужчин и женщин. Испытуемые в возрасте от 16 до 64 летбыли распределены по 7 возрастным уровням. При комплектовании вы-борки исследователи опирались на данные переписи населения США за1950 г. Учитывалось пропорциональное распределение населения по гео-графическим районам, принадлежность к городскому и сельскому насе-лению, принадлежность к белой или цветной расе, учитывались такжеуровень образования и профессия. На каждом возрастном уровне в вы-борку были введены один мужчина и одна женщина, находящиеся в уч-реждениях для умственно отсталых. Для пожилых людей были установлены дополнительные нормы пу-тем тестирования выборки лиц пожилого возраста, состоящей из 475 че-ловек в возрасте 60 и более лет из типичного города среднего запада(J.E. Doppelt, W.L. Wallace, 1955). По общему признанию, трудно получить репрезентативную выборкулюдей старше 60 лет. Хотя выборка WAIS, возможно, наиболее репре-зентативна по сравнению с любой другой выборкой пожилых людей,есть основания полагать, что на этих возрастных уровнях встречаютсязначительные различия в показателях вербальной шкалы и шкалы дей-ствия, определяемые принадлежностью испытуемых к разным регионам(С. Eisdorfer, L. Cohen, 1961). Более того, учитывая быстрый рост образо-вательного и культурного уровня населения, становится спорной приме-нимость на современном этапе норм, установленных до 1955 г. Особенноважна в этой связи перепроверка возрастного снижения интеллектау старых людей.223 ИНДИВИДУАЛЬНЫЕ ТЕСТЫв, стандартные показатели со средним значением, равным 10 и (7 равным3.. Такие шкалированные показатели были получены на референтнойгруппе из 500 испытуемых, состоявшей из индивидов в возрасте от 20 до34 лет, входивших в выборку стандартизации,: Все показатели субтестов,таким образом, были выражены в сравнимых единицах и единицах фик-сированной референтной группы. Показатели полной шкалы, вербальнойшкалы и шкалы действия находят сложением шкалированных показате-лей шести вербальных субтестов, пяти субтестов действия и всех один-надцати субтестов соответственно. С помощью соответствующих та-блиц, приводимых в руководстве к тесту, эти три показателя могут бытьвыражены как стандартный IQ со средним значением, равным 100, и и , коэффициенты надежности вычислялисьпо методу расщепления теста на четные и нечетные задания (с поправкойна полный тест по формуле Спирмана-Брауна). Надежность субтеста оценивалась на основе корреляций между показате-лями называния цифр в прямом и обратном порядке.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Методика расще-пления не могла быть применена к тесту , так какэтот субтест является высокоскоростным. Поэтому надежность теста бы-ла определена с помощью метода взаимозаменяемых форм в группе,протестированной тестом по шкале WAIS и пошкале Векслера-Белльвью. Коэффициенты надежности IQ по полной шкале оказались для всехтрех возрастных выборок равными 0,97. Показатели IQ по вербальнойшкале во всех трех группах имели идентичные коэффициенты надежно-сти, равные 0,96, а по шкале действия-0,93 и 0,94. Таким образом, всетри показателя IQ высоконадежны с точки зрения внутренней согласо-ванности теста. Как можно было ожидать, индивидуальные субтесты да-ли более низкие коэффициенты надежности, колеблющиеся от 0,60 длязаданий , и до таких высоких, как 0,96 для субтеста .Особенно важно учитывать надежность субтестов при оценке значимо-сти различий между показателями субтестов, полученными одним и темже испытуемым, например при профильном анализе. В руководстве к WAIS приводятся стандартные ошибки измерениядля всех трех показателей IQ и для всех показателей субтестов. Для IQ,полученного в вербальной шкале, такая ошибка составляет 3 единицыв каждой группе, для IQ, полученного в шкале действия,-чуть ниже 4,а для полной шкалы-2,6. Опираясь на эти данные, мы можем заключитьс вероятностью около 1/2, что истинное значение IQ испытуемого нахо-дится в диапазоне 3 единиц по обе стороны от полученного им по вер-бальной шкале показателя IQ. Такая величина ошибки предпочтительнейошибки измерения в 5 единиц, полученной для шкалы Станфорд-Бине.Напомним, однако, что коэффициенты надежности в тестах Станфорд-Бине определялись методом взаимозаменяемых форм, предъявлявшихсяс интервалами в одну неделю и менее, а такие условия уже сами по себепредполагают более низкие коэффициенты надежности и большую ва-риативность показателей. Валидность. Любые обсуждения проблемы валидности WAISобязательно должны начинаться с исследования, проведенного по болеераннему варианту по тесту Векслера-Белльвью. Поскольку все измене-ния, введенные в WAIS, являются улучшениями первого варианта тестаВекслера-Белльвью (надежности, верхнего порога, нормативной выбор-ки и т.д.) и поскольку природа теста по существу остается той же, впол-не оправдано допущение, что валидность данных, полученных по тестуВекслера-Белльвью, будет скорее недооценивать, а не переоценивать ва-лидность WAIS. Само руководство к WAIS не содержит данных по валидности, нонекоторые аспекты валидности рассматриваются в книгах Д. Векслера(D.Wechsler, 1958) и Дж.Д.Матараццо (J.D.Matarazzo, 1972). В своейкниге Д. Векслер доказывает, что психологические функции, измеряемыекаждым из II выбранных субтестов, соответствуют определению интел-лекта, что подобные тесты успешно применялись в ранее разработанных -. " .."" """а T-ffTT,T показали свою ценность в клиниче-225 ИНДИВИДУАЛЬНЫЕ ТЕСТЫской практике. Сам автор теста делает основной акцент именно на такомподходе к валидности. Подобная трактовка существенна для валидностипо содержанию, хотя ее можно отнести и к конструктной валидности безподтверждающих данных. Многие из рассуждений в книге Дж.Д. Мата-раццо напоминают приведенную аргументацию, особенно когда речьидет о структуре общего интеллекта, но они почти не затрагивают оцен-ки WAIS как измерительного инструмента. Некоторые из эмпирических данных по критериальной текущей яа-лидности обобщены в обеих книгах (J.D.Matarazzo, 1972, р. 284;D. Wechsler, 1958, гл. 14). Такие данные включают разницу средних зна-чений IQ среди испытуемых, отличающихся по уровню образованияи профессиональной принадлежности, и некоторые корреляции с оценка-ми выполнения работы на предприятии и учебными отметками. Самыебольшие групповые различия хотя и невелики, но того же порядка, чтои предполагался. Служащие разных типов и уровней в среднем получиливысокие показатели IQ по вербальной шкале, а представители профес-сий, требующих владения физическими умениями и навыками, получилиболее высокие показатели IQ по тестам действия. В исследованиях про-мышленного административного персонала и должностных лиц психиа-трических клиник показатели IQ по вербальной шкале коррелировали науровне 0,30 со всеми оценками тестов действия. Разумеется, обе группыбыли заранее отобраны по способностям, измеренным с помощью этихтестов. Корреляции между показателями IQ по вербальной шкалеи оценками в колледже и политехническом институте оказались равными0,40 и 0,50. Во всех этих группах корреляции с вербальной шкалой былинесколько выше, чем с полной шкалой, а корреляции с показателями пошкале действия были заметно ниже. Однако даже с показателями, полу-ченными по вербальной шкале, корреляции не были столь высоки, какс показателями по тесту Станфорд-Бине и по группе наиболее из-вестных тестов. В исследованиях умственно отсталых показатели IQ, по-лученные по WAIS, оказались хорошими предсказателями возможностивыписки пациентов из специальных учреждений и последующей подго-товки к работе (W.H. Guertin et а1" 1966). Шкалы Векслера неоднократно коррелировались с тестами Стан-форд-Бине и другими достаточно известными тестами интеллекта (W.Н. Guertin et а1" 1971; J.D. Matarazzo, 1972; D. Wechsler, 1958). Корреля-ции с показателями по шкале Станфорд-Бине, полученными приизучении случайной группы подростков или взрослых и среди умственноотсталых, располагаются около 0,8. В более однородных выборках, типаучащихся колледжа, корреляции бывают значительно ниже. Групповыетесты дают несколько меньшие корреляции со шкалами Векслера, хотявеличины корреляций широко варьируются в зависимости от конкретно-го теста, природы и однородности выборки. И для шкал Станфорд-Би-не и для групповых тестов характерны более высокие корреляции с пока-зателями по вербальной шкале по сравнению с полной, тогда каккорреляции с показателями по шкале действия гораздо ниже, чем с дву-мя первыми. Вместе с тем показатели IQ по шкале действия коррели-руют более полно с тестами пространственных способностей, чем пока-затели IQ по вербальной шкале. В некотором соответствии с конструктной валидностью шкал Векс-лера находятся взаимокорреляции показателей субтестов и показателейIQ по вербальной шкале и шкале действия. При стандартизации WAIS226 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯбыли вычислены взаимокорреляции показателей обеих шкал и II субте-стов для тех же самых 3 возрастных групп, для которых подсчитывалиськоэффициенты надежности, а именно 18-19, 25-34 и 45-54 года. Коэффи-циенты корреляции между показателями вербальной шкалы и шкалыдействия для каждой из групп были соответственно равны 0,77, 0,77и 0,81. Взаимокорреляции между отдельными субтестами также практи-чески совпадают во всех 3 группах, будучи выше в вербальных субтестахпо сравнению с субтестами действия. Корреляции между показателямисубтестов вербальных и действия, оставаясь в целом более низкими, всеже были значимыми. Например, в группе испытуемых в возрасте от 25до 34 лет корреляции вербальных субтестов варьировались от 0,40 до0,81, субтестов действия-от 0,44 до 0,62, а между показателями по обеимшкалам-от 0,3 до 0,67. И корреляции отдельных субтестов, и корреля-ции между всей вербальной шкалой и шкалой действия заставляют пред-положить, что обе шкалы имеют много общего и что отнесение тестовк той или другой шкале, по-видимому, несколько произвольно. Факторный анализ шкалы Векслера проводился по результатам раз-личных испытуемых-от восьмиклассников до пожилых людей (в возра-сте 60-75 лет и старше) из выборки стандартизации, включавшей какнормальных, так и аномальных индивидов. Данные по группам индиви-дов обрабатывались статистическими методами и анализировалисьс различных точек зрения. Часть из них анализировалась на предмет воз-растных изменений в организации факторов субтестов Векслера. Ноданные, полученные разными исследователями, довольно противоре-чивы. В качестве примера можно рассмотреть анализ факторов Дж. Коэна(J. Cohen, 1957а; Ъ) методом взаимокорреляций субтестов, проведенныхна четырех группах испытуемых из выборки стандартизации. Выделя-лись следующие возрастные диапазоны: от 18 до 19 лет, от 25 до 34, от45 до 54 и от 60 до 75 и более лет. Основные результаты этого исследо-вания согласуются с другими исследованиями, которые используютсравнительные методы, и с данными по разным популяциям более позд-них работ Дж. Коэна и его коллег (W.H. Guertin et а1" 1962, 1966). To,что все II субтестов имеют много общего, доказало исследованиеДж. Коэна, обнаружившего единый основной фактор, наличие которогообъясняло около 50Їо суммарной дисперсии батареи. Кроме того, были выявлены три групповых фактора. Одним былфактор вербального понимания, особенно сказывавшийся в субтестах , , и . Фактор перцептивной организации проявлялся главным обра-зом в субтестах и . Этотфактор в действительности, по-видимому, представляет сочетание факто-ров скорости восприятия и пространственных представлений, постоянноустанавливаемых при факторном анализе тестов способностей. Третий групповой фактор, установленный Дж. Коэном, был обозна-чен как фактор памяти. Действующий главным .образом в субтестах и , он, очевидно, связан с кратковре-менной механической памятью на новый материал и припоминаниемпредварительно выученного материала. Способность к концентрирова-нию внимания и умение сосредоточиться тоже могут быть включеныв этот фактор. Особый интерес представляют данные о том, что значе-227ИНДИВИДУАЛЬНЫЕ ТЕСТЫэтом возрастном уровне этот фактор значительно преобладает не тольков субтестах и , йо и в субтестах , , и .Дж. Коэн отмечает, что в период старения память начинает ухудшатьсяу разных людей в разное время и с различной скоростью, а значит, инди-видуальные различия в памяти становятся более заметными в функцио-нировании интеллекта, чем это имело место в более ранних возрастах.Многие из субтестов WAIS предполагают использование памяти во всехвозрастах. Однако до тех пор пока не наступают какие-то ухудшения,индивидуальные различия в способности запоминания, тренируемыев большинстве субтестов, незначительны.ВЕКСЛЕРОВСКАЯ ШКАЛА ИНТЕЛЛЕКТА ДЛЯ ДЕТЕЙОписание. Векслеровская шкала интеллекта для детей (WISC) сначалаготовилась как продление первоначальной шкалы Векслера-Белльвьюна более низкие возрастные уровни (S. Е. Seashore, A. G. Wesman, J. Е. Do-ppelt, 1950). Многие задания были взяты непосредственно из теста длявзрослых, и к каждому были добавлены более легкие задания того жетипа. Переработанное издание WISC-R было опубликовано в 1974 г.,в него были включены 12 субтестов, два из которых применяются толь-ко как запасные или дополнительные тесты, если позволяет время. Каки в других шкалах Векслера, субтесты группируются в вербальную шка-лу и шкалу действия следующим образом:Вербальная шкала1. Осведомленность3. Нахождение сходства5. Арифметика7. Словарный запас9. Понимание(Запоминание цифр)Шкала действия2. Завершение картинок4, Расположение картинок6. Конструирование блоков8. Сборка объектов10. Кодирование(Лабиринты) Номера соответствуют порядку предъявления субтестов. В отличиеот процедуры проведения WAIS и первой WISC, задания вербальногосубтеста и субтеста исполнения в WISC-R предъявляются в чередующем-ся порядке. Субтест , проведение которого требует большевремени по усмотрению эспериментатора, может быть заменен на . Любая другая замена, в том числе замена на ка-кой-то иной субтест, так же как и замена любогоиз вербальных субтестов, производится только в случае, если один из ос-новных субтестов приходится пропускать из-за непредвиденных препят-ствий или случайных нарушений процедуры тестирования. Дополни-тельные тесты могут быть проведены наряду с основной батареей, чторекомендуется делать для получения качественной и диагностической ин-формации. Но в этих случаях показатели дополнительных субтестов неучитываются при нахождении значения IQ. Что касается содержания шкалы для детей, то единственным тестом,которого нет в шкале для взрослых, является задание . Этоттест типа состоит из 9 возрастающих по трудностилабиринтов и должен быть выполнен в определенный промежуток време-ни; при обработке подсчитываются ошибки. Субтест со-228 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯответствует субтесту из WAIS с добавлением бо-лее легкой части. Остальные субтесты соответствуют тестам длявзрослых, но представлены в облегченном виде. Появление WISC в чем-то парадоксально. Д. Векслер начал свою работу отчасти из-за того, чтоему требовалась шкала для взрослых, которая не была бы простым ус-ложнением шкал, предназначенных для детей. Фактически первое изда-ние WISC было раскритиковано за недостаточную ориентированностьего содержания на детей. В пересмотренном издании WISC-R задания, ориентированные навзрослых, были заменены или приспособлены к жизненному опыту ре-бенка. Например, в тесте слово было замененона , изменены были и задания, в которых фигурировали си-туации с такси и карточной игрой. Другие изменения состояли в изъятиизаданий, содержание которых могло быть неодинаково понято разнымигруппами детей, и во введении в качестве действующих лиц в тестыс картинками больше изображений женщин и цветных. Некоторые суб-тесты для большей надежности были удлинены, кроме того, были усо-вершенствованы процедуры проведения и обработки тестов. Как и в случае с WAIS, для WISC проводились экспериментальныеисследования по созданию сокращенных шкал. Корреляции таких укоро-ченных форм со значением IQ по полной шкале оказались значительнониже, чем в WAIS. Для батарей, включавших 5-6 субтестов вербальнойшкалы и шкалы действия, корреляции с IQ полной батареи были науровне 0,8. Следует сказать, что эти данные получены для более раннейформы WISC-R. С увеличением числа заданий и улучшением надежностисубтестов в форме WISC-R эти корреляции должны стать выше.А. Б. Силверстейн, основываясь на данных стандартизации и надежностисубтестов, определил 10 наиболее эффективных комбинаций из 2, 3, 4 и5 субтестов WISC (А. В. Silverstein, 1970). Широко применяется 2-тестоваякомбинация из заданий и .Все, что можно сказать о достоинствах и недостатках коротких форм те-стов, уже говорилось при обсуждении сокращенных шкал WAiS. Нормы. Обработка показателей шкалы для детей (WISC-R) про-изводится теми же методами, которые применяются в шкалах длявзрослых, но с некоторыми незначительными особенностямиПервичныерезультаты каждого субтеста вначале переводятся в нормализованныестандартные показатели, для каждой детской возрастной группы свои.Таблицы с такими шкалированными показателями строятся с четырех-месячным интервалом для возрастных групп VI-0 и XVI-11. Как и в шка-лах для взрослых, шкалированные показатели субтеста выражаютсяв терминах распределения со средним значением (М), равным 10, и стан-дартным отклонением ( (0,69), а самые низкие в тесте (0,26). В качестве дополнительных в руководстве к WISC-R приведены све-дения о взаимокорреляции между индивидуальными субтестами, корре-ляции каждого субтеста с показателями полной и вербальной шкалы,шкалы действия и этих трех составных показателей друг с другом. Всекорреляции даны отдельно для 200 случаев в каждой из II возрастныхгрупп выборки стандартизации. Значения корреляции между всеми пока-зателями вербальной шкалы и шкалы действия распределяются в преде-лах возрастных групп от 0,60 до 0,75. Итак, обе части шкалы имеютмного общего, хотя корреляции между ними не столь высоки, чтобы со-хранять раздельное употребление показателей. Факторный анализ субтестов ранней WISC выявил те же факторы,которые были обнаружены в шкалах для взрослых и получили названиеобщего вербального понимания, восприятия пространства и памяти (W.M. Littell, 1960; 1. L. Zimmerman, J.M. Woo-Sam, 1972). В более позднем -ттдпгтятгои субтесты WISC были подвергнуты факторному анализу по ""-"" " "pnHM и 487 мек-231 ИНДИВИДУАЛЬНЫЕ ТЕСТЫ1973). Результаты подтвердили преобладание фактора вербального пони-мания, получившего значимые корреляции с пятью вербальными теста-ми, и фактора перцептивной организации значимо коррелировавшегос субтестами и . Основнойрезультат этого исследования — выявление сходства факторной структурыпо трем этническим группам. Это означает, что в этих группах тесты из-меряют одни и те же способности. Факторный анализ показателейWISC-R, полученных в выборке стандартизации испытуемыми в возра-сте от 6,5 до 16,5 лет и распределенных по II возрастным уровням, весь-ма убедительно подтвердил наличие на каждом из уровней трех ос-новных факторов (A. S. Kaufman, 1975 я). Эти факторы точно соответ-ствовали факторам вербального понимания, перцептивной организациии умению сосредоточиться.ВЕКСЛЕРОВСКАЯ ШКАЛА ИНТЕЛЛЕКТАДЛЯ ДОШКОЛЬНИКОВ И МЛАДШИХ ШКОЛЬНИКОВОписание." Векслеровская шкала интеллекта для дошкольникови младших школьников (WPPSI) может быть обозначена как детская помногим причинам. Эта шкала, опубликованная в 1967 г., предназнача-лась для возрастного диапазона от 4 до 6,5 лет. Шкала состояла из IIсубтестов, из которых только 10 учитываются при нахождении IQ. 8 суб-тестов есть облегченные и адаптированные варианты заданий WISC,остальные 3 были разработаны заново, чтобы заменить непригодные потем или иным причинам субтесты из WISC. Как в WISC и в WAIS, онибыли сгруппированы в вербальную шкалу и шкалу действия, из показа-телей которых находились значения IQ для полной и вербальной шкалыи шкалы действия. Как и в WISC-R, предъявление тестов из вербальнойшкалы и шкалы действия чередуются. Это делает процедуру тестирова-ния более разнообразной, способствует поддержанию интереса ребенкак эксперименту, положительно влияет на взаимоотношения с экспери-ментатором. Общее время, необходимое для проведения тестирования,колеблется от 50 до 75 мин. Эксперимент можно проводить в один илив два приема. В приводимом ниже списке субтестов вновь введенные за-дания помечены звездочкой.Вербальная шкала Шкала действияОсведомленность Дом животногоСловарный запас Завершение картинокАрифметика ЛабиринтыНахождение сходства Геометрические схемыПонимание Конструирование блоковПредложения (дополнительный тест) -это тест на запоминание, заменивший тест из WISC. От ребенка требуется вслед за экспериментато-ром повторять каждое произносимое им предложение. Этот тест можноиспользовать либо вместо любого вербального теста, либо предъявитькак дополнительный для получения более точной информации о ребенке,в последнем случае результаты выполнения теста не учитываются при232 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯкарта с изображениями собаки, цыпленка, рыбы и кошки. В верхней ча-сти карты размещаются картинки-ключи со вставленными в них различ-ного цвета цилиндриками (дом животного). От ребенка требуется расста-вить домики по соответствующим изображениям животных. Показате-лем успешности выполнения заданий служат время выполнения, ошибкии пропуски. В тесте от ребенка требуется с по-мощью цветного карандаша скопировать 10 простых чертежей. Возможности использования сокращенных вариантов WPPSI стольже усиленно исследовались специалистами, как это было для шкал WAISи WISC. Некоторых специалистов, например А. Б. Силверстейна, интере-совало создание сокращенных шкал по всем трем уровням(А.В. Silverstein, 1968 о; b; 1970; 1971). В частности, в тщательно прове-денной работе Кауфмана (A. S. Kaufman, 1972) была разработана корот-кая форма теста, состоявшая из двух вербальных субтестов ( и ) и двух субтестов действия ( и ). По отдельным возрастным уровнямэта батарея имела коэффициенты надежности в диапазоне от 0,91 до 0,94и корреляции с показателями IQ по полной шкале от 0,89 до 0,92. По-ловина показателей выборки стандартизации WPPSI была использованадля отбора тестов, а другая половина использовалась при установленииперекрестной валидности окончательной батареи тестов. В этой работеА. С. Кауфман не забывает также напомнить о необходимости пользо-ваться сокращенной шкалой только в крайних случаях. Нормы. WPPSI была стандартизована на национальной выборке из1200 детей от 4 до 6,5 лет (по 100 мальчиков и 100 девочек в каждой воз-растной группе); возрастной интервал равнялся полугоду, иными слова-ми, дети включались в одну возрастную группу, если они были моложеили старше требуемого возраста не более чем на 6 недель. Выборка бы-ла стратифицирована относительно переписи США 1960 г. по месту жи-тельства, принадлежности к городскому или сельскому населению, расо-вому признаку (белый-цветной) и с учетом профессионального уровняотцов. Первичные показатели каждого субтеста переводились в стан-дартные показатели сМ=10ист=3 для каждой возрастной группыс возрастным интервалом в четверть года. Суммы шкалированных пока-зателей полной и вербальной шкалы и шкалы действия переводились за-тем в стандартный IQ с М = 100 и о = 15. Хотя сам Д. Векслер возра-жал против использования показателей умственного возраста из-за ихвозможного неправильного истолкования, в руководстве к тесту поме-щены таблицы для перевода первичных показателей по каждому субте-сту в тестовые возраста в единицах по четвертям года. Надежность. Для каждого субтеста, исключая ,были подсчитаны коэффициенты надежности методом коррелированияпоказателей четных и нечетных заданий и применения формулы Спирма-на-Брауна. Поскольку показатели по тесту зависятв значительной степени от скорости выполнения, их надежность опреде-лялась методом ретеста в конце сеанса тестирования. Коэффициентынадежности подсчитывались отдельно для каждой возрастной группыс возрастным интервалом в полгода. Изменяясь в зависимости от субте- ~ " ""ястного уровня, эти коэффициенты в большинстве своем рав- """""" ""
Стабильность во времени проверялась в группе из 50 детей детскогосада повторным тестированием через 11 недель. В этих условиях коэффи-циенты надежности IQ по полной шкале были равны 0,92, по вербаль-ной-0,86, а по шкале действия-0,89. Валидность. Как и для двух других шкал Векслера, в руководствек WPPSI нет раздела, в котором бы обсуждалась валидность теста, хотянекоторые данные о валидности в руководстве все-таки имеются. Так,взаимокорреляции II субтестов на каждом возрастном уровне выборкистандартизации чаще всего колеблются в пределах от 0,4 до 0,6. Корре-ляции между показателями полной и вербальной шкал и шкалы дей-ствия приблизительно так же высоки, как и внутри каждой шкалы. Ча-стичное совпадение между двумя шкалами подтверждается и среднимзначением корреляций между показателями IQ по вербальной шкалеи шкале действия, равном 0,66. В руководстве приводятся коэффициенты корреляции на уровне 0,75с показателями IQ по шкале Станфорд-Бине для группы из 98 детейв возрасте от 5 до 6 лет. Как и в случае с WISC, корреляции с даннымишкалы Станфорд-Бине выше по вербальной шкале (0,76), чем по шкаледействия (0,56). Эти данные подтвердились и в последующих работахдругих исследователей. В тринадцати работах, проанализированныхДж. Сэттлером (J. М. Sattler, 1974), медианные корреляции показателейIQ WPPSI и теста Станфорд-Бине были равны 0,82, 0,81 и 0,67 для пол-ной и вербальной шкал и шкалы действия соответственно. Были так-же найдены корреляции с другими тестами общих способностей(J. М. Sattler, 1974, р. 290). Данные о прогностической валидности до-вольно скудны (A.S. Kaufman, 1973 а). Тщательно проведенный повторный анализ выборки стандартизациииз 1200 испытуемых (A.S. Kaufman, 1973 b) выявил связь показателейWPPSI с социоэкономическим статусом (показатель профессиональногоположения отца), принадлежностью к городскому или сельскому населе-нию и месту жительства. Для каждого из этих трех условий сравнива-лись показатели IQ по всем трем шкалам выборок, выравненных по всемфакторам, кроме рассматриваемого. Социоэкономический статус дал значимые различия только в экстре-мальных зонах распределения. Дети, чьи отцы работали по специально-стям, требовавшим высокой профессиональной подготовки, получилиболее высокие IQ, значительно выше, чем в остальных группах (в сред-нем их IQ == 110). Те дети, чьи отцы занимаются трудом неквалифициро-ванным, получили более низкие, чем в остальных группах, показатели (всреднем их IQ = 92,1). Влияние фактора принадлежности к определенно-му географическому району никак не сказалось. В отличие от первых ис-следований WISC и Станфорд-Бине не удалось выявить значимых раз-личий по выборкам городских и сельских детей (H.G. Seashore,A.G. Wesman,J.E. Doppelt, 1950; Q. Me Nemar, 1942). Это расхождениеможно, по мнению авторов работ, отнести за счет влияния других пере-менных, которые в первых исследованиях не учитывались, а в последую-щих были взяты под контроль. Но более важным фактором является234 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ.тельные изменения и в перемещении населения из деревни в город и на-оборот и, следовательно, изменяется и уровень образования, и уровенькультуры. Можно полагать, что такие социокультурные изменения могутсвести на нет наблюдавшиеся сначала различия в выполнении тестов ин-теллекта детьми из этих двух типов социальной среды. Со времени публикации WPPSI некоторые исследователи провелифакторный анализ показателей субтестов на выборках разных популяций(J.M. Sattler, 1974, р. 227-230). В одном из исследований были примененыметоды факторного анализа к трем раздельным возрастным группамвыборки стандартизации WPPSI (G.P.Hollenbeck, A.S.Kaufman, 1973).Результаты показали наличие общего фактора в батарее как целом наря-ду с двумя групповыми факторами: вербальным, особенно проявившим-ся в шести вербальных тестах для всех возрастных групп, и действия,сказавшимся в пяти тестах действия для двух старших групп и не-сколько меньше, но все же значительно для самой младшей (от 4 до4,5 лет). Эти результаты никак не противоречат имеющимся сведениямо структуре способностей детей младшего возраста. Факторный анализпоказателей субтестов, проведенный отдельно для белых и цветных де-тей, показал, что результаты в обеих группах сходны с результатами, по-лученными в общей выборке (A.S.Kaufman, G.P.Hollenbeck, 1974). Итоги. Существующие в настоящее время три формы шкал Векс-лера отражают уровень знаний и опыта в разработке теста того периода,в котором создавались WAIS (1955), WPPSI (1967) и WISC-R (1974). Посравнению с другими индивидуальными тестами их выборки стандарти-зации (особенно для популяций взрослых и дошкольников) больше и ре-презентативнее, методика их построения и проведения лучше, как примерможно назвать данные о надежности и ошибках измерения. Слабым ме-стом всех трех шкал является недостаток эмпирических данных о валид-ности. Исследования с применением факторного анализа позволилиуточнить состав этих шкал с точки зрения описания их выполнения, нодаже они были бы более информативными, если бы включили большепризнаков поведения, внешнего по отношению к самим шкалам.ГЛАВА 10. ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХПОПУЛЯЦИЙТесты, представленные в главе, включают как индивидуальные, таки групповые шкалы и первоначально были разработаны для тестиро-вания лиц, которые не могли быть правильно или адекватно проверенытрадиционными методами, такими, как описанные в предыдущей главеиндивидуальные шкалы или обычные групповые тесты, обсуждаемыев следующей главе. Традиционно рассматриваемые в этой главе тестыобозначались как тесты действия, неязыковые, или невербальные тесты. В целом тесты действия сводятся к операциям с предметами, а ис-пользование карандаша и бумаги в них минимально. Неязыковые тестыне требуют речевого общения экспериментатора -с испытуемым. Ин-струкции к этим тестам могут осуществляться непосредственным пока-зом или жестами без всякого участия устной или письменной речи. Про-тотипом неязыковых групповых тестов был армейский тест бета, разра-ботанный для-теетирования во время первой мировой войны невладею-щих английским или неграмотных новобранцев CR:- lcrr> ioi235 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙВарианты этого теста были впоследствии подготовлены для использова-ния среди гражданского населения. Для большинства целей тестированиянет необходимости совершенно исключать при проведении теста речевоеобщение, так как испытуемые в какой-то мере знали язык той страны,в которой жили. Более того, короткие, простые инструкции обычно легкопереводятся или сразу даются на двух языках без ощутимого влияния наприроду или степень трудности теста. Однако ни один из тестов не тре-бовал от испытуемого использования в процессе выполнения заданийписьменной или устной речи. Невербальные тесты более правильно назвать тестами, не требую-щими умения читать. К этой группе относятся большинство тестов дляначальной школы и дошкольников, как и тесты для неграмотных и неумеющих читать людей любого возраста. Эти тесты, выполнение ко-торых не требует навыков чтения и письма, опираются в основном наприменение устных инструкций и общение с экспериментатором. Они за-частую направлены на измерение понимания вербального содержания,как, например, понимания значений слов, предложений или коротких аб-зацев, предъявляемых с помощью изобразительных средств, с одновре-менными устными инструкциями по каждому заданию. Поэтому в отли-чие от неязыковых тестов они не пригодны для лиц, говорящих надругом языке или для глухих. Хотя традиционное обозначение тестов, как действия, неязыковыхи невербальных, помогает нам понять, для чего служат те или иныетесты, различия между ними по мере разработок все новых батарей ста-ли столь расплывчатыми, что теперь эти тесты просто объединяются.Классическим примером является объединение в шкалах Векслера вер-бальных тестов и тестов действия. В настоящей главе тесты распределяются не по содержанию или ме-тодам предъявления, а в зависимости от принципиальных возможностейих применения. С этой точки зрения можно обозначить три основные ка-тегории: тесты для младенцев и дошкольников, тесты для лиц с разныминарушениями сенсорной и моторной сферы и тесты, предназначенныедля измерения межкультурных и субкультурных различий. Однако такаяклассификация должна быть гибкой, поскольку некоторые из тестов мо-гут оказаться употребимыми в разных ситуациях. Это особенно справед-ливо по отношению к некоторым методикам, разработанным первона-чально для тестирования межкультурных различий, а в настоящее времячаще всего применяемым при клиническом тестировании. И последнее, хотя некоторые из тестов, рассматриваемых в даннойглаве, были разработаны как групповые, они часто предъявлялись инди-видуально. Некоторые из тестов широко используются при клиническомтестировании как дополняющие обычный тип тестов интеллекта и темсамым обеспечивающие более полную картину интеллектуального раз-вития индивида. Их применение, позволяя вести при индивидуальном те-стировании определенного типа качественные наблюдения, требует зна-чительного опыта клинических исследований для детальной интерпрета-ции выполнения теста. В целом они все же ближе к индивидуальнымтестам, рассмотренным в гл. 9, чем к групповым тестам, обзору которыхпосвящена гл. II.236 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯТЕСТИРОВАНИЕ МЛАДЕНЦЕВ И ДОШКОЛЬНИКОВВсе тесты, предназначенные для младенцев и дошкольников, тре-буют индивидуального предъявления. Некоторые дети, посещающиедетский сад, могут объединяться в небольшие группы и исследо-ваться с помощью тестов, разработанных для учащихся начальныхклассов. Однако, в общем, групповые тесты непригодны для детей, недостигших школьного возраста. Большинство тестов, созданных для де-тей моложе 6 лет, это либо тесты действия, либо устные тесты. Неболь-шое число заданий включает элементарные действия с карандашоми бумагой. Принято подразделять первые 5 лет жизни на период младенчестваи дошкольный период. Первый продолжается от рождения до приблизи-тельно 18 мес, второй-от 18 до 60 мес. Необходимо отметить, что припроведении тестирования младенец должен либо лежать, либо находить-ся на коленях у взрослого. Речь мало используется как средство инструк-тажа, хотя уровень овладения ребенком языком сам по себе обеспечи-вает соответствующие данные о его развитии. Большинство тестовпредназначены для изучения сенсомоторного развития детей: исследуют-ся способности младенца поднимать голову, поворачиваться, дотяги-ваться до предметов и схватывать их, следить глазами за движущимсяобъектом. Дети дошкольного возраста уже могут ходить, сидеть за сто-лом, использовать руки для работы с тестовыми предметами и общатьсяс помощью языка. В этом возрасте дети в большей степени реагируютна экспериментатора как на личность, тогда как младенца эксперимента-тор лишь обеспечивает стимульными объектами. Тестирование дошколь-ников-это в значительной степени межличностный процесс-особен-ность, расширяющая как возможности, так и трудности тестовойситуации. Правильное психологическое исследование маленьких детей требуетучета широкого спектра поведения, включая моторное и социальное по-ведение, а также особенности познавательных процессов. Такаянаправленность исследования сказалась уже на первых шкалах разви-тия; она подтвердилась и в последних работах по данной области,проведенных специалистами по обучению в раннем детстве (S. В. Ап-derson, S. Messick, 1974). Шкалы развития. Вслед за серией лонгитюдных исследованийнормально,го-развития младенцев и дошкольников А. Гезелл и его кол-леги псИельскму университету подготовили таблицы, получившие на-звание таблиц развития Гезелла (A. Gesell, C.S. Amatruda, 1947). Эти та-блицы охватывают четыре основные сферы поведения: моторику, язык,адаптивное и личностно-социальное поведение. Они обеспечивают стан-дартизованную процедуру для наблюдения и оценки хода развития пове-дения ребенка в обыденной жизни. Хотя некоторые из разделов этихтаблиц можно рассматривать в качестве тестов, все же большинство изних основаны на чистом наблюдении. Данные, полученные посредствомпрямого наблюдения за реагированием детей на обычные игрушкии другие стимульные объекты, дополняются информацией, сообщаемойматерью ребенка. В оценке реакций ребенка экспериментатору помогаетппппобное словесное описание поведения, типичного для детей разного ——""" V 41 ппг- 1 Хо-ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙтя таблицы А. Гезелла составлены для возрастного диапазона от 4 неддо 6 лет, их можно обозначить как метод тестирования младенцев. Раз-делы) из этих таблиц включены в некоторые другие шкалы развития,предназначенные для изучения младенцев. Хотя и процедуры наблюдения, и методы обработки в таблицах Ге-зелла в отличие от обычных психологических тестов недостаточностандартизованы, есть основания полагать, что при соответствующейопытности экспериментатор может добиться надежности показателей науровне выше 0,95 (Н. Knobloch, В. Pasamanick, 1960). В общем, этитаблицы могут рассматриваться как способы усовершенствования иуточнения качественных наблюдений, обычно осуществляемых педиа-трами и другими детскими специалистами. Эти таблицы, по-видимому,наиболее полезны в качестве дополнения к медицинским обследованиямпри выявлении неврологических заболеваний и первопричин ненормаль-ности поведения в раннем периоде жизни (A.F. Donofrio, 1965;Н. Knobloch, В. Pasamanick, 1960. Еще одним вариантом шкалы развития с меньшим охватом видовповедения, но рассчитанной на более широкий возрастной диапазон,являются шкалы, прототипами которых были тесты двигательных уме-ний Озерецкого и шкала социальной зрелости школы в Вайнленде. ХотяРис. 31. Рисунки из развития Гезелла, иллюстрирующих типичное поведе-ние 28-нед младенца (A. Gesell, С. S. Amatruda, 1947).С разрешения издательства Пауль Б. Хобер инкорпорейшн238 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯвозрастной диапазон эих шкал был расширен и рассчитан на детей го-раздо старше дошкольного возраста, они имеют непосредственное отно-шение к обсуждаемым здесь вопросам из-за определенного сходствас шкалами Гезелла по содержанию и общему подходу. Помимо то-го, они наиболее пригодны для изучения детей с более низким интеллек-туальным развитием и на более низких возрастных уровнях. Тесты двигательных умений Озерецкого впервые были опублико-ваны в России в 1923 г. и затем были переведены на несколько языкови использованы в ряде стран Европы. В 1946 г. Э.А.Долл (Е. A. Doll,1946), впоследствии руководитель исследований в специальной школев Вайнленде, издал в Англии перевод португальской адаптации этихтестов. Шкала моторного развития особенно полезна при тестирова-нии умственно отсталых, у которых часто наблюдаются дефекты разви-тия моторики. Еще одно применение тесты Озерецкого нашли в тестиро-вании детей с нарушениями моторики, минимальными мозговымидисфункциями или с трудностями в обучении, особенно в связис разработкой индивидуализированных программ обучения. Первыетесты Озерецкого предназначались для лиц в возрасте от 4 до 16 лети располагались по возрастным уровням, так же как в шкалах Стан-форд-Бине. Шкала Озерецкого предназначалась для изучения всех ос-новных типов моторного поведения, от принятия позы и макродви-жений тела до координации движения пальцев и контроля лицевоймускулатуры. Для проведения этих тестов требуются очень простые, до-ступные материалы, такие, как деревянные катушки, нитки, бумага,веревки, коробки и резиновый мяч. Инструкции даются устно или непос-редственным показом того, что надо выполнить. В 1955 г. была выпущена шкала моторного развития Линкольна-Озерецкого (W. Sloan, 1955), которая представляла собой пересмо-тренные и заново стандартизованные тесты Озерецкого с упрощеннымиинструкциями и улучшенными методами оценки результатов. Этот ва-риант включал 36 из 85 пунктов первоначальной шкалы и был рассчитанна возраст от 6 до 14 лет, тесты располагались в нем в порядке возра-стающей трудности и были отобраны на основе возрастной корреляции,надежности и некоторых практических соображений. Экспериментальныепроцентильные нормы были установлены на выборке стандартизации из380 мальчиков и 369 девочек, посещающих общественные школы в цен-тральном Иллинойсе. Коэффициенты надежности, подсчитанные мето-дом расщепления теста для групп, отличающихся по возрасту и полу,в большинстве своем приходились на интервал от 0,8 до 0,9. При по-вторном тестировании через год коэффициент корреляции оказалсяравным 0,7. Факторный анализ данных, полученных с помощью болеераннего и удлиненного варианта теста, выявил наличие единого общегофактора, обозначенного как моторное развитие. Шкала социальное зрелости школы в Вайнленде (Е. A. Doll, 1953,1965) является таблицей развития способностей индивида следить засвоими практическими потребностями и брать на себя ответственность.Хотя эта шкала рассчитана на возрастной диапазон от рождения до 25 Другие моторные тесты, предназначенные для диагностирования трудностейв обучении, будут рассмотрены в гл. 16,39 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙлет и выше, она признана наиболее эффективной для изучения детеймладшего возраста и умственно отсталых. Полная шкала содержит 117заданий, сгруппированных по возрастным уровням. Информация по каж-домУ заданию извлекается не путем создания тестовой ситуации, а на ос-нове интервью с человеком, могущим дать необходимые сведения, илис саим испытуемым. Шкала строится на выполнении деятельности, ко-торуА) испытуемый осуществляет в обыденной жизни. Задания распреде-лены 10 восьми категориям: общее самообслуживание, самообслужива-ние в время еды, при одевании, управление собой, занятия, общение,движения, социализация. Социальный возраст (SA) и коэффициент со-циальйости (SQ) могут быть вычислены на основании данных о субъекте,полученных по полной шкале. Шкала Вайнленд была стандартизована на 620 испытуемых в возра-сте от рождения до 30 лет. В каждую из возрастных групп входили по 10представителей мужского пола и 10 женского. Эти нормы, несомненно,уже несколько устарели. Более того, выборка содержала слишком малоиспытуемых в каждой возрастной группе и не была достаточно репрезен-тативной по отношению к общей популяции, поскольку большинство ис-пытуемых принадлежали к среднему классу. Коэффициент надежностипри повторном тестировании с интервалами от одного дня до 9 мес длягруппы из 123 испытуемых оказался равным 0,92. Использование разныхэкспериментаторов или лиц, дающих необходимую информацию, не ока-зало ощутимого влияния на результаты в этой группе, поскольку все этилица имели равные возможности для наблюдения за испытуемыми. Валидность шкалы определялась на основе возрастных различий,сравнения нормальных испытуемых с умственно отсталыми и корреля-ций тестовых показателей с суждениями наблюдателей, хорошо знавшихиспытуемых. Корреляции между шкалой Вайнленд и тестом Станфорд-Бине широко варьируют, но в целом достаточно низки и позволяютутверждать, что с помощью этих двух шкал измеряются разные аспектыповедения. Шкалы социальной зрелости Вайнленд помогают клиници-стам при диагностировании умственной отсталости и принятии решенийо помещении обследуемых в лечебные учреждения. Например, индивид,признанный умственно неполноценным по результатам тестирования пошкале Станфорд.-Бине, может удовлетворительно приспособитьсяк жизни в нормальном окружении, если его социальный возраст по шка-ле Вайнленд соответствует норме. Более современным и более полным методом является шкала адап-тивного поведения (АВС), разработанная Комитетом американской ассо-циации по изучению умственной неполноценности. Предназначенная пер-воначально для умственно отсталых, эта шкала может быть использова-на также для изучения эмоционально неустойчивых и страдающих дру-гими расстройствам лиц. Адаптивное поведение определяется как (American Association…, 1974).В варианте 1974 г. эта шкала обеспечивает единую форму, применимуюначиная с 3 лет. Как и шкала социальной зрелости Вайнленд, она осно-вана на наблюдениях за ежедневным поведением испытуемого и можетзаполняться родителями, учителями, врачами и другими людьми, нахо-дящимися в тесном контакте с испытуемыми. Другим способом получе-ния информации является опрос одного или нескольких наблюдавших240 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ / ABS состоит из двух частей. Первая часть представляет собой шклуразвития по 10 областям поведения, некоторые из них подразделен наболее мелкие подобласти, так как это представлено ниже. / / Самообслуживание: еда, туалет, гигиена, внешний вид, уход за одеждой, одеваниеи раздевание, перемещение, общее самообслуживание. ! Физическое развитие: сенсорное, моторное. / Хозяйственная деятельность: обращение с деньгами, планирование бюджета, уме-ние делать покупки. Развитие языка: выразительность, понимание, социальное общение. Числа и время. Домашняя работа: уборка дома, обязанности по кухне, другие виды домашнеготруда. Профессиональная деятельность. Саморегуляция: инициатива, настойчивость, свободное время. Ответственность. Социализация. Каждая область или подобласть шкалы снабжена специальными за-даниями, содержащими ответ с множественным выбором. Для ответовна вопросы, касающиеся видов деятельности, которые испытуемый мо-жет и не выполнять (например, покупки в магазине, обед в ресторане),приводятся специальные инструкции. Вторая часть предназначена для оценки плохо адаптированного по-ведения, связанного с личностными и поведенческими нарушениями. Онаохватывает 14 сфер поведения, таких, как несдержанность и стремлениек разрушению, замкнутость и тенденции к гиперактивности и т.д. Покаждой из этих сфер сообщения о специфическом поведении (например, , ) оцениваются единицей, еслиносят случайный характер, и двойкой, если встречаются часто. Инструкции по предъявлению шкалы и ее обработке изложеныв самой форме теста и подробнее объясняются в руководстве к нему.Шкала дает суммарный профиль показателей в процентилях по каждойиз 24 сфер поведения. Нормы получены на группе содержащихся в спе-циальном учреждении умственно отсталых обоего пола в возрасте от3 до 69 лет. Процентильные эквиваленты приводятся для II возрастныхуровней с интервалами в 1 год для младших испытуемых и интерваламив 2, 3, 10 и 20 лет для более взрослых испытуемых. Испытуемые выбира-лись в специальных учреждениях по всем Соединенным Штатам, и ихчисло для каждого возрастного уровня колебалось от 100 до чуть боль-ше 500. При интерпретации результатов авторы теста считают важнымучитывать способности индивида к адекватному поведению в обычнойобстановке, обычном или близком к обычному окружении. Предвари-тельные данные по оценкнадежности и валидности (конструктной и те-кущей) многообещающи, вторы указывают также некоторые направле-ния исследований по применению шкалы для изучения умственноотсталых, не находящихся в специальных учреждениях, и для лиц с эмо-циональными расстройствами, но не являющихся умственно отсталыми,а также в лонгитюдных исследованиях изменений тестовых показателейв процессе лечения и после прохождения курса обучения по специальнымпрограммам и, наконец, изучению различных психометрических свойствут,г>й т1№атт1.т гаг Лlтrlпl-IЧftгкnгn ИНСТПУМеНТа.21 TI-CTbl ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙпсихометрическим требованиям, особенно в отношении репрезентативно-сти нормативных данных. С точки зрения современных принципов по-строения тестовых методик, эти шкалы нуждаются в дополнительных ис-следованиях для более адекватной интерпретации результатов тестиро-вание и представляют интерес главным образом потому, что указывают,в каксцй мере те или иные функции необходимо включить в исследованиемаленьких детей и детей более старшего возраста с недостатками в ум-ственным и физическом развитии. Шалы развития младенцев Бейли. В 60-70-х гг. резко воз-рос интерес к тестам для младенцев и дошкольников. Одной из причинэтого б1ло быстрое распространение программ обучения для умственноотсталых детей. Другой причиной явилось широкое развитие программкоррекционного дошкольного обучения культурно неразвитых детей.В ответ на запросы практики появились новые тесты и было проведенозначительное число исследований для разработки новых методов оценкиуровня развития детей Наиболее разработанным тестом для самых маленьких детейявляются шкалы развития младенцев Бейли. Эти шкалы явились резуль-татом многолетних научных изысканий Н. Бейли и ее коллег по универ-ситету в Беркли, проводивших также и лонгитюдные исследования поизучению развития. Некоторые из заданий были заимствованы из таб-лиц Гезелла и других тестов для младенцев и дошкольников. Шкалы Бейли предусматривают три вспомогательных средстваоценки степени развития ребенка в возрасте от 2 мес до 2,5 лет: шкалуумственного развития, шкалу моторного развития и записи поведениямладенца. Шкала умственного развития выявляет такие функции, каквосприятие, память, обучаемость, решение проблем, вокализация, зачат-ки словесного общения и простейшее абстрактное мышление. Шкала мо-торного развития измеряет макромоторные способности, такие, как уме-ние сидеть, стоять, ходить и подниматься по ступенькам, а также умениедвигать руками и пальцами. В младенческом возрасте развитие двига-тельных функций, манипулирование с предметами играют важную рольво взаимосвязи ребенка с окружающей средой и, следовательно, в разви-тии его умственных процессов. Записи поведения младенца предста-вляют собой оценочную шкалу, заполняемую экспериментатором послепроведения двух других частей теста. Она предназначена для оценки раз-личных аспектов развития личности ребенка, таких, как эмоциональноеи социальное поведение, объем внимания, настойчивость и целеустрем-ленность. С точки зрения методики, шкалы Бейли несомненно можно считатьвыдающимся измерительным инструментом для изучения младенцев.Нормы для этих шкал были установлены на выборке из 1262 детей, рас-пределенных примерно поровну в возрастные группы от 2 до 30 мес. Вы-борка стандартизации была репрезентативной по отношению к популя-ции США относительно принадлежности к городскому или сельскомунаселению, местожительства, агакже с учетом пола и расы (белые-цветные), и уровня образования главы семьи. В выборку не включались Обзор соответствующих тестов для младенцев и дошкольников дается в работеЛ.Стотта и Р.Болла (L.H.Stott, R.S. Ball, 1965). Обсуждавшиеся в гл. 9 векслеровские242 тесты ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯдети, находящиеся в лечебных учреждениях, преждевременно родившиесяи дети старше года из семей, где говорили на двух языках. Шкалы ум-ственного и моторного развития дают раздельные индексы развития, вы-раженные в нормализованных стандартных показателях с М == 100 ист == 16 в единицах стандартного IQ по шкале Станфорд-Бине. Эт ин-дексы развития устанавливались для каждой возрастной группыотдельно. Возрастные группы составлялись с интервалом в полмесяцадля возраста от 2 до 6 мес и в месяц для детей от 6 до 30 мес. Коэффициенты надежности шкалы умственного развития, полу-ченные методом расщепления теста в отдельных возрастных группах,принимали значения в интервале от 0,81 до 0,93, с медианой, равной 0,88.Коэффициенты надежности шкалы моторного развития колебались от0,68 до 0,92, а медиана равнялась 0,84. Эти коэффициенты выгодно отли-чаются от тех, которые обычно получаются при тестировании младен-цев. В руководстве к шкалам приводятся обычные ошибки измеренияи минимальные различия между индексами по шкалам умственногои моторного развития, необходимые для статистической значимостиданных. Данные о согласованности результатов, полученных эксперимен-татором-наблюдателем, и надежности повторного тестирования с интер-валом в 1 нед также говорят в пользу этих шкал. Н. Бейли указывает, что эти шкалы, как и все предназначенные длятестирования младенцев, должны использоваться главным образом дляоценки текущего уровня развития, а не для предсказания последующегоразвития способностей. На развитие способностей в столь раннем возра-сте оказывает влияние такое огромное число различных факторов, чтопредсказание на длительный период времени оказывается малоценным.Шкалы весьма полезны для раннего распознания сенсорных и неврологи-ческих нарушений, эмоциональных расстройств и отрицательных влия-ний окружающей среды. Шкалы МакКарти изучения способностей ребенка.Новым методом исследования детей дошкольного возраста являютсяшкалы МакКарти по изучению способностей ребенка (MSCA), рассчи-танные на детей от 2,5 до 8,5 лет.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Они состоят из 18 тестов, сгруппиро-ванных в шесть частично совпадающих шкал, получивших название вер-бальной, перцептивного действия, количественной, общих познава-тельных способностей, памяти и моторной. В тесте на группировкупонятий из шкалы перцептивного действия ребенку показывают красные,желтые, голубые квадраты и кружки двух разных размеров и просят под-обрать к ним предметы с заданными характеристиками. Тест общих по-знавательных способностей наиболее близок традиционному измерениюобщего интеллектуального развития. Показатель по этой шкале находятсуммированием тестовых результатов, полученных в первых трех шка-лах, которые хотя и не совпадают друг с другом, но обязательно содер-жат все тесты на память и почти все (за исключением трех) моторныетесты. Таким образом, показатель теста рбщих познавательных способ-ностей основывается на 15 из 18 тестов батареи. Этот показатель обозначается как индекс общих познавательныхспособностей (GCI) и является нормализованным стандартным показате-лем с М = 100 и (т==16, найденным для каждой возрастной группы~ —Ї"Їя пг>м в 3 мес. В руководстве к шкалам поясняется, что хотя GCI "" —"-"". " uf. использовалось243 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙсякак показатель деятельности ребенка в период тестирования без при-дания ему значения неизменности или причинности. Показатели по от-дельным шкалам-это нормализованные стандартные показатели с М === 5Q и ст = 10 для тех же возрастных групп. Выборка стандартиза-ции Состояла из 1032 испытуемых и включала приблизительно по 100детеидля каждого из 10 возрастных уровней с полугодовым интерваломдля дтей от 2,5 до 5,5 лет и годовым интервалом для детей от 5,5 до 8,5лет. В. каждую возрастную группу выборки входило равное число маль-чиков ц девочек. Выборка была стратифицирована в соответствии с пере-писью населения США 1970 г. по принадлежности к городскому и сель-скому населению, по месту жительства, расовому признаку (белый-цвет-ной) и по профессии отца. В выборку не включались дети, находящиесяв учреждениях для умственно отсталых, дети с тяжелыми нарушениямиповедения и эмоциональной сферы, повреждениями мозга и явными фи-зическими недостатками. Дети, говорящие на другом языке, тестирова-лись только в том случае, если они могли хорошо говорить и пониматьпо-английски. Коэффициент надежности, найденный методом расщепления, дляGCI в среднем составлял 0,93, коэффициенты надежности других пятишкал колебались от 0,79 до 0,88. В руководстве приводятся также стан-дартные ошибки измерения и минимальные различия между показателя-ми шкал со значимостью на уровне 0,05. Коэффициенты надежности приповторном тестировании через месяц для группы из 125 детей, разде-ленных в зависимости от возраста на три группы, равнялись в среднем0,90 для GCI и колебались по отдельным шкалам от 0,69 до 0,89. Что касается валидности, то в руководстве приведены довольно ин-тересные, но скудные данные по прогностической валидности сравни-тельно с тестами учебных достижений, предъявляемыми в конце обуче-ния в первом классе. Первоначальный отбор и группировка тестовв шкалы опирались на опыт клинических исследований, данные о психо-логии развития ребенка и результаты факторного анализа. По мере раз-работки шкал несколько длительных тестовых серий были обработаныс помощью факторного анализа раздельно в трех возрастных группах,составивших около -термин, обычно встречающийся в работах Ж. Пиае и обозначающий,в сущности, структуру, в которой индивид упорядочивает поступающую сенсорнуюинформацию. Примером такого применения является обсуждающийся в гл. 14 тест .245 ТР.ГТЫ для СПЕЦИФИЧКСКИХ ПОПУЛЯЦИЙв стандартизованных условиях на болыпих репрезентативных выборкахи в разных культурных средах (М. Laurendeau, A. Pinard, 1962, 1970;A. Pinard, М. Laurendeau, 1964). Одним из результатов этого исследова-ния было создание шкал умственного развития, которые, в сущности,могут применяться и другими исследователями. Однако создатели этихшкал считают, что делать эти шкалы всеобщим достоянием нельзя дотех пор, пока не будет завершено их исследование. В ходе своих работ М. Лорендо и А. Пинар предъявляли батарею из57 тестов 700 детям в возрасте от 2 до 12 лет. Тесты для детей моложе4 лет либо создавались заново, либо адаптировались задания из обще-принятых шкал, но все они подбирались таким образом, чтобы оценитьте характеристики, которые Пиаже относит к этому периоду развития. 25тестов, предназначенных главным образом для детей 4 лет и старше, бы-ли созданы непосредственно по образцу заданий Пиаже. Результаты, по-лученные с помощью 10 из этих тестов, подробно приводятся в двухкнигах исследователей (М. Laurendeau, A. Pinard, 1962; 1970). Пять тестоврассматривают причинность, включая объяснение ребенком природыи причин сновидений, различий между одушевленными и неодуше-вленными объектами, причины наступления вечерней темноты, движенияоблаков, свойства одних предметов плавать, а других тонуть. Эти тестыпочти полностью предъявлялись в виде устных вопросов, и их способпроведения является чем-то промежуточным между неструктуриро-ванным Пиаже и полностью контролируемымипроцедурами традиционного тестирования. Все вопросы стандартизо-ваны, но в зависимости от первых ответов экспериментатор выбираеттот или иной способ изучения мыслительных процессов ребенка. Еще пять тестов связаны с пониманием ребенком пространства.Они включают такие задания, как узнавание предметов на ощупь и ихпоследующее зрительное опознание среди предъявляемых изображенийэтих же предметов; размещение набора игрушечных фонарных столбовмежду игрушечными домами по прямой линии; помещение игрушечногочеловека в те же места макета местности, в какие их помещает экспери-ментатор на имеющемся у него идентичном макете; указание ребенкомправой и левой сторон своего тела и тела экспериментатора в разныхположениях и относительно находящихся на столе предметов; а такжезадачи на перспективу, когда ребенок должен показать, какими видятсячеловеку из разных мест три игрушечные горы. Некоторые из этих про-странственных тестов направлены на эгоцентризм мышления ребенка,затрудняющий ему восприятие предмета с иных позиций, нежели та, ко-торую он занимает. Заполненный протокол с ответами ребенка по каждому тесту обра-батывается как целое, в соответствии с уровнем развития, о котором су-дят по качеству его ответов. М. Лорендо и А. Пинар подвергли полу-ченные результаты всесторонней статистической обработке. Их выборкастандартизации из 700 испытуемых включала по 25 мальчиков и 25 дево-чек в каждую возрастную группу для детей от 2 до 5 лет с интерваломв 6 мес, а для детей от 5 до 12 с интервалом в 1 год. Дети были ото- Программы по стандартизации шкал Пиаже проводились также С. К. Эскалопа(медицинский колледж им. А. Эйнштейна в Нью-Йорке), Р.Д. Тадденхаон (Калифорний-ский университет в Беркли), Н. П. Винх-Бангом и Б. Инельдер (лаборатория Пиаже в Же-246 ТЕПЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯбраны таким образом, что составили репрезентативную выборку фран-цузско-канадской популяции Монреаля по отношению к профессиональ-ному положению отцов и числу учеников в школьном классе (длядошкольников-по числу детей в семье). Исследователи не ограничилисьполучением нормативных возрастных данных, а проанализировали своирезультаты на упорядоченность, или единообразие последовательностив достигнутых разными детьми уровнях ответов. Их также интересоваластепень сходства в стадиях развития, достигнутого каждым ребенкомв разных тестах. Взаимокорреляции показателей в пяти тестах на при-чинность колебались от 0,59 до 0,78, а в пяти пространственных тестахот 0,37 до 0,67 (М. Laurendeau, A. Pinard, 1962, р. 236; 1970, p. 412). Порядковые шкалы психологического развития, подготовленныеИ. Узгирисом и Дж. Хантом (1. С. Uzgiris, J. McV. Hunt, 1975), предназна-чены для детей еще более младшего возраста, чем шкалы Лорендуи Тинара, и пригодны для детей от 2 нед до 2 лет. Этот возраст прибли-зительно соответствует периоду, который Пиаже характеризует как сен-сомоторный и внутри которого он различает шесть стадий. Чтобы повы-сить чувствительность своих методик, И. Узгирис и Дж. Хант распреде-лили все ответы по более чем шести уровням, в разных шкалах эточисло колеблется от 7 до 14. Серия сое гонт из шести шкал. 1. Постепчетво объекта: возникающее у ребенка представление о независимо суще-ствующих объектах определяется по слежению глазами за объектом и отыскиванию егопосле (01 о, как ею постепенно закрывают или прячут. 2. Пени. ih ижипис срсдстн для достижения отдаленных, вызывающих интерес предме-тов (co6ci венных рук и таких средств, K:IK веревки, палки, подставки и т.д.). 3. Подражание, в том числе имитация жестов и голоса. 4. Опериционильная причинность: опознание объективных причинных связей и при-способление к ним-от зрительно> о наблюдения за собственными руками до вызыванияжелаемого действия от человека или приведения в движение механической игрушки. 5. Ск.ч11> объектов а пространстве: координация структур зрения и слуха при локали-зации объектом в пространстве, понимание таких отношений, как емкость, равновесие,тяжесть. 6. Развитие схем действия с объектами: реакция на объекты взглядом, ощупыва-пием, манипулированием, выпусканием из рук, бросанием и т.д. и на социально вырабо-танные схемы по обращению с конкретными объектами (например, вождение игрушечно-го автомобиля, строительство из кубиков, нанизывание бусинок, называние объектов). Номы для этих шкал выработаны не были, но исследователямисобраны данные о некоторых психометрических особенностях шкал. Этиданные получены в результате применения шкал к 84 младенцам, не ме-нее 4 де7ей для каждого возрастного уровня, определявшегося интерва-лом в 1 мес для детей до 1 года и в 2 мес для детей от 1 года до 2 лет.Почти все испытуемые были детьми студентов-выпускников или сотруд-ников университета штата Иллинойс. Приведенные сведения о согласо-ванности результатов тестов с данными наблюдения и данными повтор-ного тестирования, проведенного ерез 48 ч, говорят об удовлетвори-тельности этих результатов в обих отношениях. Индекс порядка,подсчитанный для каждой шкалы на основе показателей той же группыиз 84 детей, колебался от 0,802 до 0,991. Авторы сообщают, что значение0,50 является достаточным для доказательства порядкового характерашкал при использовании данного индекса". Процедуры измерения порядковости и применения анализа шкалограмм к шкаламПиаже достаточно спорны, и что необходимо иметь в виду при интерпретации любых све-дений об индексах порядка (F.H. Hooper. 1973; J.F. Wohlwill, 1970).247 ТЕСТЫ для СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙ И. Узгирис и Дж. Хант подчеркивают, что эти шкалы носят предва-рительный характер, хотя допускается их использование с исследователь-скими целями другими экспериментаторами.Помимо журнальных ста-тей, освещающих отдельные аспекты исследований, в которых былииспользованы эти шкалы, создатели теста описали его в книге и подго-товили 6 звуковых фильмов по применению этих шкал (1. С. Uzgiris, J. MeV. Hunt, 1975). Первоначально эти шкалы предназначались для измерениявлияния специфических окружающих условий на степень и ход развитиямладенцев. Изучение младенцев, находящихся в разных условиях, и мла-денцев, воспитание которых осуществлялось по особой программе, пока-зало, что от условий воспитания в значительной степени зависит тотсредний возраст, в котором ребенок достигает разных ступеней, опреде-ляемых по шкалам развития (J.McV. Hunt, J. Paraskevopoulos, D. Schick-edanz, 1. С. Uzgiris, 197-5; J. Paraskevopoulos, J.McV. Hunt, 1971). В отличие от первых двух примеров шкал Пиаже комплект дляоценки понятия (Concept Assessment Kit-Conservation)-ужеопубликованный тест, который может быть использован на тех же усло-виях, что и другие психологические тесты. Рассчитанный на детей от4 до 7 лет, этот тест измеряет одно из наиболее известных понятий, ис-пользуемых в системе Пиаже,-понятие . Данное понятиеуказывает на осознание ребенком того факта, что свойства объектов, та-кие, как вес, объем и их количество, остаются неизменными, даже еслиобъекты меняют форму, свое расположение или другие конкретные при-знаки. Исследователи сосредоточили внимание на понятии как на показателе перехода ребенка от стадии дооперационного мышле-ния к стадии конкретных операций, наступающей, по мнению Ж. Пиаже,в возрасте 7-8 лет (M.L. Goldschmid, P.M. Bentler, 1968b). Процедура проведения всего теста одинакова. Ребенку показываютдва идентичных объекта, затем экспериментатор изменяет один из нихи спрашивает ребенка, одинаковы объекты или различны. Ребенка про-сят пояснить свой ответ. По каждому заданию испытуемый получаетодин балл за правильное суждение о равенстве объектов и один балл заудовлетворительное объяснение. Например, экспериментатор берет дваобычных стакана с равным количеством воды (континуальное количе-ство) или с зернами (дискретное количество) и выливает (или высыпает)содержимое либо в плоскую тарелку, либо в другие стаканы, меньшие повеличине. В другом задании экспериментатор показывает ребенку дваодинаковых гуттаперчевых мяча и затем расплющивает один, придавему форму блина. Ребенка спрашивают, равны ли по тяжести круглыйи сплющенный мячи. Имеются три формы теста. Формы А и В параллельны и содержатпо шести заданий, называемых двумрное пространство, число, веще-ство, континуальное количество, веси дискретное количество. Эти двеформы имеют очень близкие значения М и ст, и их показатели коррели-руют на уровне 0,95. Форма С состоит из двух разных заданий: площадьи длина. Результаты, полученные по форме С, коррелируют на уровне0,76 и 0,74 с результатами по формам А и В соответственно. Тестоваяпроцедура облегчается тем, что в протоколе напечатаны все суще-ственные указания по проведению эксперимента, включая схемы мате-риалов, рекомендации к их использованию и словесные инструкции. Нормы были установлены на выборке стандартизации из 560 маль-248 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯми в дневное время и центров опережающего обучения в Лос-Анджелесе(Калифорния). Выборка включала и белых и черных детей и охватываларазные социоэкономические слои, но несколько преобладали представи-тели средних слоев населения. Для каждого возрастного уровня полу-чены процентильные нормы, правда рассматриваемые лишь как предва-рительные ввиду малого числа испытуемых в каждой возрастной группеи ограничений, связанных с недостаточной представленностью неко-торых слоев населения. Средние результаты по каждой группе с возра-стом постепенно улучшаются, особенно резкий подъем отмечается в воз-расте от 6 до 8 лет, что соответствует теории развития Ж. Пиаже. И при создании теста, и при оценке его окончательных вариантовавторами проводился статистический анализ для определения надежно-сти показателей, при этом использовались методы Кьюдера-Ричардсо-на, взаимозаменяемых форм, ретеста, шкалирования или порядковостии факторной структуры (М. L. Goldschmid, P. М. Bentler, 1968я). Резуль-таты, хотя они и получены на небольшой выборке, в общем, свидетель-ствуют об удовлетворительной надежности, подтверждают наличие по-рядковости и общего фактора сохранения во всех заданиях. Сравнительные исследования, проведенные в 7 странах, подтверди-ли, что тест пригоден для применения в разных культурах, что он высо-ко надежен и выявляет приблизительно одни и те же тенденции возраст-ного развития (M.L. Goldschmid et а1, 1973). Но в разных культурахи субкультурах обнаружены различия в возрасте (среднем для иссле-дуемых детей), в котором осваиваются понятия, возрастная кривая мо-жет смещаться по горизонтали на один или два года (J. С. Figurelli,H.R. Keller, 1972; В.Н. Wasik, J.L. Wasik, 1971). Тренировка в заданияхна сохранение значительно улучшает показатели (M.L. Goldschmid, 1968;B.J. Zimmerman, T.L. Rosenthal, 19740; b). В руководстве к тесту приво-дятся обнадеживающие данные исследований, проведенных на неболь-ших группах, о конструктной валидности теста. О прогностической ва-лидности теста свидетельствуют значимые корреляции 0,30 и 0,40с уровнем достижений первоклассников, при самой высокой корреляциис оценками по арифметике 0,52.ТЕСТИРОВАНИЕ ЛИЦ С ФИЗИЧЕСКИМИ НЕДОСТАТКАМИГлухота. Глухие дети вследствие общего отставания в лингвистиче-ском развитии обычно плохо справляются с вербальными тестами, дажеесли они предъявляются визуально. Фактически некоторые из первыхшкал действия создавались в первую очередь для тестирования глухихдетей, например шкала действия Пинтнера-Петерсона и шкала действияАртура. В пересмотренном варианте формы II шкалы Артура вер-бальные инструкции предыдущей формы теста были сокращены, с темчтобы сделать этот тест более пригодным для глухих детей. Иногда длятестирования глухих детей используются специальные адаптации шкалВекслера. Вербальные тесты могут предъявляться при условии, чтоустные вопросы отпечатаны на карточках. Для сообщения инструкцийв тестах действия были разработаны специальные методы (J. М. Sattler,1974), но при введении подобных изменений в стандартные процедурытестирования следует иметь в виду, что могут измениться надежность,валидность и нормы теста. При тестировании глухих используются так-249 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙ Все упоминавшиеся до сих пор тесты независимо от того, требуютони или не требуют специальных методических адаптаций, были стан-дартизованы на выборках испытуемых, имеющих нормальный слух. Ко-нечно, для многих целей полезно сравнить выполнение теста глухими ис-пытуемыми с общими нормами, установленными для лиц, обладающихнормальным слухом. В то же время данные о нормах, полученные на вы-борке глухих детей, также необходимы для ряда ситуаций, имеющих от-ношение к особенностям обучения этих детей. Для решения этих вопросов был разработан и стандартизован наглухих и плохо слышащих детях тест способности к обучению Хискея-Небраска. Этот тест требует индивидуального предъявления и рассчитанна детей от 3 до 16 лет. Фактор скорости выполнения был из теста ис-ключен, поскольку было трудно объяснить смысл скорости маленькимглухим детям. Была также предпринята попытка охватить более широ-кое число интеллектуальных функций, чем это предусматривалось боль-шинством тестов действия. В таком тесте особые требования предъяв-ляются к языку жестов и практическим упражнениям в сообщенииинструкций, а также заинтересованности испытуемых в заданиях, без че-го невозможно взаимопонимание экспериментатора с испытуемыми. Всезадания отбирались с учетом ограниченных возможностей глухих детей,выбор последнего задания основывался главным образом на критериивозрастных различий.Этот тест состоит из двенадцати субтестов:1. Узоры из бусинок. 7. Модели из блоков.2. Память на цвета. 8. Завершение рисунков.3. Идентификация картинок. 9. Память на цифры.4. Ассоциации, вызываемые картинками. 10. Головоломки из блоков.5. Складывание бумаги по образцам. II. Аналогии в картинках.6. Объем зрительного внимания. 12. Пространственное мышление, Нормы были установлены раздельно на выборках из 1079 глухихи 1074 слышащих детей в возрасте от 3 до 17 лет из 10 штатов. Коэффи-циенты надежности, определенные методом расщепления теста, и дляглухих, и для слышащих детей равны 0,90. Взаимокорреляции показате-лей 12 субтестов колеблются от 0,30 до 0,70 в группе младших детей (от3 до 10 лет) и от 0,20 до 0,40 в группе старших (от II до 17 лет). Коэффи-циенты корреляций теста Хискея -Небраска для небольшой группы сла-бослышащих детей со шкалами танфорд-Бине или с векслеровскимишкалами интеллекта для детей бьип-авны 0,78-0,86. Валидность тестаподтверждается также существенными корреляциями с тестами достиже-ний в группе глухих детей. В руководстве содержатся рекомендации, ко-торым необходимо следовать при проведении тестирования глухихдетей. Слепота. Тестирование слепых ставит перед исследователями со-всем иные проблемы, чем те, которые рассматривались выше. Устныетесты могут быть очень быстро адаптированы для слепых испытуемых,а вот применение тестов действия весьма затруднительно. В дополнениек обычному устному способу предъявления заданий могут быть исполь-зованы и другие тестовые методики, например записи на пластинках,магнитофонные записи. Существуют также тесты, опирающиеся на си-" —""" " TTw-тлля пля слепых (шрифт Брайля). Последний метод не- -__.." 250 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯтериалов, напечатанных шрифтом Брайля, а также меньшей скоростичтения этого шрифта и из-за незнания шрифта Брайля многими испы-туемыми. Ответы испытуемых могут регистрироваться либо с помощьюшрифта Брайля, либо на пишущей машинке. Специально подгото-вленные ответы, выполненные выпуклым шрифтом на таблицах или кар-точках, вполне пригодны для использования в заданиях с множе-ственным выбором, ответами типа и др. Разумеется,на многие индивидуально предъявляемые тесты испытуемые могут да-вать устные ответы. Среди основных тестов общего интеллекта, адаптированных дляслепых, следует назвать тесты Бине и Векслера. Первая редакция тестаХайеса-Бине для слепых создавалась на основе шкал Станфорд-Бине1916 г. В 1942 г. была подготовлена промежуточная форма теста Хайе-са-Бине из варианта шкал Станфорд-Бине 1937 г. (S.P.Hayes, 1942;1943). Из форм L и М были отобраны все задания, которые не требовализрительного восприятия. Таких тестов оказалось по 6 для каждого воз-растного уровня от VIII до XIV и 8 для подросткового уровня. Чтобынабрать достаточное количество тестов для возрастных уровней от IIIдо VI, воспользовались несколькими специальными тестами, разрабо-танными для более ранней формы теста Хайеса-Бине. Большая частьтестов, вошедших в окончательный вариант шкалы, являются устными,несколько предполагают применение шрифта Брайля. С. Хайес сооб-щает, что коэффициент надежности, определенный методом ретеста, со-ставил 0,90, а применение метода расщепления теста дало коэффициент0,91. Корреляции с использующим шрифт Брайля вариантом стандарт-ного теста достижений колеблются от 0,82 до 0,93. Валидность этого те-ста проверена также по отношению к успешности обучения в школе. Шкалы Векслера были также адаптированы для слепых испытуемых.Эти адаптации свелись, в сущности, к использованию вербальных тестови отказу от тестов действия. Несколько заданий, не подходящих дляслепых, были заменены. Когда было проведено тестирование, оказалось,что слепые испытуемые как группа показали такие же или более высокиерезультаты, чем те, которые являются нормой для зрячих. Иной подход демонстрирует гаптическая шкала интеллекта длявзрослых слепых. Шкала разрабатывалась как невербалыцлй тест для ис-пользования его вместе с вербальной шкалой WAIS. В него-тошли четы-ре адаптированные теста действия из WAIS, а именно цифровые сим-волы, конструирование блоков, сборка объекта, завершение объекта; дватеста были разработаны заново: доска форм и счет на предметах. В те-стах используется только тактильное восприятие, и если они предъявля-ются лицам, лишь частично утратившим зрение, то выполняются с завя-занными глазами. Именно по этой причине они наиболее пригодны длятестирования совершенно слепых. Методы стандартизации очень похожина те, которые применялись в WAIS. В выборку стандартизации слепыхиспытуемых включалось соответствующее количество белых и цветныхиз основных географических районов страны. Показатели выполнениясубтестов и стандартного IQ находились так же, как и в WAIS. Коэффи-Рассматриваемый первоначально лишь как промежуточный вариант, поскольку251 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙциенты надежности, полученные методЬм расщепления теста, равны дляполной шкалы 0,95, а для субтестов от 0,79 (сборка объектов) до 0,94(счет на предметах). При повторном тестировании 136 испытуемых черезполгода коэффициенты надежности оказались для полной шкалы 0,91,для субтестов от 0,70 до 0,81. Корреляции с показателями вербальнойшкалы WAIS в группе слепых испытуемых в возрасте от 20 до 34 летоказались на уровне 0,65. Материалы для проведения тестирования до-статочно громоздки, и процедура занимает от 1,5 до 2 ч, но слепые ис-пытуемые обычно находят тесты интересными и приятными. Сами со-здатели тестов все время подчеркивают, что шкала носит предвари-тельный характер и требует дальнейшей разработки, хотя опытныйклиницист может с ее помощью получить нужную ему информацию.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Ряд групповых тестов интеллекта аналогичным образом адаптиро-ваны для использования при изучении испытуемых с недостатками зре-ния. Они имеются как в обычных вариантах, так и с применением шриф-та Брайля и включают такие тесты, как SCA Т (тест способностей дляшколы и колледжа), SAT, (тест способности к обучению), IRE (тест спо-собностей для выпускников университета). Исследование тактильных те-стов с помощью прогрессивных матриц показало, что их можно рассма-тривать как невербальный тест интеллекта для слепых детей в возрастеот 9 до 15 лет (С. С. Rich, R.P.Anderson, 1965). К.Максфильдоми С. Буххольцем была подготовлена и стандартизована адаптированнаяшкала социальной зрелости школы в Вайнленде (К. В. Maxfield,S. Buchholz, 1957). Ортопедические недостатки. Люди с ортопедическими недо-статками, способные нормально воспринимать слуховую и зрительнуюинформацию, могут страдать такими тяжелыми расстройствами мотори-ки, что для них оказываются недоступными ни устные, ни письменныеответы. Манипулирование с предметами, используемыми в тестах дей-ствия, также может быть затруднено для испытуемых. Работа в условияхограниченного времени или в незнакомом окружении часто усиливаетимеющиеся у этих испытуемых нарушения моторики. Их повышеннаяутомляемость делает необходимим проведение тестирования короткимисериями. Некоторые из наиболее тяжелых нарушений моторикисвойственныстрадающим церебральным параличом. Однако изучение эгих случаевзачастую осуществлялось с помощью общепринятых тестов интеллекта,таких, как шкалы Станфорд-Бине и шкала действия Артура. При иссле-довании больные с наиболее тяжелыми формами заболеваний обычноисключались как не поддающиеся тестированию, а в ходе тестированиячасто делались неформальные изменения методики, с тем чтобы приспо-собить ее к особенностям реакций ребенка. Обе эти процедуры, разуме-ется, носят палиативный характер. Более удовлетворительный подход состоит в развитии методов те-стирования, пригодных и для индивидов с достаточно тяжелыми нару-шениями. В настоящее время для этой цели используются ряд специаль-но созданных или адаптации существующих тестов, хотя данных о ихнормативах и валидности по большей части недостаточно. Некоторые изобсуждающихся в следующем разделе тестов первоначально предназна-чались для тестирования межкультурных различий, но они оказались252 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯбиринтов Портеуса, пригодные Для предъявления детям, страдающимцеребральным параличом (R.M. Alien, M.G.Collins, 1955; G.F.Arnold,1951). В обоих адаптированных тестах экспериментатор сам действуетс тестовыми материалами, а от испытуемого требуется в нужный мо-мент кивнуть головой. Подобная адаптация предлагается и для шкалСтанфорд-Бине (Е. Katz, 1958). Наиболее пригодным для этих целейявляется метод прогрессивных матриц. Поскольку такие тесты проводят-ся без ограничений во времени и ответ может быть дан устно, письмен-но, указательным жестом или кивком, он оказывается наиболее подходя-щим для лиц, обладающих ортопедическими недостатками. Несмотря наразличие и простоту способов ответа, этот тест охватывает задания ши-рокого спектра трудности и обеспечивает довольно высокий верхний те-стовый порог. В ряде работ сообщается об успешном использовании те-стов при изучении детей и взрослых, страдающих церебральнымпараличом (R.M. Alien, M.G.Collins, 1955; R.H.Holden, 1951;V.S.Tracht, 1948). Еще одним типом теста, допускающим в качестве ответа простыеуказательные жесты, является словарный тест в картинках. Эти тестыобеспечивают быстрое измерение возможностей использования испы-туемым словарного запаса, особенно уместен этот тест для лиц, неспо-собных к отчетливому произношению слов (например, в случаях цере-брального паралича) и для глухих. Поскольку они легки в применениии могут быть проведены за 15 мин, их можно использовать для быстро-го отсеивания испытуемых в ситуациях, когда нет опытного эксперимен-татора, а проведение индивидуального тестирования необходимо. Типичным образцом методик такого типа является словарный теств картинках Пибоди {Р РУТ). В него входит серия из 150 иллюстраций,с четырьмя картинками на каждой. Предъявление каждой иллюстрацииэкспериментатор сопровождает произношением вслух стимульного сло-ва; ребенок реагирует с помощью указательного жеста или каким-либоиным способом, выделяя на иллюстрации ту картинку, которая большевсею соогисгствуст значению стиму.чьноп) C.IOH.I. Хогя icci/ii целом рас-считан на возрастной диапазон от 2,5 до IS лег, каждому испытуемомупредъявляются только те иллюстрации, которые соответствуют егоуровню выполнения теста, определяемому экспериментальнр. Первичныепоказатели могут быть переведены в показатели умственного возраста,стандартного IQ или процентили. Время для проведения PPVTue лими-тировано, но требует от 10 до 15 мин. Тест применяется в двух парал-лельных формах, в которых используется один и тот же набор карточек,но с разными стимульными словами. Выборка стандартизации для PPVT включала в целом 4012 испы-туемых в возрасте от 2,5 до 18 лет из Нашвилла (Теннесси) и его приго-родов. Коэффициенты надежности параллельных форм на разных воз-растных уровнях выборки стандартизации колебались от 0,67 до 0,84.Коэффициенты надежности, полученные впоследствии в группах ум-ственно отсталых и лиц с физическими надостатками, находились в томже диапазоне. Валидность первоначально была установлена относитель-но возрастных различий. После опубликования тест был применен в ря-де исследований с нормальными, умственно отсталыми детьми и детьми,страдающими эмоциональными расстройствами и физическими недо-253 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙсравнительно однородных возрастных групп. Понятно, что эти корреля-ции были выше с вербальными тестами по сравнению с тестами дей-ствия. Существуют некоторые данные, свидетельствующие об умереннойтекущей и прогностической валидности этого теста по сравнению с те-стами учебных достижений. Ограниченность этого теста для некоторыхзадач тестирования доказывают данные, что культурно неразвитые детиобычно выполняют этот тест гораздо хуже, чем другие тесты интеллекта(ICostello, F.AIi, 1971; B.P.Cundick, 1970; N.A.Milgram, M.N.Ozer,1967; L.A. Rosenberg, M. Straud, 1966). Вместе с тем учившиеся по кор-рекционной программе обучения для дошкольников выполняли этот тестлучше, чем тест Станфорд-Вине (J.L. Howard, W.T. Plant, 1967; R.A. К.1-aus, S.W. Gray, 1968; N.A. Milgram, 1971). Показатели по PPVT, по-види-мому, частично отражают степень приспособленности ребенка к культур-ной среде. Сходные методы проведения теста объединены в тестах на класси-фикацию картинок, например в колумбийской шкале умственной зрело-сти (СМ MS). Предназначенная первоначально для детей, страдающих це-ребральным параличом, эта шкала состояла из 92 заданий, каждое изкоторых содержало от 3 до 5 рисунков, отпечатанных на больших ли-стах. От испытуемого требовалось жестом указать рисунок, который непринадлежит к классу других. Чтобы повысить интерес к тесту и усилитьего привлекательность, карточки и рисунки делались разноцветными.Для изображения подбирались предметы, хорошо известные большин-ству американских детей. Результаты выражались в виде показателейвозрастных отклонений, которые являлись нормализованными стан-дартными показателями внутри возрастных групп с М = 100 и о = 16.Для каждого из этих показателей обеспечивались эквиваленты в процен-тилях и станайнах. В качестве норм развития в руководстве приводитсяиндекс зрелости, указывающий возрастную группу в выборке стандарти-зации, чье выполнение теста больше всего соответствует его выполне-нию данным ребенком. Выборка стандартизации для CMMS состояла из 2600 детей по 100мальчиков и по 100 девочек в каждой из 13 возрастных грурп от 3 до 6и от 9 до II лет с возрастным интервалом в 6 мес. Выборка была стра-тифицирована по переписи населения США 1960 г. относительно профес-сионального положения родителей, расы и географических районов. Длякаждой группы в основном соблюдалось пропорциональное отношениеживущих в столице и других городах. Коэффициенты надежности, под-считанные методом расщепления теста, в возрастных группах колеба-лись от 0,85 до 0,91. Стандартная ошибка измерения показателей воз-растных отклонений равнялась 5-6 единицам. Значения надежности приповторном тестировании трех возрастных групп с интервалом в 7 и10дней колебались от 0,84 до 0,86. Корреляция со шкалой Станфорд-Бинедля группы из 52 дошкольников и первоклассников равнялась 0,67. Кор-реляции с показателями теста достижений в выборках учащихся 1 и IIклассов колеблются от 0,40 до 0,60. Для первых форм теста имеются бо-лее подробные сведения об их валидности и применимости к группам де-тей с разными физическими недостатками.254 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯТЕСТИРОВАНИЕ МЕЖКУЛЬТУРНЫХ РАЗЛИЧИЙПроблема. Тестирование людей с явными различиями в культурах за-интересовало психологов где-то в 50-е гг. Тесты были необходимы длямаксимального использования людских ресурсов в развивающихся стра-нах Африки и других местах. Потребность в быстро развивающейсясистеме образования в этих странах могла быть частично удовлетворенаприменением тестирования при поступлении в учебные заведения и инди-видуальном консультировании. По мере роста промышленности появляет-ся необходимость в тестах для отбора и распределения персонала, осо-бенно в сферах технической, конторской деятельности и в специально-стях, требующих высокой профессиональной подготовки. В Америке практическое применение тестирования межкультурныхразличий определялось главным образом существованием субкультури культур меньшинств, включенных в преобладающую культуру. Прав-да, эту проблему можно поставить и более широко, как применимостьимеющихся тестов к культурно неразвитым группам людей. Необходимоотметить, что понятие культурной неразвитости относительно. Объек-тивно между любыми двумя культурами или субкультурами существуюттолько различия. Каждая культура способствует развитию такого типаповедения, которое более приспособлено к выработанным в ней системеценностей и ее требованиям. Когда индивид должен приспосабливатьсяи продвигаться в условиях культуры или субкультуры, отличающихся оттой, в которой он воспитывался, то имеющиеся различия в культурахмогут выглядеть как культурная неразвитость. Хотя интерес к тестированию межкультурных различий в значитель-ной мере был вызван особенностями современного социального и поли-тического развития, сама проблема была поставлена еще в 1910 г. Самыепервые тесты межкультурных различий создавались в связ с большимпритоком эмигрантов, прибывших в США на рубеже двух (Столетий. Дру-гие ранние формы тестов разрабатывались в связи с изучением различийв уровне развития способностей людей, принадлежащих . После рассмотрения обыч-ных тестов, предназначенных для устранения влияния одного или бо-лее перечисленных выше параметров, мы перейдем к анализу разныхподходов к тестированию межкультурных различий. Типичные методики. Пытаясь создать тесты, пригодные дляиспользования в различных культурах, специалисты по психометрии раз-работали процедуры, некоторые из которых применяются в рассматри-ваемых в этом разделе четырех тестах. Международная шкала действияЛейтер является тестом, требующим индивидуального предъявления.Шкала была подготовлена после применения в течение ряда лет в раз-ных этнических группах штата Гавайи, в том числе среди учащихся на-чальной и средней школы. Впоследствии эта шкала была примененаС. Д. Портеусом к некоторым африканским группам и другими исследо-вателями к небольшому числу национальных групп. Более поздний ва-риант теста, подготовленный в 1948 г., основывался на результатах те-стирования американских детей, студентов и новобранцев во времявторой мировой войны. Отличительной чертой шкады Лейтер являетсяпочти полное исключение из инструкций как речи, -рк и указательныхжестов. Каждый тест начинается с самого легкого извоих заданий. По-нимание задания рассматривается как часть теста. Материалы теста со-стоят из рамки для ответов, типа изображенной на рис. 32, с соответ-ствующим приспособлением для крапления карточек. Все тесты предъяв-ляются прикреплением к рамке соответствующей карточки с напеча-танными картинками. Испытуемый выбирает блоки с подходящимикартинками-ответами и вставляет их в рамку. Шкала Лейтер предназначалась для изучения широкого круга функ-ций, аналогичных тем, для которых создавались вербальные шкалы. Сре-ди входящих в шкалу заданий могут быть упомянуты: сопоставление поцвету, по оттенкам серого цвета, по формам или изображениям; повто-рение конструкции из блоков; завершение картинок; оценка числа; ана-логии; завершение серий; узнавание возрастных различий; простран-ственные отношения; узнавание следов; сходство; память на серии;классификация животных в соответствии с местами их обитания. Предъ-являемые индивидуально и без ограничений времени, эти тесты располо-жены по возрастным уровням от 2 до 18 лет. Шкала обрабатываетсяв единицах МА и относительного IQ, хотя нет уверенности, что такие IQна разных возрастных уровнях имеют одно и то же значение. ФактическиОПУблИКОВЯННЫЙ ГТЯННКТД г-иитттрпг-гнуит п 1иаиичг1этт1.ит-1у vnr,aF.nг,,256 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯщалось в нескольких исследованиях, коэффициенты надежности, полу-ченные методом расщепления теста, оказались равны 0,91-0,94, но вы-борки были очень разнородны по возрасту и, возможно, другимхарактеристикам. Данные по валидности в основном опирались наданные о возрастных различиях и внутренней согласованности. Сооб-щаются также некоторые корреляции с оценками интеллекта детей учи-телями и с показателями других тестов, в том числе шкалы Станфорд-Бине и WISC. Эти корреляции колеблются от 0,56 до 0,92, но полученыони большей частью на разнородных Ьыборках. Тесты для возрастных уровней от 2 до 12 лет применяются так же,как адаптации Артура международной шкалы действия Лейтер. Этаадаптация, наиболее пригодная для тестирования детей от 3 до 8 лет,была стандартизована А. Артуром в 1952 г. Нормы следует рассматри-вать как весьма ограниченные, поскольку они получены на выборке стан-дартизации из 289 городских детей из западных штатов. Как и исходныешкалы, адаптация Артура обрабатывается в единицах МА и относитель-ного IQ. Разработанный Р. Б. Кеттеллом тест интеллекта, свободный от влия-ния культуры, был опубликован Институтом личностного тестированияи тестирования способностей. Этот тест относится к типу и применяется на трех уровнях. Шкала 1 предназначена для воз-растов от IV до VIII и умственно отсталых взрослых, шкала 2-для воз-растов от VIII до XIII и для подросткового, шкала З-для возрастов отХ до XVI и для взрослого. Каждая шкала подготовлена в двух парал-лельных формах А и В. По крайней мере некоторые из тестов шкалыРис. 32. Материалы, используемые в международной шкале действия Лейтер. На ри-сунке изображен тест на аналогию возрастания признака для 6-летнего уровня.С любезного согласия К. X. Стоэлинг компани257ТР.СТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙ1 требуют индивидуального предъявления, другие шкалы могут приме-няться как при индивидуальном, так и при групповом тестировании.Шкала 1 состоит из 8 тестов, 4 из которых обозначены автором как . Остальные 4 включают и вербальноепонимание, и специфическую для культуры информацию. Предполагает-ся, что 4 теста, свободные от влияния культуры, могут использоватьсякак самостоятельная суббатарея; для этой сокращенной шкалы суще-ствуют отдельные нормы. Шкалы 2 и 3 подобны друг другу во всем,кроме уровня трудности. Каждая состоит из перечисленных ниже тестов,отдельные задания которых представлены на рис. 33. 1. Серии: выбор завершающего серию элемента. 2. Классификация: в каждом ряду отметить не относящийся к ряду элемент. 3. Матрицы: отметить элемент, который правильно завершает данную матрицу илимодель. 4. Условия: отметить точкой один из данных на выбор рисунков таким образом,чтобы соблюсти условие, заданное в образце. Так, в примере, представленном на рис. 33,точка должна быть поставлена, в двух прямоугольниках, но не в круге. Это условие можетбыть выполнено только в третьем варианте, который и отмечен на рис. 33. Шкала 1 обрабатывается только по относительному IQ. Показателишкал 2 и 3 могут быть переведены в стандартный IQ с о = 16. Шкалы2 и 3 стандартизованы на большей выборке, чем шкала 1, но репрезента-тивность выборки и число испытуемых в некоторых возрастных группахне достигает уровня, требуемого стандартами, принятыми для построе-Рис. 33. Выборка заданий из теста интеллекта, свободного от влияния культуры,шкала 2.c Институт личностного тестирования и тестирования способностейТест 1. Серии—i i imm01Q1 1 )Q(ГТест 2. Классификация—1-Тест 3. Матрицы0 аm s д]и и0 …. -"Тест 4, УсловияRи >><>><> -им>4>>4>хИ S Рис. 34. Выборка заданий из теста прогрессивных матриц.С разрешения Дж. К. Равенаванных исследованиях. В обзоре публикаций, появившихся до 1957 г.,X. Бёрке (H.R. Burke, 1958) перечисляет более 50 исследований, появив-шихся в Англии, 14 в Америке и 10 в других странах. С этого временипроисходит стремительное накопление результатов, особенно в Америке,где этот тест получил большое признание. Седьмой Ежегодник по изме-рению умственных способностей указывает примерно 400 работ, многиеиз которых посвящены применению этого теста к пациентам, находя-щимся в клинике. Надежность, определенная методом ретеста в достаточно одно-родных группах детей старшего возраста и взрослых, колеблется при-близительно от 0,70 до 0,90. Для более низких тестовых результатов на-дёжность оказывается значительно меньше этих значений. Корреляциис тестами интеллекта, как вербальными так и действия, изменяются от0,40 до 0,75, при этом корреляции с тестами действия выше. Исследова-ния с группами умственно отсталых испытуемых и людьми, отличающи-мися по уровню образования и профессии, отмечают хорошую текущуювалидность. Коэффициенты прогностической валидности относительнокритериев успеваемости оказываются ниже, чем эти же коэффициентыу обычных вербальных тестов интеллекта. Некоторые исследованияс применением факторного анализа свидетельствуют о том, что прогрес-сивные матрицы заметно перегружены фактором, общим большинствутестов интеллекта, обозначенного британскими психологами как фактордпо Спирмену, но на выполнение теста влияют также пространственныеспособности, индуктивное мышление, точность восприятия и другиегрупповые факторы (Н. R. Burke, 1958). Более легкая форма-цветные прогрессивные матрицы-пригоднадля детей от 5 до II лет и для умственно отсталых взрослых. Болеесложная форма подготовлена для взрослых с высоким уровнем интел-лекта, но применять ее могут только опытные и официально признанные260 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ Еще один подход характеризует тест Гудинаф ,в котором испытуемого просят изобразить мужчину и постараться сде-лать это как можно лучше. Этот тест употреблялся без изменений с мо-мента его первоначальной стандартизации в 1926 г. до 1963 г. В 1963 г.тест был пересмотрен, расширен и опубликован под названием тест Гу-динаф-Харриса (D.B. Harris, 1963). В нем, как и в исходномварианте, акцент делался на точности детской наблюдательности, на раз-витии понятийного мышления, а не на умении рисовать. Оценка дава-лась на основе того, какие части тела и детали одежды изображает ребе-нок, как учтены пропорции, перспектива и другие особенности.Суммарный показатель определяется 73 оцениваемыми элементами, ото-бранными на основе возрастных различий, отношения к суммарным ре-зультатам теста и отношения к показателям группового теста интеллек-та. Данные по результатам теста были получены на выборках,состоявших из 50 мальчиков и 50 девочек каждого возрастного уровня,начиная от детского сада и до IX класса школ, находящихся в городскойи сельской местности штатов Миннесота и Висконсин. Выборки былистратифицированы в соответствии с профессиями отцов. В новом варианте теста испытуемого просили нарисовать женщинуи свой портрет. Выполнение теста на изображение женщины оценивалосьв единицах, сходных с теми, которые применялись при изображениимужчины, но учитывался 71 элемент. Шкала по изображению самого се-бя разрабатывалась как проективный личностный тест, но имеющиесяданные об использовании этого метода нельзя назвать многообещающи-ми. Нормы по шкалам изображения мужчины и женщины были установ-лены на новой выборке, состоявшей из детей в возрасте от 5 до 15 лет.Каждая группа с возрастным интервалом в 1 год включала 300 детей.Выборка была репрезентативной по отношению к географическим райо-нам США и профессиям отцов. Показатели по каждой шкале переводи-лись в стандартные показатели с М = 100 и о- = 15. На рис. 35 приве-дены изображения мужчины, выполненные детьми в возрасте 5 лет8 мес, 8 лет 8 мес и 12 лет II мес, и соответствующие показатели выпол-нения теста: первичные и стандартные. Более простой способ обработкирезультатов теста дают шкалы качества изображений мужчины или жен-щины. Вместо подсчета отдельных элементов в шкалах качества исполь-зуется общая качественная оценка рисунка как целого посредством сопо-ставления изображения, сделанного ребенком, с серией из 12 располо-женных в определенном порядке образцов и выявления наиболеепохожего из них на оцениваемый рисунок. Надежность теста неоднократно исследоваласьразличными методами. В одной тщательно выполненной работе первыйвариант теста предъявлялся 386 учащимся III и IV классов, коэффициенткорреляции при повторном тестировании с интервалом в 1 нед составил0,68, а коэффициент корреляции, полученный методом расщепления те-ста, оказался равным 0,89 (W.A. Me Carthy, 1944). Коэффициент надежно-сти, определенный-методом переоценки теста другими лицами, равнялся0,90, а определенный переоценкой рисунков теми же лицами, равнялся0,94. Исследования норой формы теста дали сходные результаты(J.A. Dunn, 1967; D.B. Harris, 1963). Повторное проведение теста в группе детей из детского сада в тече-ние ряда дней не обнаружило значимых различий в выполнении теста261ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙние рисованию в школе не сказываются существенным образом на ус-пешности выполнения теста. Очевидно, старая и новая шкалы полностью подобны друг другу, ихпоказатели в группах, однородных по возрасту, коррелируют где-то ме-жду 0,91 и 0,98. Корреляции между шкалами, требующими изобразитьмужчину или женщину, почти так же высоки, как коэффициенты надеж-ности, полученные методом расщепления теста на изображение муж-чины. Основываясь на этих данных, Д. Харрис рекомендует рассматри-вать обе шкалы как взаимозаменяемые варианты теста, а среднеезначение их стандартных показателей использовать для увеличения на-дежности. Для шкал качества, представляющих более быстрый, но менееточный метод обработки результатов, коэффициенты надежности, опре-деленные методом сравнения исходных и повторных оценок выполнениятеста разными лицами, колеблются на уровне 0,80.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Корреляции почтитакой же величины были установлены между субъективными оценкамипо шкале качества и оценками по элементам одних и тех же рисунков. Помимо данных по анализу заданий, собранных при разработкешкал, сведения о конструктной валидности дает корреляция с результа-тами других тестов интеллекта. Значения этих корреляций меняютсяв достаточно широких пределах, но в основном они превышают 0,50.В исследовании, проведенном с 100 учащимися четвертых классов, былоустановлено, что тест коррелирует с рядом тестовс уже известной факторной структурой (Н. L. Ansbacher, 1952). Такие кор-Рис. 35. Образцы рисунков, полученных в тесте Гудинаф-Харриса .С любезного согласия Дейла Б. ХаррисаМужчина: первичный показатель 7, возраст 5-8, стандартный показатель 73.Женщина: первичный показатель 31, возраст 8-8, стандартный показатель 103.Мужчина: первичный показатель 66, возраст 12-11, стандартный показатель 134.262 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯреляции были особенно высоки для исследовавшегося возрастного диа-пазона с тестами мышления, пространственных способностей и точностивосприятия. Моторная координация играет в этом возрасте незначитель-ную роль. При исследовании детей, посещающих детский сад, оказалось,что результаты теста коррелировали по сравнениюс группой четвероклассников больше с арифметическими способностямии меньше со скоростью и точностью восприятия (D.B. Harris, 1963). Всеэто свидетельствует о том, что этот тест в разные возрастные периодыизмеряет разные функции. Исходный вариант теста широко применяетсяв клинике для получения дополнительных данных об испытуемых, про-шедших исследование по тесту Станфорд-Бине и другим вербальнымшкалам. Этот тест часто используется и при изучении различных куль-тур и этнических групп, в том числе некоторых племен американских ин-дейцев. Такие исследования показали, что выполнение этих тестовв большей степени зависит от различий в культурном окружении, чемэто предполагалось. В обзоре исследований, относящихся к этому тесту,Ф. Гудинаф и Д. Харрис (F.L. Goodenough, D.B. Harris, 1950) выразилимнение, что . Эта точка зрения была еще раз подтверждена Д. Харри-сом в его книге 1963 г. Позднее В. Деннис (W. Dennis, 1966) проанализи-ровал сравнительные данные, полученные с помощью этого теста нагруппах 6-летних детей, принадлежащих к 40 самым различным культу-рам. Средние групповые показатели оказались весьма связанными с сте-пенью представленности искусства в каждой из культур. Для культурс неразвитым искусством была выдвинута гипотеза, что тест действияотражает степень приобщения такой культуры к западной цивилизации. Культурные различия в жизненном опыте были выявлены и в доста-точно продуманном сравнительном исследовании мексиканских и амери-канских детей с помощью теста Гудинаф -Харриса (L.M.Laosa,J.D. Swartz, R. Diaz-Guerrero, 1974). В исследованиях по этому тесту, про-водившихся в Нигерии (C.G. Bakare, 1972) и Турции (P. Uman, 1972), бы-ло установлено, что средние показатели постоянно и значительно увели-чиваются с увеличением социоэкономического уровня семей обсле-дуемых детей. Следует также добавить, что подобные результатыхарактерны для всех тестов, задуманных как тесты, безразличные к куль-туре или свободные от ее влияния. Методы тестирования межкультурных различий. Тео-ретически можно указать три способа разработки тестов для лиц, воспи-танных в разных культурах или субкультурах, хотя на практике эти ме-тоды могут комбинироваться. Первый способ связан с подборомзаданий, общих для многикультур, и валидацией окончательного тестапо локальным критерияйв этих культурах. Это основной метод, приме-няемый для тестов, свободных Ьт влияния культуры, хотя их повторнаявалидация в разных культурах зачастую либо упускается из виду, либовыполняется неадекватно. Однако без такого этапа нельзя быть уве-ренным в том, что тест относительно свободен от элементов, свой-ственных определенной культуре. Более того, маловероятно, чтобы лю-бой единичный тест мог быть разработан в полном соответствиис этими требованиями без выявления диапачоня гл/ггт-"—263 ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙ Вместе с тем методы оценки межкультурных различий нуждаютсяв основательном изучении некоторых фундаментальных аспектов. Одиниз таких аспектов связан с общностью психологических принципови конструктов, свойственных каждой культуре (A. Anastasi, 19580, гл. 18).Еще один аспект имеет отношение к роли условий жизни и воспитанияв формировании индивидуальных различий в поведении-проблема, ко-торая может более эффективно изучаться при выявлении диапазона из-менений окружения как следствия сильно отличающихся друг от другакультур. В исследованиях подобного типа необходимо использовать ме-тодики, которые могут применяться по крайней мере в частично срав-нимых условиях существования разных культур. Меры предосторожно-сти против неправильных интерпретаций результатов, полученныхс помощью таких методик, следует искать в самих построениях экспери-мента и в том, насколько близко экспериментаторы знакомы с иссле-дуемыми культурами или субкультурами. Второй способ состоит в том, чтобы создать тест внутри однойкультуры и предъявить его индивидам с различным культурным опы-том. Такой метод полезен, когда целью тестирования является прогнозлокального критерия в конкретной культуре. В этом случае с уменьше-нием специфической культурной нагрузки теста может снижаться и еговалидность, поскольку сам по себе критерий специфическойкультурой. Правда, при этом не следует рассматривать любой тест, раз-работанный в рамках одной культуры, как универсальное средство изме-рения интеллекта. Не следует забывать, что низкий результат по этомутесту, полученный представителями иной культуры, объясняется совсемиными причинами, нежели получение низкого показателя испытуемым,принадлежащим к той культуре, в которой был разработан тест. С по-мощью такого подхода могут быть выявлены культурные расхождениямежду группами или степень приобщения индивида к культуре, его го-товность к получению образования и профессиональной деятельности,специфичной для данной культуры. Третий способ состоит в разработке разных тестов внутри каждойкультуры и установлении их валидности только по локальным крите-риям. Примерами этого подхода являются большинство вариантовпервых шкал Бине для использования в разных странах Европы, Азиии Африки и подготовка тестов для отбора военного и промышленногоперсонала в определенных культурах. В настоящее время программы поразработке тестов осуществляются в некоторых развивающихся странахАзии, Африки и Латинской Америки Американским институтом исследо-ваний при агентстве США по международным связям (P. A. Schwarz,19640, b, P. A. Schwarz, R.E. Krug, 1972). Еще одним примером являетсяпрограмма длительнЪо тестирования Национального института по ис-следованию профессиональных кадров в Иоганнесбурге (R.H. Blake,1972). В исследованиях подобного рода тесты валидны относительно кон-кретных критериев образования и профессии, предназначены они дляпрогноза, а выполнение теста оценивается в терминах локальных норм.Каждый тест применим только в той культуре, где он был разработан,и никак не используется для сравнения межкультурных различий. Одна-ко если критерии, относительно которых должно быть сделано предска- -""""" " техническими специальностями, вероятно, необходим " ~~"" "WT птпажатьнаправле-264 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯние, в котором развивается конкретная культура, а не свойственные ейв настоящее время особенности (P.E.Vernon, 1969). Следует обратить внимание на опубликованные в конце 60-х-начале70-х гг. справочники по проблемам изучения и тестирования межкуль-турных различий и использования тестов в развивающихся странах(S.Biesheuvel, 1969; R.W.Brislin, W.J.Lonner, R.M.Thomdike, 1974;P.A.Schwarz, R.E.Krug, 1972). Все они содержат информацию о реко-мендуемых тестах, адаптации стандартизованных тестов и методическиеуказания по разработке и применению тестов. Еще одним свидетель-ством всевозрастающего интереса к тестированию межкультурных раз-личий являются доклады, прочитанные на международной конференциипо тестам умственного развития и культурной адаптации, проводившей-ся в 1971 г. в Стамбуле (L.J.Cronbach, P.J.Drenth, 1972). В предста-вленных докладах затронуты методологические проблемы и оценки кон-кретных методик с точки зрения как теоретических вопросов, таки конкретных эмпирических исследований. И в справочниках, и в материалах конференции главное вниманиесосредоточено на культурных различиях, свойственных как разным наро-дам, так и людям, находящимся на разных ступенях культурного разви-тия. Кроме того, в 60-70-х гг. появилась обширная литература по вопро-сам психологического тестирования меньшинств США, главным образомс целью определения профессиональной пригодности и пригодностик обучению. В заключение следует напомнить, что, хотя некоторые из методикпервоначально предназначались для тестирования межкультурных разли-чий, они все больше применяются психологами-клиницистами для полу-чения дополнительной информации к результатам выполнения шкалСтанфорд-Бине и Векслера и при тестировании лиц с разными физиче-скими недостатками. Это особенно справедливо относительно теста Гуд-инаф-Харриса , прогрессивных матриц и адаптации Артурашкалы Лейтер.ГЛАВА II. ГРУППОВОЕ ТЕСТИРОВАНИЕВ то время как индивидуальные тесты, такие, как шкалы Станфорд-Би-не и Векслера, находят свое основное применение в клинике, групповыетесты используются преимущественно в системе образования, граждан-ских службах, в промышленности и армии. Напомним, что массовое те-стирование началось в CffiABO время первой мировой войны с разра-ботки армейских тестов альса и бета. Армейский альфа представлялсобой вербальный тест, предИазначенный для отбора и распределенияновобранцев. Армейский бета был неязыковым тестом и предназначалсядля людей, не говорящих по-английски и неграмотных. Эти тесты яви-лись своего рода образцом для последующего развития большого числагрупповых тестов для гражданского населения. Варианты обоих армейских тестов для гражданского населения ис-пользуются до сих пор и известны как проверочный альфа, или модифи-цированная форма 9 (более распространено название альфа 9), и пере-265 ГРУППОВОЕ ТЕСТИРОВАНИЕсредством предварительного отбора с последующим использованиемклассификационных батарей, предназначенных для распределения воен-нослужащих по соответствующим армейским службам. AFQT обеспечи-вает единый показатель, получаемый на основе выполнения равного чис-ла заданий на выявление словарного запаса, арифметических, техниче-ских способностей, понимания пространственных отношений. В этой главе дается обзор используемых в настоящее время ос-новных типов групповых тестов. Начнем с того, что рассмотрим принци-пиальное различие между групповыми и индивидуальными тестами. За-тем обсудим характеристики многоуровневых батарей, охватывающихширокий диапазон возрастов и уровней развития. И наконец, проанали-зируем групповые тесты, предназначенные для колледжей и других выс-ших учебных заведений.ГРУППОВЫЕ И ИНДИВИДУАЛЬНЫЕ ТЕСТЫПреимущества группового тестирования. Групповые тестыразработаны в первую очередь как средство массового тестирования. Посравнению с индивидуальными тестами у них есть свои достоинстваи свои недостатки. Позитивной стороной групповых тестов является воз-можность проводить их одновременно с таким количеством людей, ко-торые удобно разместятся в имеющемся помещении, и предъявлять ихчерез микрофон. Благодаря развитию техники группового тестированиястало доступным проведение программ массового тестирования. Предъ-явление заданий теста в отпечатанном виде, использование простых от-ветов, которые легко зафиксировать в тестовой тетради или на бланкеответов, способствовали тому, что отпала необходимость взаимодей-ствия экспериментатора и испытуемого один на один. Еще одной особенностью группового тестирования, облегчившейпроведение массовых исследований, является значительное упрощениефункций проводящего тест. В отличие от большой опытности и обучен-ности, необходимых экспериментатору, например, при тестировании пошкале Станфорд-Бине, для предъявления большинства групповых те-стов от экспериментатора требуется лишь умение читать простые ин-струкции испытуемым и точно соблюдать время. Конечно, желательнопроводить с экспериментаторами предварительные тренировочные заня-тия, так как неопытность может стать причиной отклонения от стандар-тизованной процедуры тестирования и тем самым сказаться на результа-тах теста. В то же время при групповом тестировании могут бытьобеспечены более единообразные условия, чем при индивидуальном, по-скольку роль экспериментатора сведена к минимуму. Предъявление те-стовых заданий в форме звуковых записей, фильмов открывает дальней-шие возможности для стандартизации процедуры тестированияи применения его в больших масштабах. Обработка показателей при групповом тестировании обычно носитболее объективный характер и может быть выполнена простым служа-щим. Результаты большинства групповых тестов могут обрабатыватьсяна ЭВМ. Кроме того, независимо от способов обработки групповыетесты обычно предусматривают специальные бланки ответов и тестовыететради, а раз в тестах все ответы заносятся на отдельные бланки, те-стовые брошюры могут использоваться до тех пор, пока не износятся,——- ~" "n,,nn -ге-гпппгп ллаТРГШЯТТЯ КПЯНКИ266 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯответов занимают меньше места, чем тестовые брошюры, и потому бо-лее удобны для групп с большим числом испытуемых. Еще одно преимущество группового тестирования-относительнаялегкость и быстрота сбора данных и как следствие более благоприятныепо сравнению с индивидуальным тестированием условия для установле-ния норм. Для большинства современных стандартизованных групповыхтестов нет ничего необычного в том, что их нормативные выборки вклю-чают от 100000 до 200000 человек, в то время как даже наиболее тща-тельно разработанные индивидуальные шкалы при стандартизациис трудом собирают данные для 2000-4000 случаев. Групповые тесты существенно отличаются от индивидуальных какпо форме, так и по расположению заданий. Хотя в групповых тестах мо-гут использоваться местоименные вопросы, требующие произвольныхответов (они особенно часто встречались в первых групповых тестах), всеже на сегодняшний день более типичным является применение вопросовс множественным выбором заранее подготовленных ответов. Введениетакой формы было вызвано необходимостью соблюдать принцип еди-нообразия и объективности при обработке результатов как машинным,так и ручным способом. Что касается расположения заданий, то в отли-чие от тестов типа шкал Вине, в которых задания располагаются по воз-растным уровням, в групповых тестах задания обычно группируются посходству содержания в отдельные, проводимые в определенное время суб-тесты. Внутри каждого субтеста задания, как правило, расположены повозрастающей трудности. Такое расположение обеспечивает испытуемо-му возможность попробовать свои силы в каждом типе заданий (напри-мер, на словарный запас, арифметику, пространственные взаимосвязии т.д.) и завершить выполнение самых легких пунктов каждого вида дотого, как начнутся более трудные, на которые может понадобиться боль-ше времени. Однако практическая трудность, встречающаяся при использованиираздельных субтестов, состоит в том, что менее опытные и менее внима-тельные экспериментаторы могут неправильно организовывать тест ворремени. Такие ошибки, по-видимому, чаще встречаются и имеют болеесерьезные последствия, когда вместо указания общего времени проведе-ния теста приводится время проведения отдельных заданий. Чтобы отне-сти отведенный на тест лимит времени с таким расположением заданий,которое позволило бы испытуемым испробовать все типы задач, в неко-торых тестах используется спиральное расположение заданий. Одним изпервых примеров такого расположения заданий были самоприменимыетесты умственных способностей Отиса, в которых, как указывает их на-звание, предпринята попытка свести роль экспериментатора к минимуму.Такое же расположение было сохранено и в следующем тесте ум-ственных способностей Отиса-Леннона, предназначенном для испы-туемых старше IV класса. В тесте со спиральным расположением зада-ний наиболее легкие задание каждого типа представлены в самом началетеста, затем идут следующие по степени трудности задания каждого ти-па и т.д., примерно так, как это приводится ниже. Ответ 1. Противоположным ненависти является: а) вражда, б) страх, в) любовь,г) дружба, д) игра …………………… () 2. Если 3 карандаша стоят 25 центов, сколько карандашей можно купить на75 центов?267 ГРУППОВОЕ ТЕСТИРОВАНИЕ3. У птицы не всегда бывают: а) крылья, б) глаза, в) ноги, г) гнездо, д) клюв. 4. Противоположным чести является: а) слава, б) бесчестье, в) трусость,г) страх, д) поражение ………………….. () Для того чтобы избежать необходимости повторять инструкции длякаждого задания и свести их число к минимуму, в некоторых тестах поспирали располагаются не единичные задания, а блоки из 5-10 заданий.Такой прием используется, например, в армейском квалификационномтесте и тесте способности к обучению Совета по вступительным экзаме-нам в колледж. Недостатки группового тестирования. Хотя групповыетесты обладают некоторыми желательными качествами и отвечают за-дачам современного тестирования, следует отметить и их ограничен-ность. При групповом тестировании у экспериментатора гораздо меньшевозможностей добиться взаимопонимания с испытуемым, заинтересо-вать его и заручиться его сотрудничеством. Любые случайные со-стояния обследуемого, такие, как болезнь, утомление, беспокойство илитревожность, которые могут влиять на выполнение заданий, гораздотруднее выявить в групповом тестировании. В целом лица, незнакомыес такой процедурой, скорее покажут более низкие результаты в груп-повых тестах, нежели в индивидуальных. Существуют данные, свидетель-ствующие о том, что дети с нарушениями эмоциональной сферы лучшевыполняют индивидуальные тесты, а не групповые (Е.М. Bower, 1969;J. Willis, 1970). Вместе с тем групповые тесты подвергаются нападкам за ограниче-ния, налагаемые на ответы испытуемых. Особенно критикуются заданияс множественным выбором ответов и такие стандартные типы заданий,как аналогии, нахождение сходства и классификация (В. Hoffman, 1962;L. La Fave, 1966). Правда, используемые при этом доводы не всегда до-статочно убедительны. Одним из спорных является аргумент, что такиезадания ставят в невыгодное положение тех, кто блестяще и оригиналь-но мыслит, кто ищет в ответах необычный смысл. Заметим, кстати, чтоесли это и происходит, то очень редко, о чем говорят анализ заданийи данные по валидности. Часть критиков, что характерно для подхода Пиаже (I.E. Sigel, 1963),указывают на важность анализа ошибок и выяснения причин, которыепобуждают индивида выбирать определенный ответ. Несомненно, груп-повые тесты почти или совсем не позволяют непосредственно наблюдатьповедение испытуемых и устанавливать источник нетипичного выполне-ния тестов. По этой и другим причинам в тех случаях, когда принимае-мое по результатам тестирования решение важно для испытуемого, же-лательно дополнить результаты группового тестирования либо индиви-дуальной проверкой неясных случЦв, либо информацией, полученной издругих источников. Еще одним ограничением традиционного группового тестированияявляется его недостаточная гибкость, поскольку каждый обследуемый те-стируется одинаково по всем заданиям, хотя отводимое для тестирова-ния время может быть использовано более эффективно, если каждый ис-пытуемый сосредоточит свои силы на заданиях, соответствующих егоуровню способностей. Более того, такая процедура могла бы помочь из-бежать CKVK-и ппи выполнении слишком легких запаний. с одной сто-268 ГЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯроны, а с другой — способствовала бы снятию фрустрации и тревожностипри попытке выполнить задания, превышающие по сложности уровеньспособностей индивида. Напомним, что в некоторых индивидуальных те-стах, таких, как Станфорд-Бине и словарный тест в картинках Пибоди,выбор заданий осуществляется экспериментатором в зависимости от от-ветов испытуемого, т.е. в этих тестах обследуемому предъявляютсятолько задания, соответствующие его уровню способностей. Использование компьютеров. С тем чтобы объединить не-которые достоинства индивидуальпото с преимуществами групповоготестирования, стали использовать технические достижения. Основной ин-терес до сих пор представляли методики приспособления набора заданийк характеристикам ответа испытуемых. Во все увеличивающейся литера-туре, посвященной этой проблеме, такой подход обозначался как адап-тивный, последовательный, разветвленный, дриспособительный, индиви-дуализированный, программируемый, динамичный или зависящий отответа (F.B. Baker, J971; R. Glaser, A.J. Nitko, 1971; D.J. Weiss, N.E. Betz,1973). Хотя тесты типа можно рассматривать какиспользующие адаптивные процедуры, но сама методика адаптации тре-бует использования вычислительной техники (Т. A. Cleary, R. L. Linn,D.A. Rock, 1968; F.M. Lord, 1971). В адаптивном тестировании применяются весьма разнообразныепроцедуры (L.J. De Witt, D.J. Weiss, 1974; К. С. Larkin, D.J. Weiss, 1975;D.J. Weiss, N.E. Betz, 1973). Простой пример тестирования в две стадииприведен на рис. 36. В этом гипотетическом тесте все обследуемые про-ходят отправной тест, состоящий из 10 заданий самой разной степенитрудности. В зависимости от успешности выполнения отправного тестаобследуемому предъявляется один из трех различных по трудности те-стов, каждый из которых состоит из 20 заданий. Таким образом, испы- туемый выполняет только 30 зада- ний, в то время как тест в целом содержит 70 заданий. Иной порядок расположения заданий дается в пирамидальном тесте, изображенном на рис. 37. В этом случае все обследуемые начи- нают с задания средней трудности. Если ответ испытуемого по зада- нию правилен, то ему предъявляет- ся следующее по степени трудно- сти задание; если неправилен, то следующее по степени легкости. Процедура повторяется после каж- дого выполнения задания до тех пор, пока испытуемый не выполнит 10 заданий. Это пример 10-стадий- ного теста, в котором каждому ис- пытуемому предъявляется 10 из 55 входящих в тест задачи. Некоторые вариант обеих моделей адаптивного тестирова- ния могут использоваться как в форме , тяь- иРис. 36. Двустодийное адаптивное тестиро-вание с заданиями трех уровней трудностей.Каждый обследуемый проходит отправнойтест и 20 заданий одного из трех уровнейтрудностейУровни трудности ТрудныйОтправной тест20 задании 1-Средний—Легкий20 заданий269 ГРУППОВОЕ ТЕСТИРОВАНИЕ " 12345678910тестирования .- и u.wРезультать, ++_+++_+++испытуемогоРис. 37. Модель пирамидального тестирования. Жирной линией выделен ход тестиро-вания испытуемого, чьи результаты выполнения заданий приведены в верхней частирисункав виде приспособленных к компьютерам вариантов. Для более сложныхмоделей, не предусматривающих заранее установленной системы предъяв-ления заданий, возможны только формы, приспособленные для машинно-го использования. В общем, изучение разных подходов показывает, чтоадаптивные тесты могут быть столь же надежными и валидными, каки общепринятые тесты, но при этом их проведение требует гораздоменьше времени (K.C.Larkin, D.J.Weiss, 1974; D.J.Weiss, N.E.Betz,1973). Кроме того, адаптивные тесты обеспечивают большую точностьизмерения у индивидов верхнего и нижнего уровней измеряемых даннымтестом способностей (F.M. Lord, 1970; 71b; с, D.J.Weiss, N.E.Betz,1973). К тому же адаптивное тестирование особенно подходит для упо-минавшихся в гл. 4 индивидуализированный программ обучения. В этихтауну (hoDM приводятся в работах Д. Вейса, Н. Беца, Л. Девитта -"
Такая замена объясняется тем, что термин при-обрел слишком много побочных значений и его использование можетпривести к неправильному толкованию тестовых показателей. Одна изсамых последних батарей, представленная в табл. 24, называется и предназначена для предсказания успеваемостив школе и колледже. Разработка этой батареи начиналась с детальногоанализа способностей, необходимых для обучения в школе, что отража-ло растущий интерес к измерению предпосылок интеллектуальных навы-ков обучения и других видов обычной деятельности. Главной целью та-ких батарей является оценка готовности индивида к обучению на любойстадии получения образования. Большинство батарей, приведенных в табл. 24, основываются настандартных IQ или иных сходных стандартных показателях. В неко-торых из батарей наряду со стандартным IQ используются несколькотипов норм, в том числе процентили, станайны или эквиваленты классов.В дополнение к суммарному основному показателю в большинстве бата-рей предусматриваются раздельные показатели по вербальным и количе-ственным, лингвистическим и нелингвистическим заданиям. Такое разде-ление позволяет выявить разницу в выполнении индивидом вербальныхи остальных субтестов, что особенно проявляется на более высокихуровнях. Была также предпринята попытка (например, в СТММ) пред-ставить нормы для интерпретации показателей по отдельным субтестамили их сочетаниям. Однако такой практики вряд ли стоит придерживать-ся, поскольку частичные показатели обычно весьма ненадежны и слиш-ком коррелируют друг с другом, чтобы на их основе можно было объяс-нить индивидуальные различия в выполнении субтестов. Большинствообсуждаемых в этой главе типов тестов пригодны скорее для оценки об-щего интеллектуального развития, нежели для установления различийв способностях. Чтобы пояснить границы применимости современныхмногоуровневых батарей, рассмотрим разные уровни каждой из трех ба-тя пей. Выбранные уровни типичны для применяемых в начальных, сред- "".пт гпответственно.272 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯТаблица 24Представительные многоуровневые батареиБатарея Уровни классовrillАнализ обучаемости (ALP) 1, 11-111, IV-VI, VII-IX, Х-XIIКалифорнийский тест умственной зрелости, Д/с-1, 1,5-111, IV-VI, VII-IX, IX-XII,вариант 1963 г. (СТММ) XII-XVIТест познавательных способностей (CAT) д/с-1, 11-111, III, IV, V, VI, VII, VIII-IX X-XI, XIIТест умственных способностей Хенмона—Нельсона, вариант 1973 г. д/с-2, III-VI, VI-IX, 1Х-Х11Тесты Кюльманна-Андерсона: измерение д/с, 1, II, III-IV, IV-V, V-VII, VII-IX,обучаемости в школе и колледже IX-XIIIТест умственных способностей Отиса-Лен-нона д/с, 1-1,5, 1,6111,9, IV-VI, VII-IX, X-XIIТест способностей к обучению в школеи колледже (SCAT), серии II IV-VI, VIII-IX. X-XII, XII-XIVКороткий тест способностей к обучению(SRA) д/с-1, 11-111, IV-VI, VII-VIII, IX-XII Начальный уровень. Доказано, что применение групповых тестовможно начинать с детей, посещающих детский сад и с первоклассников.В дошкольном возрасте индивидуальные тесты предпочтительней, по-скольку в этом возрасте важен непосредственный контакт с испытуемы-ми, и к тому же используются устные задания и тесты действия. Однакоуже детям 5-6 лет можно предъявлять отпечатанные тесты, но группыдолжны быть небольшими, 10-15 человек. Но и при таком тестированииэкспериментатор должен по-прежнему уделять значительное вниманиекаждому ребенку, иначе он не сможет быть уверенным, что дети следуютинструкции. Экспериментатор должен следить, чтобы правильно перево-рачивались страницы тестовой тетради и соблюдались другие правилатестирования. При необходимости экспериментатор вместе с одним-дву-мя помощниками может проводить исследование и с численно больши-ми группами. В групповых тестах начального уровня каждому ребенку дается те-традь с напечатанными картинками и схемами, составляющими заданиятеста, инструктирование ведется устно и обычно сопровождается пока-зом. Часто включаются предварительные упражения, в которых испы-туемые пробуют выполнить один или два типа заданий и эксперимента-тор или куратор проверяют ответы, чтобы быть уверенными, чтоинструкция понята правильно. Ребенок отмечает свои ответы в тестовойтетради цветным или простым карандашом. Большинство тестов тре-буют лишь умения правильно отметить картинку из данного набора изо-бражений. Некоторые тесты предполагают умение нарисовать линии, со-единяющие две точки. Разумеется, тесты начального уровня не требуютот обследуемых умения читать или писать. Из табл. 24 видно, что некоторые из приведенных в ней батарейвключают тесты начального уровня. Чтобы пояснить характер этих те-стов, рассмотрим начальный уровень тестаумственных способностейОтиса-Леннона. Этот тест, опубликованный в 1967-1969 гг., на всех273 ГРУППОВОЕ ТЕСТИРОВАНИЕуровень фактически сам распадается на два подуровня: начальный 1 (длядетей, посещающих детский сад) и 2 (для первоклассников в первые пол-года обучения). Эти два уровня идентичны по содержанию и различают-ся лишь по способам указания ребенком своих ответов. На начальномуровне 1 ответы отмечаются обведением в кружок выбранного варианта,и поэтому тест приходится обрабатывать вручную. На начальном уровне2 используется тетрадь, подготовленная к машинной обработке резуль-татов тестирования, ребенок отмечает в ней свой ответ, закрашивая рас-положенный под изображениями небольшой овал (см. рис. 38). По каждому заданию теста экспериментатором дается устная ин-струкция. Экспериментатор контролирует также время (около 15 с), необ-ходимое для выполнения каждого задания. Для проведения всего тестатребуется от 25 до 30 мин. Тест проводится по частям, с коротким пере-рывом между 1 и II частью; часть 1 состоит из 23 заданий на классифи-кацию, часть II содержит 32 задания на измерение способностей обра-зовывать понятия и понимать количественные отношения, общейосведомленности и умения следовать указаниям. Примеры заданий раз-личных типов представлены на рис. 38. Нормы для всех уровней батареи Отиса-Леннона были установ-лены на тщательно отобранной репрезентативной выборке из 200000учащихся всех 50 штатов. Показатели могут быть выражены в стан-дартных IQ с а = 16. Соотнесением с возрастными и классными норма-ми могут быть также найдены ранги процентилей и станайны. Как былоустановлено для начального уровня, правильно построенные тесты обыч-но имеют удовлетворительную надежность и валидность по критерию.Для начального уровня 2 батареи Отиса-Леннона данные о надежностибыли получены на основе повторного, проводившегося через 2 нед тести-рования 1047 первоклассников взаимозаменяемой формой теста. Коэф-фициент надежности оказался равным 0,87. Коэффициент надежности,определенный методом расщепления, оказался равным 0,90 (для выборкииз 14 044 первоклассников). Проведенное год спустя катамнестическое ис-следование 144 учащихся дало корреляции с показателями более высоко-го уровня батареи на уровне 0,80. Коэффициенты, характеризующие те-кущую и прогностическую валидности теста, вычисленные по результа-там теста достижений и годовым оценкам, приблизительно равнялись0,50. Уровень средних клас с о в. Групповые тесты интеллекта, пред-назначенные для детей IV класса и старше, весьма сходны как по своемусодержанию, так и по построению. Поскольку учащиеся этой категорииграмотны, преобладают тесты с вербальным содержанием, большинствотестов включают также арифметические задачи или иные числовыетесты. Некоторые батареи снабжены нелингвистическими тестами дляоценки тех же способностей у детей, не знающих английского языка, неумеющих читать или обладающих какими-либо пробелами в образова-нии. В качестве примера тестов для средних классов рассмотрим несколь-ко промежуточных уровней из теста познавательных способностей. Пол-ная серия рассчитана на два начальных уровня (от детского сада до IIIкласса) и на различные уровни образования (от III до XII класса). По-следние содержат восемь уровней (А-Н), представленных в одной тетра-"" -iwTveMbie, относящиеся к разным уровням, выполняют разные на- ~~"" """"" ппазОМ. ЧТО боЛЬШИНСТВО274ТЕСТЫ ОВЩР.ГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ Часть 1. Классификация. Отметьте картинку, не принадлежащую трем остальным, отличающуюся от них.(рисунки) с>(геометрические фигурь>)ОС?СОо.;.оЧасть И. Словесные понятия. Отметьте картинку, где нарисовано пламя.Количественные отношения. Отметьте картинку, где столько же точек,сколько частей в круге. с)с? оОбщая осведомленность. Отметьте рисунок предмета, с помощью которого мы можемвести разговоры.Следование указаниям. Отметьте картинку со стаканом, помещенным в квадрат,отмеченный наверху крестиком.Рис. 38. Примеры заданий для н(цчального уровня теста умственных способностей275 ГРУППОВОЕ ТЕСТИРОВАНИЕобследуемых выполняют задания среднего уровня трудности, что позво-ляет различить их наиболее эффективным образом. Тесты всех восьми уровней состоят из одних и тех же субтестов,сгруппированных в три батареи следующим образом: Вербальная батарея-словарный запас, завершение предложений, классификацияслов, словесные аналогии. Количественная батарея-количественные отношения, числовые серии, составлениеравенств. Невербальная батарея-классификация фигур, аналогия фигур, объединение фигур.В этих субтестах используются не слова или числа, а изображения геометрических фигури рисунков; задания относительно мало связаны со школьной программой. Каждому субтесту предшествует одинаковый для всех уровней на-бор упражнений. На рис. 39-41 представлены типичные задания каждогоиз 10 субтестов, правда инструкции значительно сокращены. По уровнютрудности эти задания соответствуют тем, которые предназначены дляучащихся IV-VI классов. Создатели теста рекомендуют предъявлять де-тям эти три батареи в три приема. Для большинства детей невербальнаябатарея в отличии от вербальной и количественной батареи не являетсяпредсказателем достижений в учебе. Однако сравнительный анализ вы-полнения заданий по всем трем батареям может оказаться полезнымпри выявлении специальных способностей. Выборка стандартизации, включавшая приблизительно 20000 слу-чаев для каждой из 10 групп учащихся разных классов, была составленатаким образом, чтобы быть репрезентативной относительно популяцииРис. 39. Типичные эадания из вербальной батареи теста познавательных способностей.Ответы 1-D, 2-Е, З-С, 4-Е. С любезного согласия Роберта Л. Торндайка и Элизабет Хаген1. Словарный запас. Укажите слово, близкое по значению слову, выделенномужирным шрифтом.невежливый А-несчастный, В-сердитый, С-коварный, Д — грубый. Е-болтливый2. Завершение предложений. Укажите слово, которое можно вставить вместопропуска в предложении.Марк очень любил своего учителя естествознания, но ему не -преподавательматематики.А-слушаться, В-спорить, С-уважать, Д-хотеть, Е-нравиться3. Классификация слов. Подумайте, что объединяет напечатанные жирным шриф-том слова, и отметьте в нижнем ряду слово, которое к ним подходит.голубь ястреб воробейА-мотылек, В-летучая мышь, С-чайка,Д — пчела, Е — белка4. Словесные аналогии. Подумайте, как связаны первый два слова из верхнегоряда, и укажите, какое слово из нижнего ряда точно так же связано с третьим. горох -> боб, персик ->А-ямя. В-дерево, С-еда276 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ1. Количественные отношения. Если число, приведенное в столбце 1, большечисла из столбца 2, отметьте А, если меньше-В, если равно-С.Столбец 1 Столбец 2 5х0 52. Числовые серии. Выберите из правою ряда чисел число, которое может за-вершить ряд чисел слева.18 16 14 12 10 A-7, B-8, C-9, Д-10, E-123. Составление равенств. Расставьте приведенные внизу слева числа и матема-тические знаки так, чтобы получилось равенство, и из чисел справа выберитедающие правильный ответ.1 89+- А-О, В-З. С-8, Д-9, Е-18Рис. 40. Типичные задания из количественной батареи теста познавательных способ-ностей. Ответы 1-В, 2-й, З-А. С любезного согласия Роберта Л. Торндайка и Элизабет Хагеншкольников страны. Первичные показатели в каждой батарее переводи-лись в единую для всех уровней шкалу с тем, чтобы обеспечитьнепрерывность измерения и сравнимость показателей для разных клас-сов. Для нормативной интерпретации показатели каждой батареи пере-водились по каждому возрасту в нормализованные стандартные показа-тели с М = 100 и (7 == 16. Процентили и станайны также устанавливалисьпо возрастам и классам. В руководстве к тесту не рекомендуется объеди-нять показатели трех батарей в единый индекс. Коэффициенты надежности трех батарей, вычисленные внутри групппо формуле Кьюдера-Ричардсона, в основном равны 0,90. В руковод-стве приводятся стандартные ошибки измерения для разных классови уровней показателей, а также минимальные различия между показате-лями батарей, которые можно рассматривать как статистически и прак-тически значимые. Взаимокорреляции показателей батареи колеблютсяот 0,60 до 0,70, взаимокорреляции субтестов также необычно высоки.Факторный анализ подтвердил наличие общего фактора во всех трех ба-тареях, скорее всего представляющего способность рассуждать с по-мощью абстрактных и символических понятий. Тест познавательных способностей был стандартизован на той жевыборке, что и две батареи достижений теста основных навыков штатаАйова (ITBS) для 111-VIII классов, а также тест успехов в обучении для1Х-Х11 классов. Текущая валидность теста познавательных способностейпо отношению к ITBS, установленная в группах из 500 испытуемых вы-борки стандартизации для каждого класса отдельно, колебалась от 0,50до 0,70. Было также установлено, что по отношению к успехам в школевербальная батарея дает самые высокие корреляции с достижениями повсем учебным предметам, за исключением арифметики, оценки по кото-рой лучше коррелируют с результатами выполнения количественнойбатареи. Корреляции с тестами достижений, проведенными через три года, —.._"", " " .р "дй величины, что и текущие корреля-277ГРУППОВОЕ ТЕСТИРОВАНИЕк школьным отметкам, полученным в промежуток времени от 1 до 3 лет,были несколько ниже, где-то от 0,50 до 0,60. На корреляции этого типа,вероятно, сказалась ненадежность и другие побочные факторы проце-дуры оценивания. Уровень старших классов. Следует отметить, что многоуров-невые батареи для старшеклассников, как и другие тесты, предназна-ченные для этой категории учащихся, пригодны также для тестированияобщих не отбираемых со специальной целью групп взрослых. Еще од-ним источником тестов для взрослых служат тесты для военнослужащих,адаптированные для применения среди гражданского населения. Примером группового теста интеллекта для старшеклассников мо-Рис. 41. Типичные задания из невербальной батареи теста познавательных способ-ностей. Ответы 1-В, 2-0, 3-3 и 4. С любезного согласия Роберта Л. Торндайка и Элизабет Хаген и с разрешенияХо/гтон Миффлин Компани1. Классификация фигур. Среди фигур, расположенных справа, укажите построеннуюпо тому же принципу, что и 3 фигуры слева.С662. Аналогии фигур. Среди фигур, расположенных справа, укажите фигуру,находящуюся к третьей фигуре слева в том же отношении, в котором находятсяпервая и вторая фигуры слева.3. Объединение фигур. Укажите, какие из заштрихованных фигур могут бытьполностью закрыты черными квадратиками, при этом квадратики не должнынаходить друг на друга.Исходные квадратикиДЗаштрихованные фигуры278ТЕСТЫ OKIUtTO ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯжет служить уровень 2 теста способности к обучению в школе и коллед-же (SCAT; серии II). На всех уровнях серий SCAT тесты применяютсяв двух эквивалентных формах -А и В. Специально ориентированные напредсказание успеваемости в школе и колледже, тесты всех уровнейимеют вербальный, количественный и суммарный показатели. Вер-бальный показатель определяется на основе выполнения теста словесныханалогий. Однако в заданиях этого теста в отличии от традиционных за-даний на аналогии требуется не просто подобрать четвертое слово, а вы-брать вторую пару слов. Количественный показатель определяется вы-полнением теста количественного сравнения, предназначенного дляоценки понимания испытуемым основных операций с числами. Следуетсказать, что как в числовых, так и геометрических заданиях этого тестанавыки чтения используются минимально, а основное внимание сосредо-точено на способности испытуемого понимать и его находчивости. Нарис. 42 показаны простые вербальные и количественные задания, исполь-зуемые в SCAT для предварительной ориентировки испытуемых. Эти за-дания по степени трудности относятся к уровню 2. На всех уровнях те-стирование занимает 40 мин, но 20 мин на каждую часть.Рис. 42. Типичные задания из SCAT серий II, уровень 2, для IX-XII классов. От-веты 1-В, 2-В, 3-D, 4-А, 5-С. С разрешения Службы тестирования в образованииЧасть 1. Вербальные способности. Каждое задание начинается с пары связанныхкаким-то обрачом слов. Среди предлагаемого набора пар слов требуется указатьпару, связанную друг с другом таким же образом.1. инструмент молотокА. стол-стул.В. игрушка-кукла,С. оружие-металл,D. сани-колокольчик2. хвастливый-скромный еА. предательство-раскаяние,В. радикал -конвенционалист,С. предтеча-предвидение,D. искушенность -предрасположенностьЧасть II. Математические способности. Каждое задание содержит две величи-ны: одну в столбце 1, другую в столбце 2. Выберите А, если величина в столб-це 1 больше, чем в столбце 2; В-если меньше; С-если обе величины равны;Д-если информации для оценки этих величин недостаточно. Столбец 1число между 10 и 20 Столбец 2число между 10 и 30Столбец 1 11000Столбец I1001СтолбецСтолбец 25 U Площадь ASTU279 ГРУППОВОЕ ТЕСТИРОВАНИЕ В соответствии с современными тенденциями в теории тестированияSCA Т создавался как мера развивающихся способностей, что свидетель-ствует о распространении достаточно верного представления о тестахинтеллекта, а именно что тестовые показатели скорее отражают природуи итоги обучения индивида, нежели являются измерителями способно-стей как таковых, безотносительно к соответствующему опыту. Соответ-ственно с помощью SCAT выявляются необходимые в каждом классезнания слов и обученность арифметике. В этом отношении SCA Т дей-ствительно ничем не отличается от других тестов интеллекта, особеннотех, которые предназначены для старшеклассников и учащихся коллед-жа; этот тест просто делает явными условия, иногда неосознаваемыев других тестах. Вербальные, количественные и суммарные показатели всех уровнейSCAT выражаются в общей шкале, что позволяет проводить прямоесравнение одного уровня с другим. В свою очередь, эти показатели легкопревращаются в процентили или станайны для соответствующего клас-са. Особо привлекательным является принятие в SCAT в дополнениек единому для каждого полученного показателя процентилю процен-тильных полос. Занимая интервал приблизительно в одну стандартнуюошибку измерения по обе стороны соответствующего процентиля, про-центильная полоса задает 68Їо-ный доверительный интервал, или диапа-зон, на который приходится 68Їо случаев нормальной кривой. Другимисловами, если установлено, что результаты испытуемого по-падают в данную процентильную полосу, то вероятность правильностипринимаемого решения равняется 68 случаям из 100 (приблизительно2:1). В главе 5 уже объяснялось, что ошибка измерения предусматриваетпри интерпретации индивидуального результата конкретный способ уче-та надежности теста. Если две процентильные полосы частично совпадают, различия ме-жду показателями могут игнорироваться, если не совпадают, то разли-чия можно рассматривать как значимые. Таким образом, если два уча-щихся получили в SCAT суммарные показатели, попадающиев процентильные полосы 55-68 и 74-84, то можно с полной уверен-ностью заключить, что второй действительно превосходит первого, и по-вторное тестирование дает тот же результат. Процентильные полосы по-могают также сравнивать относительное положение результатов одногоиспытуемого по вербальной и количественной части теста. Если показа-тели по вербальному и количественным тестам у испытуемого соответ-ствуют процентильным полосам 66-86 и 58-78 соответственно, то можносказать, что значимого различия в развитии вербальных и количе-ственных способностей у этого индивида нет, поскольку процентильныеполосы этих показателей перекрывают друг друга (рис. 43). Выборка стандартизации-SCAT состояла из более 100000 испы-туемых. Выборка была репрезентативной относительно среза популяцииучащихся нормальных школ от IV до XII класса и первых двух лет обу-чения в колледже. При отборе использовалась трехступенчатая процеду-ра, в которой критериями отбора были школьные системы (государ-ственная и частная), школы и классы. Похожие процедуры отбора былииспользованы и при выборе испытуемых из числа учащихся колледжа.Формирование выборки стандартизации, как и другие методические при-емы, свидетельствует о необычно высоких методических стандартах раз-280ТЕСТЫ ОВЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ Коэффициенты надежности для вербального, количественного и сум-марного показателя были подсчитаны по формуле Кьюдера-Ричардсо-на отдельно для каждой группы, представляющей определенные классы.Полученные коэффициенты надежности оказались одинаково высокими.По отдельным группам от IV до XIV уровня коэффициенты надежностисуммарных показателей были равны 0,90 и выше, а для вербальногои количественного показателя колебались от 0,83 до 0,91. Высокие коэф-фициенты надежности можно объяснить тем, что в какой-то мере тестбыл скоростным. Процент учащихся, выполнивших все задания, для раз-ных классов колеблется от 65 до 96Їц в вербальных тестах и от 55 до85Їо в количественных. При этих условиях более пригодна надежность,определенная методом эквивалентных форм. Если коэффициенты надеж-ности фактически завышены, то ошибки измерения недооцениваются, и,Рис. 43. Профиль SCAT-11, представленный в виде процентильных полос.С разрешения Службы тестирования в образованииВербальный Математический Суммарный: =: =E =пчрнь высокиеОчень высокие1- -1i ~ ——90—90—90——-Высокие111-80-B"BВысокиеBBS5E5""B-60-55-60-Средние1-50-11-50-11-50-Средние1-40—40-1-40-1-30—50-1-30-Низкие1-20-1-20—20-НизкиеОчень низкиеr-1U-Иiu —10-Очень низкие281 ГРУППОВОЕ ТЕСТИРОВАНИЕследовательно, процентильные полосы могут оказаться слишком широ-кими. Однако следует иметь в виду, что многие учащиеся, не ответившиена все задания, могли отказаться от решения более трудных заданий, да-же если у них было достаточно времени. Более того, в количественномтесте испытуемый в поиске ответа может затратить очень много време-ни на вычисления, тогда как простое осознание числовых отношений мо-гло бы привести к ответу моментально. Если это так, то скорость вы-полнения заданий должна высоко коррелировать со способностямик количественному мышлению, которые предназначен измерить тест. Цели, с которыми разрабатывался SCAT, предполагают, что прогно-стическая валидность этого теста определяется прежде всего достиже-ниями в учебе. Коэффициенты валидности, полученные для V, VIII, XI,XII классов из школ-участниц выборки стандартизации (коэффициентыопределялись для каждой школы в отдельности и затем усреднялись,число школ в зависимости от класса менялось от 3 до 26), колебались от0,59 до 0,68; корреляция вербального показателя SCATc отметками поанглийскому языку равнялась от 0,41 до 0,69 и количественного показа-теля с оценками по математике составляла от 0,43 до 0,65. Посколькучастные корреляции значительно менялись от школы к школе, в руко-водстве к тесту дается рекомендация проводить локальную валидациютеста. Корреляция с тестами достижений (Последовательные тесты успеховв образовании) обычно колеблются от 0,60 до 0,80. Количественные по-казатели лучше коррелируют с успехами по математике, а вербальныелучше со всеми другими предметами. Однако коэффициенты валидностидля суммарных показателей SCAT обычно столь же высоки, как и дляпоказателей обеих частей теста. Таким образом, эффективность вер-бальных и количественных показателей как различных предсказателейуспеваемости в учебе остается неопределенной. В этой связи следует ска-зать, что сами по себе показатели вербальной и количественной частейтеста коррелируют на уровне 0,70, за исключением показателей самыхмладших и самых старших классов, где корреляция составляет только0,60. Такое тесное сходство может быть следствием однотипности ис-пользуемых в тестах заданий, требующих в основном умения выявлятьи использовать установленные отношения в абстрактном или символиче-ском содержании. Подобно другим обсуждаемым в этой главе тестам,SCAT предназначен прежде всего для измерения общего интеллектуаль-ного развития и лишь во вторую очередь он может служить указателемразличий в способностях индивида.ТЕСТЫ ДЛЯ КОЛЛЕДЖЕЙИ БОЛЕЕ ВЫСОКИХ УРОВНЕЙ ОБРАЗОВАНИЯПрием в колледжи. Ряд тестов был разработан для использованияпри поступлении, распределении и консультировании студентов коллед-жа. Примером такого типа тестов является тест способности к обучению(SAT), разработанный Советом по вступительным экзаменам в колледж.Ежегодно подготавливаются несколько новых форм теста, и при каждомпроведении используется своя форма. Для вербальных и математических "~" """таппятся раздельные показатели. На рис. 44 и 45 дается -~""Tftcкиx типов заданий, взятых282 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯАнтонимы. Укажите слово или фразу, прямо противоположные по значениюслову, набранному прописными буквами.1. РАСКОЛ. А — большинство, В — союз, С — единообразие, Д — совещание, Е — постро- ениеЗавершение предложений. Укажите слово или несколько слов, которые лучшевсего подходят по смыслу для заполнения пропусков в предложении.2. Сначала островитяне, несмотря на внешнюю -, делали все возможное,чтобы — жестокости оккупантов.А-гармония … настаивать, В-враждебность … помешать, С-восстание … выде-лять, Д-сопротивление … разрушить, Е-покорность … пресекатьАналогии. Укажите слова, находящиеся в тех же отношениях, что и слова, наб-ранные прописными буквами.3. КОСТЫЛЬ-ПЕРЕДВИЖЕНИЕ, А. весло-байдарка, В. герой-поклонение,С. лошадь-экипаж, Д. очки-зрение, Е. утверждение-разногласиеПонимание читаемого. Испытуемый читает отрывок и отвечает на вопросыс множественным выбором ответов, что позволяет оценить его понимание со-держанияРис. 44. Примеры вербальных заданий теста способности к обучению. Инструкцииприведены в краткой форме. Ответы 1-В, 2-Е, З-Д.С разрешения Службы тестирования в образованииСтандартные вопросы с множественным выбором ответов. Используя сведенияиз школьных арифметики, алгебры и геометрии, эти задания выявляют наход-чивость испытуемого и его умение применять усвоенные принципы.1. Если 16 х 16 х 16 = 8 х 8х Р, то P = A-4, B-8, С-32, Д-48, Е-64Количественные сравнения. Отметьте А, если число в столбце 1 больше числав столбце 2; В-если меньше; С-если оба числа равны: Д-если необходимадополнительная информация, чтобы решить, какое из чисел больше. Столбец 1 Столбец 22. 3х353х8 4х352х6Рис. 45. Примеры математических заданий теста способности к обучению. Инструк-ции приведены в краткой форме. Ответы 1-Е, 2-А.С разрешения Службы тестирования в образованиииз брошюры, распространяемой среди поступающих в колледж (CollegeEntrance…, 1974,b). Изменения, внесенные в этот тест в 1974 г. на основеэкспериментальных данных, связаны с добавлением заданий из теста награмматику английского языка и введением раздельных показателей сло-варного теста (задания на нахождение антонимов и аналогий) и теста по-нимания прочитанного (задания на завершение предложений и понима-,.,,а пппии-тянпото). ——- пм-ттл по ВСТУПИ-283 ГРУППОВОЕ ТКСТИРОВЛНИЕи подробно анализируется на хорошем методическом уровне. В одномиз обзоров седьмого Ежегодника измерения умственных способностейэтот тест характеризуется следующим образом: (Р.Н. Du Bois, 1972). (W.L. Wallace, 1972). Некоторые аспекты анализа SAT обсуждают-ся в разных главах этой книги как иллюстрация специфики его методов,наиболее подробное описание этого теста даётся в книге В. Ангоффа(W.H. Angoff, 1971 b). Укороченная форма теста, известная как предвари-тельный вариант SAT, используется с 1959 г.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Этот вариант, применяемыйобычно на более ранней стадии, служит для предварительной оценкиспособностей старшеклассников к обучению в колледже и применяетсяпри консультировании по вопросам образования и с другими конкретны-ми целями. Оба теста отвечают требованиям, предъявляемым к про-грамме тестирования, установленной Советом по вступительным экзаме-нам в колледж. Все поступающие в колледжи, находящиеся в веденииэтого совета, обязательно выполняют SAT. В некоторых колледжах при-меняется также один или более утвержденных советом тестов достиже-ний в конкретных областях знаний. Еще одной введенной в 1959 г. национальной программой была аме-риканская программа тестирования для колледжей (ACT). Вначале ееприменение ограничивалось главным образом системой университетовштатов, но популярность программы быстро росла, и теперь она исполь-зуется многими колледжами страны. Батарея тестов ACT состоит изчетырех частей: владение английским, математикой, чтение работ поестественным и социальным наукам. По мнению создателя этой системыЭ. Ф. Линдквиста, такое построение отражает основные виды работ, осу-ществляемых при обучении в колледже. ЛСТчастично совпадает с тради-ционными тестами способностей и достижений, но концентрирует внима-ние на основных интеллектуальных навыках, необходимых для удовле-творительного освоения учебных программ колледжа. В методическом отношении ЛСТниже тех стандартов, которым со-ответствует SAT. Коэффициенты надежности обычно ниже, чем требуетсядля принятия решения об индивиде. Отдельные показатели в каком-тосмысле избьгщчны, поскольку четыре части теста перегружены задания-ми на понимание прочитанного и слишком взаимокоррелируют. Вместес тем данные о валидности выгодно отличаются от установленных длядругих методов этого типа. Корреляции между объединенными показа-телями батареи в целом и усредненными годовыми оценками в колледжеравняются приблизительно 0,50. Большинство данных по валидности бы-ло получено через исследовательские службы колледжей, участвовавшихв Американской программе тестирования для колледжей. Программатакже предусматривала получение обширных нормативных, интерпрета-ционных и других вспомогательных данных. Помимо вышеупомянутых узконаправленных тестов ряд тестов длястаршеклассников и студентов колледжей может проводится лишь пси-хологами-консультантами или другими квалифицированными специали-стами. Примером тестов такого типа является квалификационный тест —_."" ." "т-япйн пает шесть показателей: вер-284 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯках, суммарный по тесту в целом. Информированность в различныхобластях знания, необходимая для выполнения заданий теста, являетсядостаточно общей и не зависит от специфических особенностей препода-вания учебного предмета. Данные о надежности и нормативные данныесвидетельствуют в пользу этой батареи. Данные о валидности многообе-щающи, но недостаточно многочисленны для столь широко используе-мого теста. Отметим, что за исключением SAT (который может быть дополнентестами достижений) такого типа тесты изучают комбинацию общихспособностей и знания (или способности объяснить) сути дела по ос-новным учебным предметам. Использование раздельных показателейдля предсказания достижений в конкретных областях знаний достаточносомнительно. По-видимому, суммарный показатель лучше предсказы-вает успехи в освоении всех учебных курсов колледжа. Среди отдельныхпоказателей обычно вербальный лучше всего предсказывает будущие ус-пехи в обучении. Следует также иметь в виду, что ни один из показате-лей любого из подобных тестов не заменяет школьных оценок. Послед-ние могут служить предсказателями достижений в колледже с такой жеили даже более высокой вероятностью, что и большинство тестов. Еслиже тестовые показатели используются с учетом оценок, полученныхв старших классах школы, то прогноз будущих успехов в освоенииучебных программ колледжа значительно улучшается. Прием в аспирантуру. Практика тестирования поступающихв колледж постепенно была распространена на аспирантуру и профессио-нальные школы. Большая часть созданных для этих целей тестов пред-ставляет собой комбинацию тестов общего интеллекта и тестов достиже-ний. Достаточно известным тестом этого типа является письменныйэкзамен для аспирантов (GRE). Серии тестов GRE возникли в 1936 г.в результате совместных исследований фонда Карнеги и аспирантур 4 университетов восточных штатов. В настоя-щее время эти исследования по расширенной программе проводятсяСлужбой тестирования в образовании под общим рукоиодством Советапо вступительным экзаменам в аспирантуру. Тестирование студентовпроводится в специально созданных центрах до их приема в аспиранту-ру. Результаты теста используются университетами как вспомогательноесредство при принятии решений о приеме, распределении, отборе стипен-диатов, научном руководителе и т.п. GRE состоят из тестов способностей и успехов в выбранной студен-том области исследований. Последний применяется во многих спе-циальных областях, таких, как биология, английская литература, фран-цузский язык, математика, политические науки, психология. Тестспособностей в сущности представляет собой тест способности к обуче-нию, рассчитанный на успевающих студентов последних курсов и аспи-рантов. Как и многие тесты подобного типа, он имеет раздельные вер-бальный и количественный показатель. Вербальные задания предпола-гают умение рассуждать и понимать прочитанные отрывки по несколь-ким областям знания. Количественные задания требуют умения рабо-285 ГРУППОВОЕ ТЕСТИРОВАНИЕтать с арифметическими и алгебраическими понятиями, а также уменияобъяснять графики, диаграммы и дескриптивные данные. Результаты по всем тестам GRE приводятся в соответствии с единойстандартной шкалой показателей с М = 500 и а = 100. Эти показатели,непосредственно сравнимые для всех тестов, были соотнесены с показа-телями теста способностей фиксированной референтной группы из 2095старшекурсников, выбранных в II обследовавшихся в 1952 г. колледжах.Например, показатель 500 по тесту достижений в физике соответствуеттакому выполнению теста, которое ожидается от большинства физиков,чьи результаты по тесту способностей равны среднему показателю этоготеста в референтной группе. Так как поступающие в аспирантуру пред-ставляют собой отобранную по успеваемости группу, средние резуль-таты для большинства групп, выполняющих тест достижений при посту-плении в аспирантуру, будут значительно выше 500. Более того,существует определенное соответствие между качествами интеллектастудентов и их специализацией. Поэтому при нормативной интер-претации более уместны процентили, полученные для конкретных групписпытуемых, правда, локальные нормы в этом отношении ещелучше. Валидность и надежность GRE определялась на ряде различных вы-борок студентов (Guide for use.., 1973). Коэффициенты надежностивербального и количественного показателя теста способностей и сум-марных показателей тестов успехов, вычисленные по формуле Кьюде-ра-Ричардсона, в основном превышали 0,90. Для некоторых тестов успе-хов приводятся также показатели по двум-трем основным разделамконкретной области знания, скажем по экспериментальной и социальнойпсихологии. Надежность таких субпоказателей в большинстве случаевколеблется на уровне 0,80. Более низкая надежность и высокие взаимо-корреляции разделов науки требуют особой осторожности в интерпрета-ции субпоказателей. Прогностическая валидность проверялась по таким критериям, каксредняя оценка в аспирантуре, сдача аспирантских экзаменов, оценкипреподавателей и получение степени доктора (W.W.Willinghan, 1974).В общем, составной показатель GRE, включающий тесты способностейи успехов, оказывается более валидным в качестве предсказателя выпол-нения программы обучения в. аспирантуре, чем средние годовые оценкина старших курсах, то же можно сказать и про другие критерии. Каки следовало ожидать, GRE-количественный был лучшим предсказателем,чем GRE-вербальный для таких областей знаний, где требовались мате-матические способности, и напротив, в таких сферах научной деятельно-сти, как, скажем, лингвистика, лучшим предсказателем был GRE-вер-бальный. В общем, тест успехов GRE по сравнению со всемиисследованными был наиболее валидным единым предсказателем. Нарис. 46 на примере из трех областей знания показан процент студентов,получивших степень доктора философии, для разных интервалов показа-телей по тесту успехов. Приведенные на рис. 46 три коэффициента пред-ставляют собой бисериальные корреляции между результатами по тестууспехов GRE и получением и неполучением степени доктора философии. Наивысшие валидности были получены при учете среднегодовыхоценок старшекурсников и одного или двух показателей GRE. Многочис-ленные корреляции, в зависимости от критериев и областей знания, в ос- " """пагались в интервале от 0,40 до 0,45. Следует отметить, что280 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯодинаковая направленность способностей, свойственная поступающимв аспирантуру, как следствие обязательно приводит к более низким кор-реляциям, чем получение для показателей SA Т у поступающих в коллед-жи. Эти данные не означают, что GRE менее валиден, чем SAT; скорееони свидетельствуют о том, что для узконаправленной популяции посту-пающих в аспирантуру необходимо более тонкое различение. Еще одним тестом, широко используемым для отбора аспирантов,является тест аналогий Миллера (МЛ Т). Составленный из сложных зада-ний на аналогии, содержание которых требует понимания многихучебных предметов, этот тест имеет необычно высокий верхний предел.Несмотря на то что тест ограничен во времени и проводится за 50 мин,он, разумеется, является разновидностью теста возможностей. МА Т раз-рабатывался для использования в университете штата Миннесота, нопозднее были созданы и опубликованы варианты психологической кор-порации, пригодные для аспирантур других учебных заведений, хотя при-менение этого теста ограничено имеющими лицензию университетскими центрами или специальными ор- ганизациями. Тест используется как для отбора аспирантов, так и при распределении в промышлен- ности высококвалифицированного персонала. Применяется 5 парал- лельных форм теста, причем одна из них оставляется для проведения повторного обследования. Процентильные нормы MAT получены в группах аспирантов и учащихся профессиональных школ разного профиля, а также рабо- тающих в промышленности или поступающих туда на работу. Большинство этих групп состояли из 500 и более испытуемых, и ни одна группа не содержала менее чем 100 человек. Для этих выборок наблюдалась заметная разница в выполнении теста. Например, ме- диана одной группы приходилась на 90-й процентиль другой. Были получены дополнительные сред- ние значения и стандартные откло- нения для менее многочисленных выборок работающих в промыш- ленности. Коэффициенты надежности, определенные корреляцией четных и нечетных заданий, для разных выборок колебались от 0,92 до 0,95, а коэффициенты надежности, определенные методом взаимоза- меняемых форм,-от 0,85 до 0,90.Рис. 46. Процент студентов, получившихв течении 10 лет после тестирования степеньдоктора философии для разных интерваловпоказателей теста успехов GRE (J. A. Creager,1965). c Американская ассоциация прогресса в химияГ=039физикаГ= 0.41, /"/ г=034287 ГРУППОВОЕ ТЕСТИРОВАНИЕми индивидуальными и групповыми тестами интеллекта и способностей кобучению колебались от 0,50 до 0,70. Для выборок аспирантов, учащихсяпрофессиональных школ и промышленных рабочих приводится свыше 100коэффициентов валидности. Диапазон их значений весьма широк: болеетрети приходится на уровни от 0,30 до 0,60 и примерно столько же на уров-ни слишком низкие, чтобы быть значимыми. Область специализации, при-рода используемых критериев, размер, разнородность и другие характе-ристики выборки несомненно влияют на величину этих коэффициентов.Более обнадеживающие данные по валидности представляют средниезначения и стандартные отклонения некоторых контрастных по тем илииным параметрам групп. Разумеется, валидность этого теста должнаоцениваться в соответствии с предполагаемой ситуацией его использо-вания. Взрослые с высоким уровнем интеллекта. Любой тест дляучащихся колледжа или аспирантов, по всей вероятности, пригоден так-же и для оценки взрослых с высоким уровнем интеллекта при профес-сиональном отборе, научном исследовании или каких-то других целях.Так, тест аналогий Миллера используется для оценки и отбора высоко-квалифицированного промышленного персонала высшей категории. Ещеодним тестом, с достаточно высоким верхним пределом, является тествладения понятием (СМТ). Созданная Л. Терманом для лонгитюдногои подробного изучения одаренных детей, форма А СМТ предназначаласьдля тестирования интеллекта группы одаренных испытуемых на началь-ном этапе зрелости (L.M. Terman, М.Н. Oden, 1947). Для катамнестиче-ского исследования испытуемых, достигших 45 лет, была подготовленаформа T(L.M. Terman, М.Н. Oden, 1959). Эта форма в каком-то отноше-нии легче формы А, она впоследствии использовалась для более общихцелей. СМ Т состоит из заданий на аналогии и нахождение синонимов и ан-тонимов. Как и в MAT, эти задания строятся на понятиях из многихобластей знания, в том числе физических и биологических наук, матема-тики, истории, географии, литературы, музыки и др. Хотя преобладаютзадания вербального типа, тест также содержит задания с числовымианалогиями. Процентильные нормы получены при исследовании приблизительно1000 испытуемых из Станфорда, средний возраст которых равнялся 41году, а также при исследовании более малочисленных выборок аспиран-тов, старшекурсников колледжа-стипендиатов фонда Форда по наукамо поведении, инженеров и научных сотрудников лаборатории элек-тронных приборов военно-морских сил. В руководстве к тесту (дополне-ние 1973 г.) приводятся значения и стандартные отклонения 20 дополни-тельных выборок студентов и специалистов. Коэффициенты надежности, полученные методом взаимозаменяемыхформ, колебались от 0,86 до 0,94. Результаты теста по мере роста уровняобразования испытуемых также постоянно росли и давали корреляциив основном с вербальными тестами интеллекта, приблизительно равные0,60. Значимые корреляции со среднегодовыми оценками получены для7 выборок студентов колледжа, их значения колеблются от 0,26 до 0,59.Приводятся также предполагаемые данные по другим сферам деятельно-сти. Например, в двух группах управляющих фирмами, занимавшихся накурсах повышения квалификации, результаты выполнения испытуемыми288 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯспособности критически и аналитически мыслить на уровне 0,40-0,45, ав группе из 200 опытных преподавателей начальной и средней школданные по СМТ коррелировали на уровне 0,54 со шкалой, измеряющейспособности учителя работать с одаренными детьми. Очевидно, учите-лям, которые сами по себе имеют по тесту высокие результаты, легче ра-ботать с такими детьми. В силу своих уникальных качеств тест владения понятием можетоказаться полезным при решении некоторых задач тестирования. Вместес тем ясно, что не существует метода, который мог бы использоватьсяили интерпретироваться заранее установленным образом. Многозначнаяинтерпретация показателей СМТ требует внимательного изучения всехприведенных в руководстве данных и по возможности должна допол-няться локальными нормами.ГЛАВА 12. ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАНа психологические тесты следует смотреть как на орудие труда, эффек-тивность которого зависит от знаний, навыков и честности того, кто егоприменяет. Молоток может послужить при изготовлении грубого кухон-ного стола и изящного шкафчика, а может стать средством нападения.Поскольку психологические тесты измеряют поведение, то интерпрета-ция их результатов невозможна без знания человеческого поведения.Психологические тесты не могут быть правильно применены вне связис психологической наукой. Знакомство с соответствующими исследова-ниями поведения необходимо не только создателю теста, но и человеку,использующему его. Неизбежным следствием распространения и усложнения научных ис-следований является специализация интересов и функций занимающихсяэтими исследованиями людей. Такая специализация сказывается на отно-шении психологического тестирования к основным направлениям совре-менной психологии (A. Anastasi, 1967). Специалисты в психометрии, раз-рабатывая методическую сторону тестов, доводят ее до поистинеидеального совершенстаа. Но предоставляя технически совершенные ме-тодики, они относительно мало заботятся о том, чтобы пользующиесятестами люди имели соответствующие психологические представления,без которых невозможно правильное применение этих методик. В ре-зультате устаревшие интерпретации выполнения теста продолжают су-ществовать вопреки данным исследований по затрачиваемому тестомповедению. Определенная разобщенность психологического тестирова-ния и других областей психологии и как следствие неправильное исполь-зование и интерпретация тестов объясняют в какой-то мере неудовлетво-ренность общественности в 50-60-е гг. состоянием тестирования. Обсу-ждаемые в этой главе проблемы в основном касаются тех сведений изисследований по психологии, использование которых может улучшитьэффективность тестов интеллекта, а также помочь избежать распростра-ненных заблуждений относительно IQ и аналогичных показателей.289 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАЛОНГИТЮДНЫЕ ИССЛЕДОВАНИЯ ИНТЕЛЛЕКТАВажным подходом к объяснению понятия является изучениеиндивида через длительные промежутки времени. Хотя такие исследова-ния можно рассматривать как относящиеся к долговременной прогно-стической валидности конкретных тестов, они позволяют также делатьболее общие выводы относительно природы интеллекта и смысла IQ.Когда считалось, что интеллект в значительной степени связанс врожденными возможностями индивида, то на IQ смотрели как на не-что остающееся практически неизменным на протяжении всей жизни че-ловека. Любые наблюдавшиеся при повторном тестировании измененияIQ приписывались недостаткам методик: либо недостаточной надежно-сти, либо плохому отбору тестируемых функций. Однако по мере иссле-дования природы интеллекта пришли к пониманию, что интеллект кактаковой явление сложное и динамичное. В последующих разделах рас-сматриваются основные результаты лонгитюдного изучения интеллектаи обсуждаются условия стабильности и нестабильности IQ. Стабильность IQ. Основная масса имеющихся данных показы-вает, что в период обучения в начальной и средней школе, а также в кол-ледже выполнение интеллектуальных тестов остается в целом неиз-менным (A.Anastasi, 1958 а, р. 232-238; R.B.McCall.M.I.Appelbaum,P. S. Hogarty, 1973). Например, шведский исследователь Т. Хасен(Т. Husen, 1951) на сравнительно случайной выборке получил корреля-цию 0,72 между тестовыми показателями 613 мальчиков-третьеклассни-ков и их же показателями, полученными через 10 лет при поступлении наслужбу в армию. Еще один шведский исследователь К. Хернквист( К. Hamqvist, 1968) сообщает о корреляции на уровне 0,78 между теста-ми, проведенными на более чем 4500 лицах мужского пола в возрасте от13 до 18 лет. Даже тестирование дошкольников дает довольно высокиекорреляции с более поздним повторным тестированием. В лонгитюдномисследовании 140 детей, проведенном в Исследовательском институтеФелса (L.W. Sontag, С. Т. Baker, V.L. Nelson, 1958), результаты по тестамСтанфорд-Бине, полученные детьми 3 лет, коррелировали с их же ре-зультатами в 4-летнем возрасте на уровне 0,83. Корреляции показателейтестов 3-летних детей по мере увеличения временного интервала междуочередными тестированиями уменьшались, но к 12 годам они все ещебыли достаточно высоки-0,46. В связи с тестом Станфорд-Бине К. Бре-двейем, К. Томпсоном и Р. Крейвенсом (К.Р. Bradway, C.W. Thompson,R. В. Cravens, 1958) было проведено катамнестическое исследование де-тей из выборки стандартизации Станфорд-Бине 1937 г., впервые тести-ровавшихся в возрасте от 2 до 5,5 лет. Исходные IQ коррелировали науровне 0,65 с результатами повторного тестирования через 10 лет, науровне 0,59-через 25 лет. Корреляция между повторным тестированиемчерез 10 лет (средний возраст 14 лет) и через 25 лет (средний возраст 29лет) равнялась 0,85. Как и следовало ожидать, корреляции при повторных тестированияхбыли тем выше, чем короче интервал между тестами. Кроме того, приодном и том же интервале в повторениях теста корреляции между нимистановятся тем выше, чем старше дети. Влияние возраста и межтестово-го интервала на величину корреляции тестовых результатов сказывается" "е.пеленной регулярностью и поэтому легко предсказуемо (R.L. г"п,цце g возрастом стабильности IQ объяс-290 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯняется кумулятивным характером интеллектуального развития,-ведьв каждом возрасте интеллект индивида есть сумма уже имеющихсяи вновь приобретенных навыков и знаний. Даже если вновь приобретае-мое никак не связано с уже имеющимся у индивида, постоянное улучше-ние уровня выполнения теста можно объяснить пропорциональным уве-личением с возрастом общего количества навыков и знаний. Вот почемупрогноз относительно IQ на основе результатов 10-летнего ребенка длявозраста 16 лет будет более точным, чем прогноз на основе результатов3-летнего для 9 лет, ведь показатели 10-летнего отражают большую по-ловину того, что будет иметь 16-летний, а показатели З-летнего-весьманезначительную часть из того, чем будет обладать индивид в 9 лет.Дж. Андерсон (J.E. Anderson, 1940, р. 394) объяснял связь ежду последо-вательными результатами тестирования гипотезой перекрытия. Он ут-верждал, что, поскольку подрастающий индивид не утрачивает ужеприобретенное, константность IQ является в основном проявлением от-ношения часть-целое или отношения перекрытия. В подтверждение своейгипотезы Дж. Андерсон подсчитал серию корреляций между первона-чальными и конечными , полученными с помощью тасо-вания карт, и случайными числами. Корреляции этого типа зависят ис-ключительно от степени совпадения последовательных измеренийи непосредственно согласуются с эмпирическими корреляциями результа-тов теста интеллекта и его повторениями, приведенными в трех опубли-кованных лонгитюдных исследованиях. Фактически тестовые показателидают даже несколько более низкие корреляции, что Дж. Андерсон объяс-няет действием таких факторов, как ошибки измерения и возрастные из-менения содержания теста. Хотя гипотеза перекрытия отчасти объясняет возрастание по мереразвития индивида стабильности IQ, заслуживают рассмотрения два до-полнительных обстоятельства. Первое-это стабильность окружения,свойственная периоду развития большинства индивидов. Дети обычнорастут в одной и той же семье, социоэкономической и культурной среде.Для них нетипична смена, например, обстановки, стимулирующей интел-лектуальное развитие, на условия, препятствующие такому развитию.Следовательно, любые (благоприятные или неблагоприятные) условия,характерные для какой-либо стадии развития ребенка, обычно сохра-няются от одного тестирования до другого. Второе обстоятельство, сказывающееся на общей стабильности IQ,связано с влиянием имеющихся навыков обучения на последующее обуче-ние. Индивид не только сохраняет прежние знания, но многие из них ста-новятся средством для последующего обучения. Таким образом, тот, ктопреуспел в приобретении интеллектуальных навыков и знаний в любоевремя, более способен извлечь пользу из последующего, обучения. Поня-тие есть отражение этого общего принципа.Последовательный характер обучения принимается во внимание в ужеобсуждавшемся подходе Ж. Пиаже к умственному развитию, а такжев различных индивидуализированных учебных программах. Тот же самый принцип лежит в основе программы опережающегообучения и других коррекционных программ обучения культурно нераз-витых детей дошкольного возраста (B.S. Bloom, A. Davis, R. Hess, 1965; ~ "- -n 1966: I.E.Sigel, 1973; J.C.Stanley, 1972; "—" w-roM недо-291 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА в школе, они по мере перехода из класса в класс могли бы все сильнее отставать в усвоении школьной программы. Следует добавить, что предпосылки обучения включают не только такие интеллектуальные навыки, как владение языком и количественны- ми понятиями, но также установки, интересы, мотивацию, способы реше- ния проблем, реакцию на неудачи, представление о себе и другие лич- ностные качества. Цель коррекционных программ обучения-выработать у детей навы- ки, необходимые для последующего обучения в школе. Разумеется, с по- мощью этих программ предполагается нарушить стабильность IQ, ко- торый в противном случае остался бы низким. Коррекционные программы обучения-один из примеров обсуждавшегося в главе 7 взаи- модействия первоначального результата и отношения к предсказанию результатов последующих. Что интеллектуальным навыкам можно эф- фективно обучать и взрослых, доказывается многообещающим исследо- ванием, о котором сообщает А. Вимби (А.Е. Whimbey, 1975), назвавший такое обучение когнитивной терапией. Нестабильность IQ. Корреляционное изучение стабильности поз- волило получить статистические данные, пригодные для групповых пред- сказаний. По причинам, о которых говорилось выше, IQ сохраняет по- стоянство в статистическом смысле этого слова. Вместе с тем изучение отдельных индивидов выявило значительные смещения IQ как в сторону улучшения, так и ухудшения Резкие возрастания или спады IQ могут быть следствием значительных изменений в жизни ребенка. Коренные изменения в структуре семьи или домашней обстановке, помещение в детский дом, тяжелая или продолжительная болезнь, лечебные или коррективные программы-вот примеры событий, могущих изменить по- следующее интеллектуальное развитие ребенка. Но даже у детей, остаю- щихся в прежних условиях, могут появляться при повторном тестирова- нии значительные возрастания или падения IQ. Конечно, эти изменения означают, что ребенок развивается быстрее или медленней, чем норма- тивная популяция, на которой тест был стандартизован. Обычно у куль- турно неразвитых детей с возрастом IQ снижается, в то время как у раз- витых детей он повышается. Исследования специфических особенностей окружения и самих детей интересны как с теоретической, так и с практи-. ческой точек зрения. Типичные данные о величине индивидуальных изменений IQ приво- дятся в исследовании Калифорнийского университета. При анализе ре- зультатов повторного тестирования 222 человек, по утверждению М. Гонзика, Дж. Макфарлейна и Л. Аллен (М. P. Honzik, J.W. Macfarlane, L. Alien, 1948), индивидуальные IQ меняются на величи- ну до 50 ед. В период от 6 до 18 лет, когда средние корреляции между См., например, работы: N. Bayley, 1955; N. Bayley, E.S. Schaefer, 1964; К. P. Brad-way, 1945; K.P.Bradway, N.M.Robinson, 1961; N.Haan, 1963; М. P. Honzik,J.W. Macfarlane, L. Alien, 1948; J.Kagan, М. Freeman, 1963; J.Kagan, L.W.Sontag, C.-T. Baker, V. L. Nelson, 1958; R.B.McCall, M.I.Appelbaum, P.S.Hogarty, 1973; A.H.Rees,F.H. Palmer, 1970; L.W.Sontug, C.T, Baker, V. L. Nelson, 1958; G.Wiener, R.V.Pider,W. Oppel, 1963. С. P. Пиню (S.R. Pinneau, 1961) подготовлены таблицы медиан и диапазонов измене-292 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯповторными тестированиями обычно высоки, у 59% детей IQ меняетсяна 15 и более, у 37Їо-на 20 и более и у 9Їо-на 30 и более единиц. Боль-шинство из этих изменений не являются резкими или неустойчивыми.Напротив, дети на протяжении ряда лет давали последовательное увели-чение или понижение IQ, и эти изменения были связаны с особенностямиокружения. В исследовании Калифорнийского университета подробноеизучение домашней обстановки и взаимоотношений между родителямии детьми показало, что значительные смещения IQ были связаны с куль-турной средой и эмоциональным климатом, в которых воспитывался ре-бенок. Последующее обследование, проведенное, когда его участники до-стигли 30 лет, все еще указывало на значимые корреляции междурезультатами теста и обстановкой в семье, оценивавшейся, когда испы-туемые были в возрасте 21 мес (М.Р. Honzik, 1967). Родительская заботаоб образовании ребенка является важным коррелятом последующего вы-полнения теста, на котором сказываются и факторы родительской за-боты об общем благополучии ребенка. В уже упоминавшемся катамнестическом исследовании выборкистандартизации Станфорд-Бине 1937 г. К. Бредвей (К.Р. Bradway, 1945)взял для специального исследования 50 детей, показавших самые боль-шие изменения IQ от дошкольного до младшего школьного возраста.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Результаты посещений семей этих детей и беседы с родителями сновапоказали, что значительные увеличения или падения IQ в течение 10 летбыли связаны с различными семейными обстоятельствами. При повторном анализе результатов, полученных в пяти лонги-тюдных исследованиях (некоторые из них уже упоминались в этой главе),А. Рис и Ф. Палмер (1970) установили, что изменения в IQ между 6 и 12годами значимо связаны с социоэкономическим статусом, если в каче-стве последнего берется уровень образования и профессия отца. Сходныевзаимосвязи были обнаружены шведом К. Хёрнквистом (К. Hamqvist,1968). В своих катамнестических обследованиях 10- и 25-летних испы-туемых, которые в дошкольном возрасте тестировались с помощьюшкал Станфорд-Бине, К. Бредвей и Н. Робинсон (К.Р. Bradway,N.M. Robinson, 1961) подсчитали индекс уровня образования родителей,профессии отца и обоих дедушек. Хотя они назвали свой индекс индек-сом наследственности, а не индексом социоэкономического статуса, ихрезультаты соответствуют именно этому показателю у других исследо-вателей: индекс значимо коррелирует приблизительно на уровне 0,30с IQ обеих групп испытуемых. В некоторых лонгитюдных исследованияхбыла установлена связь между величиной и направлением изменений ре-зультатов теста интеллекта и количеством законченных индивидом клас-сов после первого предъявления теста к моменту его повторения(К. Hamqvist, 1973). На разнице в результатах сильнее сказывалось числозаконченных классов, чем социоэкономический статус семьи. Некоторые исследователи концентрировали внимание на лич-ностных качествах, связанных с ускорением и замедлением интеллек-туального развития. В Исследовательском институте Фелса 140 детейбыли привлечены к обширному лонгитюдному исследованию от младен-чества и до достижения испытуемым взрослого возраста и старше(J. Kagan, М. Fagan, М. Freeman, 1973; J. Kagan, L.W. Sontag, C.T. Baker,V. L. Nelson, 1958; L.M. Sontag, C.T. Baker, V.LNelson, 1958). В этойгруппе дети, показавшие самые большие увеличения и уменьшения IQ отД Tff f TtT ГГат>1ТТХ1>отггт> -rr rтAтчn.rт м.-, ""—_ —— _-___293 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАностей окружения,-то же самое было проделано и в отношении детейс наибольшими изменениями IQ в возрасте от 6 до 10 лет. В до-школьный период эмоциональная подчиненность ребенка родителям бы-ла основным фактором, вызывавшим спады IQ. В школьные годы подъ-емы IQ определялись главным образом стремлением к высоким дости-жениям, соревновательными мотивами и любознательностью. Много-обещающие данные были также получены при исследовании ролиспособностей родителей и особенностей воспитания ребенка в формиро-вании таких черт характера. При последующем анализе той же выборки, проведенном, когда ис-пытуемые достигли 17 лет, внимание исследователей было сосредоточе-но в основном на характере происшедших изменений IQ. (R. В. Me Call,M.I. Appelbaum, P.S. Hogarty, 1973). У детей, чьи изменения IQ носилиразный характер, сравнивались методы их домашнего воспитания, оце-ниваемого на основе периодических посещений их семей. В целом полу-ченные данные говорят о том, что родители детей, показавших увеличе-ние IQ, в дошкольные годы обычно ободряли и поощряли своих детей,не забывая при этом напоминать о благоразумии и принуждать их к не-му (ibid, р. 54). Главное условие возрастания IQ, как считают авторы,-степень, с которой (ibid, р. 52.). Еще один подход к проблеме изменений IQ демонстрирует катамне-стическое исследование 49 мужчин и 50 женщин Н. Хаана (N. Haan, 1963).IQ в этой работе получали применением групповых тестов в первый раз,когда испытуемым было ооло 12 лет, и затем когда им было 35 и болеелет. Личностные особенности оценивались с помощью опросников, за-полняемых самим обследуемым, и рядом подробных бесед с испытуемы-ми, уже ставшими взрослыми, 25Їо группы, показавших наибольшийприрост IQ, и 25Ї", у которых было самое значительное уменьшение IQ,соответственно назвались быстро и замедленно развивающиеся в отно-шении способности справляться с трудностями или владения механизма-ми защиты. Защитные механизмы проявляются в весьма несхожих лич-ностных способах разрешения проблем и преодоления неудач. И еслимеханизмы преодоления трудностей в целом представляют собой объек-тивный, конструктивный, реалистический подход, то механизмам защитысвойствен уход, отрицание, рационалистическое объяснение и искажениеситуации. Результаты подтверждают гипотезу, что быстро развивающиеся зна-чительно чаще пользуются механизмами преодоления трудностей, а за-медленно развивающиеся-механизмами защиты. Сходные результаты получил А. Мориарти (А.Е. Moriarty, 1966),проводивший лонгитюдное исследование 65 детей, в ходе которого детитестировались от 2 до 4 раз, начиная с младенчества и до 10 лет и чутьстарше. В зависимости от изменений IQ дети были распределены по4 категориям: а) относительно константные-40; б) быстро развиваю-щиеся в одной или более сфер поведения — 25Ї"; в) замедленно, с задерж-ками или с трудом развивающиеся-9Їо; г) с неустойчивыми изменения-ми показателей, с различным развитием тех ипи мт А…—"294 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯявляются основным фактором, влияющим на происходившие со време-нем изменения IQ. Исследования факторов, связанный с возрастанием и падением IQ,проливают свет на условия, определяющие интеллектуальное развитиев целом. Кроме того, они наводят на мысль, что предсказание последую-щего интеллектуального уровня можно улучшить, если при измеренииэмоциональных и мотивационных характеристик индивида и его окруже-ния учитывать его исходные тестовые результаты. Согласно еще однойточке зрения, результаты такого типа исследований указывают путьк составлению коррекционных программ, способных эффективно влиятьна ход интеллектуального развития в желательных направлениях.ИНТЕЛЛЕКТ В РАННЕМ ДЕТСТВЕОценка интеллекта в двух предельных точках бозрастного диапазонасвязана со специальными теоретическими и прикладными проблемами.Одна из этих проблем состоит в трудности решения, какие функции сле-дует тестировать ? Из чего складывается интеллект младенца и дошколь-ника? Что представляет собой интеллект пожилого человека? Втораяпроблема отчасти связана с первой. В отличие от школьника младенеци дошкольник не участвуют в стандартных сериях проверок, какимиявляются школьные программы. При разработке тестов для учащихсяначальных и средних школ, а также для студентов колледжей у создате-ля теста в распоряжении имеется большой резерв экспериментальногоматериала, на основе которого он может строить тестовые задания.Вместе с тем жизнь ребенка до поступления в школу трудно свестик определенным стандартным формам, даже если ребенок воспитываетсяв достаточно однородной культурной среде. В этих условиях как созда-ние тестов, так и интерпретация их весьма затруднена. В какой-то меретрудности того же порядка возникают и при тестировании пожилых лю-дей, школьное образование которых было закончено много лет назад,а деятельность была самого различного свойства. В этом и следующемразделах рассматриваются некоторые подходы к решению проблей те-стирования детей и взрослых. Прогностическая валидность тестов для младенцев и до-школьников. Выводы, Которые вытекают из лонгитюдных исследова-ний, состоят в том, что тесты интеллекта для дошкольников (особеннопроводившиеся с детьми старше двух лет) имеют умеренную валидностьв предсказании последующего их выполнения, а тесты для младенцевпросто невалидны (N. Bayley, 1970; М. Lewis, 1973; R.B. Me Call, P.S. Ho-garty, N. Huriburt, 1972). Сопоставив результаты 8 исследований,P. Маккол и его коллеги вычислили медианы корреляций тестов, прове-денных с детьми в первые 30 мес их жизни, с IQ детей в возрасте от 3 до18 лет (R.B. McCall et aJ., 1972). Эти данные приведены в табл. 25. Из таб-лицы видно, что, во-первых, тесты, предъявляемые в первый год жизни,имеют незначительную прогностическую валидность или не имеют еевовсе. Во-вторых, валидность тестов для младенцев в предсказании ихIQ в дошкольном возрасте (3-4 года) несколько выше, но корреляции ре-зко падают, когда ребенок тестируется в школьном возрасте. В-третьих,после 18 мес валидность остается средней и стабильной- Кпгпч т,""—ставятся на оснпвя""" -""—295ПСИХОЛОГИЧКСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАТаблица 25Медианы корреляций между тестами для младенцеви IQ ребенка в возрасте до 18 лет. (R.B. McCall,P. S. Hogarty, N. Huriburt, 1972)С разрешения Американской психологической ассо-циации.Возраст, когда ребенок тестировался повторно -(в годах)Возраст, когда ребенок тестировался в первый раз(в мес)1-67-1213-1819-308-18 0,010,200,210,495-7 0,010,060,300,413-4 0,230,330,470,54 мому, будут примерно одина- ковыми независимо от дли- тельности интервала между первым и повторным тести- рованием. Отсутствие долговре- менной прогностической ва- лидности тестов для младен- цев необходимо оценивать с учетом других связанных с этой проблемой данных. Во- первых, ряд психологов-кли- ницистов доказали, что тесты для младенцев лучше прог- нозируют последующее раз- витие при условии, что их ин- терпретация основывается насопутствующих клинических наблюдениях (A.F. Donofrio, 1965; S.K. Esca-lona, 1950; H. Knobloch, В. Pasamanick, 1960). Предсказания также улуч-шаются, если учитывается выявляемая повторным тестированием направ-ленность .развития. Такой способ был впервые предложен А. Гезелломв его графиках развития. Во-вторых, некоторые исследователи установили, что прогностичес-кая валидность тестов для младенцев с отклонениями в развитии вышепо сравнению с популяцией нормальных младенцев. Значимые коэффи-циенты корреляции порядка 0,60 и 0,70 получены для детей, чьи ис-ходные IQ были ниже 80, а также в группах с явными или предпола-гаемыми неврологическими отклонениями (H. Ireton, Е. Thwing,H.Gravern, 1970; H. Knobloch, В. Pasamanick, 1963, 1966, 1967; Е.-Е. Werner, М.Р. HonziR, R.S. Smith, 1968). Тесты для младенцев, по-види-мому, наиболее пригодны как методы диагностики дефектов развития.При отсутствии органической патологии развитие ребенка во многом за-висит от воспитывающего его окружения, а такое окружение вряд липредсказуемо. В сущности, уровень образования родителей и другие осо-бенности домашней обстановки лучше предсказывают последующееIQ, чем показатели теста для младенцев, но после 18 мес их прогности-ческие возможности заметно улучшаются, если при этом учитываетсясоциоэкономический уровень семьи (N. Bayley, 1955; R.B. McCall et al.,1972; S.R. Pinneau, 1961; E.E. Werner, М.Р. Honzik, 1968). Природа интеллекта в раннем детстве. Некоторые исследова-тели пришли к выводу, что несмотря на отсутствие для выборок нор-мальных детей прогностической валидности, тесты интеллекта младен-цев являются валидными показателями уже развившихся когнитивныхспособностей ребенка (N. Bayley, 1970; L.H.Stoff, R.S. Ball, 1965;H. Thomas, 1970). Согласно этой точке зрения, основная причина отрица-тельных корреляций между тестами для младенцев и последующим вы-полнением-в изменении с возрастом характера и структуры интеллекта.Интеллект младенца качественно отличается от интеллекта школьникаи складывается из разных сочетаний способностей. " г.птппп пгттясуется с предлагаемой некоторыми психологами296 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯчении и профессиональной деятельности, так же как и в других сферахсвоего развития, индивид сталкивается с проблемами и предъявляемымик его поведению требованиями. Хотя как сами проблемы, так и реакцияна них в какой-то мере зависят от культур и субкультур, в которых фор-мируется индивид, требования, предъявляемые к поведению индивидатой или иной культурной средой, можно установить довольно точно.Для каждого возрастного этапа характерны определенные предъявляемыек индивиду требования. Овладение умением решать развивающие задачина ранних этапах сказывается на умении индивида справиться с тре-бованиями, которые будут ему предъявлены на следующем этаперазвития. В более узкой области когнитивного развития уровни Ж. Пиажепозволяют изучить природу изменений интеллекта. Р. Маккол и его кол-леги из Исследовательского института Фелса (R.B. McCall et а1" 1972)провели исследование взаимосвязей поведения младенца на основе подхо-да Ж. Пиаже. Проводя довольно тонкий статистический анализ взаимо-корреляций одних и тех же и разных навыков, как свойственных толькоодному какому-то возрасту, так и свойственных всем возрастам, иссле-дователи выявляли в поведении младенца приметы его последующегоразвития. Хотя результаты носят предварительный и лишь вероят-ностный характер, авторы приводят описания основного компонента ин-теллекта ребенка для каждых 6 мес первых двух лет его жизни. Эти опи-сания чем-то похожи на Ж. Пиаже. Основ-ные тенденции развития, свойственные 6, 12, 18и 24 мес, суммируютсясоответственно следующим образом: 1) манипуляции, производимыевследствие случайных перцептивных реакций; 2) подражание сложномудвигательному и социально-звуко-вербальному поведению; 3) понима-ние слов и называние предметов; 4) последующее развитие словесно-го аппарата, в том числе беглая речь и ее грамматическая правиль-ность. Независимо от теоретических вомижиистси иидиниучых гипотез, изисследования Р. Маккола и его коллег следует один несомненный вывод,что качественные сдвиги в преобладающем в разных возрастах поведе-нии не позволяют принять концепцию о общейинтеллектуальной способности (R.B. McCall et а1" 1972, р. 746). Кэтому же выводу пришел и М. Льюис (М. Lewis, 1973). Используя ре-зультаты собственного исследования и уже опубликованных работ,М. Льюис описывает выполнение интеллектуальных тестов младенцамикак нестабильное и неединообразное. Отрицательные корреляции можноустановить даже при интервалах между тестированиями меньше 3 мес;корреляции с выполнением одной и той же или разных шкал в возрастедвух лет и старше обычно статистически незначимы. Более того,столь же незначительные корреляции свойственны выполнению ребен-ком в одном и том же возрасте разных шкал. Результаты были полу-чены как с помощью стандартизированных методов типа шкал развитиямладенца Бейли, так и с помощью порядковых шкал типа шкал Пиаже(A.W.Gottfried, N.Brody, 1975; W.L. King, B.Seegmiller, 1971; M.Lewis,H. Me Gurk, 1972). Вместо традиционной модели М. Льюис выдвигает интеракционистскую точ-" ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАло 70-х гг. принесли определенное разочарование и заметное замеша-тельство в отношении целей, методов и эффективности коррекционныхучебных программ для дошкольников типа программы опережающегообучения. Предназначенные главным образом для повышения общейподготовки культурно неразвитых детей, эти программы достаточно раз-нообразны и в своих методах и результатах. В основном это были со-зданные на скорую руку и без ясного понимания поставленных целейпроекты, и только немногие из них привели к заметному улучшениюв подготовке культурно неразвитых детей, но эти улучшения часто носи-ли ограниченный и кратковременный характер (J.C. Stanley, 1972). В такой обстановке Отдел развития ребенка департамента здравоох-ранения, образования и социального обеспечения США провел совеща-ние комиссии экспертов с тем, чтобы попытаться уяснить, что означаетпонятие применительно к раннему детству(S. В. Anderson, S. Messick, 1974). Комиссия пришла к соглашению отно-сительно того, что социальная компетентность содержит в себе нечтобольшее, чем традиционное понятие общего интеллекта. После обсужде-ния разнообразных подходов и нескольких трудных теоретических во-просов комиссией был составлен список 29 компонентов социальнойкомпетентности, который может служить основой для определения задачкоррекционных программ. В этот список помимо когнитивных вошлиэмоциональные, мотивационные факторы, а также факторы, связанныес особенностями отношения индивида к внешнему миру. Сами компо-ненты были расположены в порядке усложнения от простого чувствасамосохранения и дифференцированного представления о себе до вер-бальных и количественных представлений, креативного мышления, чув-ства юмора, умения играть и фантазировать. Для оценки этих компонен-тов требуется не только большое разнообразие тестов, но и другиеметоды измерения, такие, как субъективные оценки, записи данныхи прямые наблюдения. Немногие из коррекционных программ, если во-обще такие возможны, могут отвечать всем задачам сразу, поэтому от-бор этих задач должен делаться в достаточно продуманной форме и от-ражаться не только на методике коррекционной программы, но и на ееоценке. На важность оценки эффективности коррекционной программыс точки зрения конкретных навыков (когнитивных или некогнитивных),улучшить которые предназначена программа, указывал М. Льюис(М. Lewis, 1973). В соответствии со своими представлениями о специфич-ности развития поведения в раннем детстве М. Льюис обращает вни-мание на важность измерения конкретных навыков, а не на использова-ние IQ или других общих показателей развития. Не следует рассчиты-вать на то, что тренировка сенсомоторных функций улучшит вербальныенавыки. Уровень развития представления о постоянстве объекта нужнооценивать с помощью теста на постоянство объекта и т.д. Кроме того,содержание коррекционных программ должно быть таким, чтобы отве-чать потребностям конкретного ребенка, определяемым достигнутым имуровнем в развитии специфических навыков. И. Сигель (1. Е. Sigel, 1973) дает глубокий анализ дошкольных про-грамм с точки зрения имеющихся знаний о развитии ребенка и методахего обучения. В соответствии с этим он рекомендует для оценки степениразвития навыков, достигнутой с помощью программ обучения, исполь- —""" " "" """п, r>f;iTTOft показатели, как298ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯIQ. Он подчеркивает важность процесса изменения соотношения разныхфункций и характера развития, описываемого, например, в подходеЖ. Пиаже. Он также считает необходимым пересмотреть цели обученияв раннем детстве, выразив их в более конкретных понятиях.Рис. 47. Возрастное снижение шкалирован-ных показателей WAtS (J. Е. Doppelt,W. L. Wallace, 1955, р. 323)ПРОБЛЕМЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА ВЗРОСЛОГОВозрастное снижение показателей теста интеллекта. Отличи-тельной чертой векслеровской шкалы измерения интеллекта взрослых(WAIS, гл. 9) было использование заниженных норм для подсчета стан-дартных IQ. Напомним, что первичные показатели субтестов WAIS сна-чала преобразуются в стандартные показатели М = 10 и ст = 3, затем пре-образованные показатели соотносятся с показателями референтной груп-пы из 500 человек в возрасте от 20 до 34 лет, входящих в выборкустандартизации шкалы. Сумма шкалированных показателей по 11 субтес-там используется для нахождения стандартного IQ в соответствующейтаблице возрастов. Впрочем, если просто брать суммы шкальных оценок,то можно сравнить выполнение тестов разными возрастными группамив виде единой непрерывной шкалы. На рис. 47 показываются средниезначения (М) таких суммарных шкальных показателей для возраст-ных уровней, включенных в национальную выборку стандартизации,и для более ограниченной выборки людей пожилого возраста, состоя-щей из 475 человек в возрасте от 60 лет и старше (J.E. Doppelt,W.L. Wallace, 1955). Как видно из рисунка, показатели достигают пика в возрасте от 20 до 34 лет, а потом медленно снижа- ются до возраста 60 лет. После 60 лет IQ резко падает. Стандартное IQ на- ходят соотнесением суммарного шка- лированного показателя индивида с нормой его возрастной группы. Та- ким образом,, если индивид проявля- ет возрастное снижение выполнения теста, соответствующее возрастному снижению в нормативной выборке, его IQ будет оставаться постоянным. Такой подход строится на допуще- нии, что нормой для тестируемой способности индивида является ее снижение с возраста чуть старше 30 лет. Два факта из данных стандарти- зации шкалы Векслера имект отно- шение к интерпретации возрастных изменений. Во-первых, поскольку вы- борка стандартизации является нор- мативной выборкой, в ней должны быть отражены качества всех возра- стных групп населения (A. Anastasi, 1956). Вследствие роста образова- тельного уровня населения в целом группы более старшего возраста в299 ПСИХОЛОГИЧЕСКИЕ вопросы ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАкаждый момент времени будут находиться по сравнению с группами моло-дых людей на более низком уровне образования. Эти различия по уровнюобразования ясно отражены в выборке стандартизации WAIS, в котороймаксимум лет обучения в учебных заведениях приходится на возрастнойуровень 20-34 лет, а образовательный уровень постоянно снижается дляболее старших возрастных групп. Эти возрастные различия в количествеобразования неизбежны, если выборка стандартизации репрезентативнанаселению страны в момент, когда устанавливались нормы. Тем самымразличия в образовании усложняют интерпретацию наблюдаемого сниже-ния показателей: более старшие возрастные группы из выборки стандарти-зации могут хуже выполнить данный тест не потому, что они старше, а по-тому, что они менее образованы по сравнению с более молодыми группа-ми. Во-вторых, из сравнения WAIS с тестом Векслера — Бельвью, стан-дартизированного примерно 15 годами раньше, видно, что в выборкестандартизации теста Векслера-Бельвью улучшение показателей прекра-щается в более раннем по сравнению с выборкой WAIS возрасте, со-ответственно раньше начинается и снижение. Проверкой распределенияобразования в двух выборках было установлено, что изменения воз-растных кривых идут параллельно изменениям в образовании, проис-шедшим за это эремя в стране. Участники выборки стандартизацииWAIS в среднем образованнее представителей соответствующей возраст-ной группы из выборки Векслера-Бельвью, так как последние обучались15 годами ранее. Результаты, полученные на выборке стандартизации шкал Векслера,типичны для всех исследований возрастных изменений интеллектавзрослых. Сравнения по поперечным срезам, когда люди разных возра-стов исследуются в одно и то же время, вероятно, должны давать кажу-щееся возрастное снижение, поскольку изменения в культурном уровнесовмещаются с возрастным фактором. Количество официально получен-ного образования лишь одна из многих переменных, по которым могутразличаться возрастные группы. Другие культурные изменения связаныс тем, что произошло в нашем обществе в течение второй половины на-шего века; эти изменения делают жизненный опыт 20-летних и 70-летнихсовершенно несравнимым. Несомненно, что изменения в средствах ком-муникации, таких, как радио и телевидение, и в легкости передвижениянамного увеличивают уровень осведомленности, сказывающийся на раз-витии индивида. Улучшение питания и медицинской помощи косвеннотакже может влиять на развитие поведения индивида. Лонгитюдные исследования, основанные на повторном тестирова-нии одних и тех же людей в период от 5 до 40 лет, в большинстве слу-чаев выявили противоположную тенденцию: с возрастом показатели уве-личивались. Часть этих исследований проводилась с группами высокоин-теллектуальных людей, таких, как выпускники колледжей или индивиды,получившие высокий IQ (N.Bayley, M.H.Oden, 1955; R.B.Burns, 1966;D.P. Campbell, 1965; J.D. Nisbet, 1957; W.A. Owens, 1953; 1966). По этойпричине некоторые из писавших утверждали, что подобные результатыможно отнести только к людям с высоким интеллектуальным или обра-зовательным уровнем и они неприменимы ко всей популяции. Однакосходные данные были получены и в лонгитюдных исследованиях обыч-ных людей (D.C.Charles, S.T.James, 1964; C.Eisdorfer, 1963; —- — i —Л7:-. in-iA. о т тл>т T Rhimftnkrantz.300 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯW.R.Wilkin, 1968) и умственно отсталых взрослых (W.R. Bailer,D.C. Charles, E.L. Miller, 1967; A. Bell, J. Zubek, 1960; D.C. Charles, 1953). Ни исследования по поперечным срезам, ни лонгитюдные исследова-ния сами по себе не позволяют делать окончательные выводы относи-тельно наблюдаемых возрастных изменений. Блестящий анализ методо-логических трудностей каждого из подходов с разбором идеальногоэксперимента дается в ряде публикаций (P.B.Baltes, 1968; A. R. Buss,1973; A.D. Damon, 1965; L.R. Goulet, P.B. Baltes, 1970; R.G. Kuhlen, 1963;J.R. Nesselroade, H.W. Reese, 1973; K.W. Schaie, 1965). По существу, длятого чтобы исключить влияние культурных изменений, нужно совме-стить лонгитюдный подход с исследованием по поперечным срезам.С одной стороны, возрастные различия в уровне образования могут при-вести к фиктивному возрастному снижению выполнения тестов в иссле-дованиях по поперечным срезам, а с другой-по мере того как индивидстановится старше, он сам подвергается действию культурных измене-ний, могущих улучшить выполнение им интеллектуальных тестов. В некоторых работах приводятся данные, позволяющие осуществитьпо крайней мере частичный анализ факторов, влияющих на возрастноеизменение выполнения теста. В. Оуэнс (W.A. Owens, 1966) через 40 летпровел повторное тестирование бывших первокурсников университеташтата Айова, а Д. Кэмпбелл (D. P. Campbell, 1965) через 25 лет сделал тоже самое с бывшими первокурсниками университета штата Миннесота.Кроме того, он протестировал учившихся в это время первокурсниковсоответствующих колледжей. Эти исследования позволили сравнить помногим параметрам результаты двух групп, тестированных в одноми том же возрасте с интервалом в 25 и 40 лет, и выполнение теста груп-пами, тестированными в разные моменты времени. В обеих работах со-общается, что повторно тестировавшиеся группы улучшили свои резуль-таты по сравнению с более ранним выполнением теста, но ихвыполнение примерно равнялось выполнению теста более молодой груп-пой, впервые тестированной в более позднее время. Эти результаты оз-начали, что культурные изменения и другие факторы гораздо сильнее,чем возраст сам по себе, влияют на повышение и снижение показателей,полученных с помощью в чем-то ограниченных экспериментов. Еще одно особенно продуманное исследование также было построе-но на объединении двух методов (K.W. Schaie, C.R. Strother, 1968). Спе-циально подобранную батарею тестов предъявили случайной выборкеиз 500 человек. Популяция, из которой была взята эта выборка, состоялапримерно из 18000 обладателей медицинских страховок и была доста-точно репрезентативной для населения больших городов США. Выборкавключала по 25 мужчин и 25 женщин для каждого возрастного уровняот 20 до 70 лет с интервалом в 5 лет. 7 лет спустя испытуемым, чье ме-сто жительства удалось установить (их оказалось 302 человека), сновапредъявили те же тесты. Эта выборка была пропорциональна первона-чальной в возрастном отношении по количеству представленных в неймужчин и женщин и социоэкономическому уровню. Построение этого исследования позволило осуществить два типасравнений: 1) сравнение по поперечным срезам разных возрастных групп Тест элементарных умственных способностей Американской ассоциации научныхисследований и тест на устойчивость поведения Шайе.301ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА25 30 35 40 45 SO 65 60 ВозрастВозрэстные изменения по тесту на пространство25 30 35 40 45 50 55 60 65 70 ВозрастВозрастные изменения по тесту на мышление 60Возрастные изменения по числовому тесту25 30 35 40 45 50 55 60,65 Возраст30354045505560 ВозрастРис. 48. Различия в интеллекте вэрослых, выявленные методом поперечных срезов ипонгитюдным исследованием (К. W. Schoie, С. R. Strother, 1968, р. 675, 676).С рсмрешения Американской психологической ассоциацииот 20 до 70 лет, тестированных в одно и то же время, 2) лонгитюдноесравнение испытуемых из тех же самых групп, повторно тестированныхспустя 7 лет. Результаты сравнений по поперечным срезам дали по всемтестам значимые различия между поколениями. Другими словами, ро-дившиеся и воспитывавшиеся в более позднее время выполняли тестылучше, чем те, кто родился и воспитывался раньше. Вместе с тем лонги-тюдные сравнения выявили, что средние показатели индивидов при по-вторном тестировании или возрастают, или остаются неизменными. За-метное исключение составляли два высокоскоростных теста, выполнениекоторых после 7-летнего интервала было значительно хуже. Разрица в результатах, полученных методом поперечных срезови лонгитюдным методом, хорошо видна на рис.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
48, иллюстрирующемтенденции изменения показателей по 4 тестам. Сходные данные былиполучены при дополнительном тестировании через 7 лет 161 участникапервого тестирования (K.W. Schaie, G. Labouvie-Vief, 1974) и подтверди-лись в исследовании, построенном на совсем иных методических принци-пах: в 1956, 1963 и 1973 гг. тестировали три независимые разновоз-растные выборки из одной популяции (K.W. Schaie, G.V. Labouvie,В. U.Buech, 1973). В общем, результаты правильно проведенных исследований интел-лекта взрослых наводят на мысль о том, что его снижение, формально " Эти тесты по своему содержанию весьма похожи на тесты интеллекта. Из 4 приве—" ->""в только тест на мышление дал незначимую (р и связан с использованием вербальных и счетных способ-ностей, по-видимому, должны с годами сохранять или даже улучшатьсвои показатели по интеллектуальным тестам, в то время как v люпся303ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАв чьих профессиях преобладают механические действия или межлич-ностные контакты, такие показатели могут с годами ухудшаться. Пред-варительные данные, подтверждающие эту гипотезу, приводит М. Уиль-яме (М. Williams, 1960), сравнивший выполнение 100 индивидамив возрасте от 65 до 90 с лишним лет серии вербальных и невербальныхтестов. Такое сравнение выявило поразительное соответствие между про-фессией индивида и его относительным выполнением двух.. типов задач.При лонгитюдном изучении взрослых также была установлена далеко неслучайная взаимосвязь между изменениями суммарного IQ и некоторы-ми видами биографических опросников (D.C.Charles, S.T.James, 1964;W.A. Owens, 1966). Время и среда, предъявляя к деятельности человека те или иные тре-бования, благоприятствуют развитию вполне конкретных навыков. Напротяжении жизни эти требования меняются, и их характер различен длядошкольников, школьников, взрослых разных специальностей и удалив-шихся от дел стариков. Интересной иллюстрацией последствий этогофакта в тестировании интеллекта является исследование Дж. Деммингаи С. Пресси (J. A. Demming, S. L. Pressey, 1957), проанализировавших ти-пичные профессиональные обязанности взрослых людей. В анализ вклю-чались обзор читаемого материала, ежедневно осуществляемая деятель-ность и типы решаемых проблем. На основе данных анализа исследова-тели подготовили предварительные варианты 20 тестов для старшихвозрастов. В тестах основной акцент делался на объеме практической ин-формации, особенностях суждений и социального восприятия. Резуль-таты трех из этих тестов, проведенных вместе со стандартными вер-бальными и невербальными тестами на выборках разных возрастныхуровней, показали, что в новых тестах лица более старшего возрастапревосходили более молодых, а для традиционных тестов сохранялосьобратное соотношение. Все эти типы исследований подтверждают, чтоувеличение или снижение тестовых показателей взрослого во многом за-висит от того, какой опыт приобрел индивид за эти годы, и от взаимо-связи между этим опытом и функциями, испытываемыми с помощьютестов.ПРОБЛЕМЫ ТЕСТИРОВАНИЯ МЕЖКУЛЬТУРНЫХ РАЗЛИЧИЙПроблемы применения тестов к представителям различных культур ужеобсуждались в прешествующих главах этой книги. В гл. 3 затрагивалисьсоциальные и этические последствия такого тестирования, особенно дляменьшинств, погруженных в более общую национальную культуру. Ме-тодические проблемы, связанные с систематической ошибкой теста,и взаимодействие заданий, ориентированных на национальные особенно-сти, анализировались в гл. 7 и 8. В гл. 10 рассматривались типичныетесты, предназначенные для выявления межкультурных различий. Нижечитатель познакомится с основными теоретическими вопросами влияниякультуры на поведение и связи этого влияния с интерпретацией резуль-татов интеллектуальных тестов. Уровни культурных различий. Культурные различия могутсказываться на групповых достаточно многими способами. Уровень, накотором проявляются влияния культуры, варьирует от поверхностногон ппйупляшего до существенного, постоянного и Длительного. Как с тео-304 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯуровню можно отнести наблюдаемое поведенческое отличие. С однойстороны, культурные различия могут повлиять только на ответы почастному тесту и тем самым уменьшить его валидность для некоторыхГрупп испытуемых. Несомненно, задания теста теряют свою прогности-ческую ценность, если применяются к лицам, не знакомым с конкретны-ми, используемыми в тесте объектами или с другими относительно три-виальными сведениями. С другой стороны, большинство культурных .факторов, влияющихна ответы по тестам, вероятно, должны воздействовать на более обшир-ную область поведения, чем та, которая проявляется при выполнении те-ста. Например, в англоязычной культуре недостаточное владение англий-ским языком может мешать ребенку не только при выполнении тестаинтеллекта, но и в его учебе, контактах с товарищами, игровой деятель-ности и других ситуациях повседневной жизни. Между тем дефекты та-кого рода легко исправить. При соответствующих занятиях языком ин-дивид может овладеть им на нужном уровне в сравнительно короткийпериод. Пример с языком был выбран в силу предельной очевидностив этом случае некоторых моментов: 1) язык, несомненно, не есть наслед-ственный фактор; 2) его нельзя переделать; 3) его незнание может серь-езно сказаться на выполнении теста; 4) он будет влиять на учебную, про-фессиональную и социальную деятельность индивида. Среди культурныхразличий такого типа можно назвать и много других. Часть из них отно-сится к когнитивным различиям, таким, как неумение читать или неэф-фективная стратегия решения абстрактных проблем; другие относятсяк мотивационным различиям или различиям в установках, например: от-сутствие интереса к интелектуальным занятиям, враждебное отношениек авторитетам, слабое стремление к достижениям или неразвитые пред-ставления о себе.Все эти факторы можно улучшить многими способами,от простого обучения грамоте до консультирования у специалиста и кур-са психотерапии, но они, по-видимому, должны влиять как на выполне-ние теста, так и на обычную деятельность ребенка и взрослого. Занимаясь проблемой культурных различий, следует не забывать,что чем длительнее действовал в жизни индивида какой-либо факторокружающей среды, тем труднее устранить его последствия. Условия,определяемые окружающей средой, не всегда можно исправить. Дей-ствующие в течение многих лет неблагоприятные жизненные факторымогут нанести непоправимый ущерб интеллектуальному и эмоциональ-ному развитию индивида. Поэтому важно помнить что постоянство илинеустранимость психологических факторов не есть доказательство их на-следственного происхождения. Пример культурных различий, оказывающих постоянное влияние наповедение индивида, дает изучение осложнений при беременности и ро-дах (Н. Knobloch, B.Pasamanick, 1966; В. Pasamanick, Н. Rnobloch, 1966).Серией работ на больших выборках черных и белых женщин было уста-новлено, что нарушения во время беременности и родов значимо свя-заны с умственной отсталостью и расстройствами поведения ребенка.Важным источником таких нарушений при вынашивании и рождениимладенца является плохое питание матери и другие факторы, опреде-ляемые низким социоэкономическим уровнем жизни. Анализ данных вы-явил заметно большую частоту осложнений медицинского характерау лиц более низкого социэкономичесп-пгг. "— —305 ПСИХ0.110ГИЧЕСК-ИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАвысоким и у черных женщин по сравнению с белыми. В таком случае мыимеем дело с культурными различиями, приводящими к органическимнарушениям, которые, в свою очередь, могут проявиться в нарушенияхповедения. Последствия культурных различий такого типа невозможнополностью исключить в течение жизни одного индивида, здесь потребныусилия не одного поколения. И опять-таки следует напомнить, чтоподобная ситуация не указывает на наличие наследственного дефектаи не является подтверждением невозможности улучшить социальныефакторы, являющиеся ее причиной. Культурные различия и помехи. Когда психологи в первой че-тверти XX в. начали разрабатывать методику тестирования межкуль-турных различий, они надеялись на то, что, по крайней мере теоретиче-ски, можно будет измерить наследственный интеллектуальный потен-циал, не зависящий от влияния культурного окружения. Поведениеиндивида представлялось лишь покрытым внешним налетом культуры,проникнуть сквозь который предполагалось с помощью свободных отвлияния культуры тестов. Последующее развитие генетики и психологиипоказало ошибочность этого взгляда. Теперь мы понимаем, что наслед-ственные факторы окружающей среды взаимодействуют на всех стадияхразвития организма и что их совместное влияние сложно переплетенов фактическом поведении индивида. Культурой пропитаны почти всеконтакты человека со средой. А поскольку всякое поведение подверженовлиянию культурной среды, в которой индивид воспитывается, и психо-логические тесты есть не больше чем выборка поведения, культурныевлияния будут и должны сказываться на выполнении теста. Тщетно по-этому пытаться разработать тест, свободный от влияния культуры. Ре-альной целью тестирования межкультурных различий скорее являетсясоздание тестов, основанных на общем для разных культур опыте. Вотпочему такие понятия, как , и , сменяют термин . Ни один тест не может быть одинаково применимым или равно для всех культур. Так ке как существует множество ва-риантов тестов, пригодных для разных культур, существуют и пара-метры, по которым различают культуры. Тест, не предполагающий уме-ния читать, оказывается пригодным для разных культур в однойситуации, неязыковый-в другой, тест действия-в третьей, а перевод вер-бального теста на чужой язык-в четвертой. Варианты применяющихсямежкультурных различий являются не взаимозаменяемыми, а используются для разного типа межкультурных сравнений. Более того, маловероятно, что какой-либо тест может быть одинаково для более чем одной культуры, особенно еслкультуры совершенно несхожи. Уменьшая влияние культурных различитна выполнение теста, тестирование межкультурных различий не уничтсжает эти различия. Каждый тест ставит в более благоприятные условпредставителей той культуры, в которой он создавался. Простое исполузование бумаги и карандаша или наличие в тесте задач с абстрактныепонятиями, не имеющими непосредственного практического значенибудут благоприятствовать одним культурным группам и мешать другиеЭмоциональные и мотивационные факторы также, влияют на выполиние теста. Среди множества условий, различных для разных культу — """тачнмй интерес к самому содержанию теста, вз306 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯмоотношения с экспериментатором, стремление хорошо выполнить тест,желание превзойти других и сложившиеся привычки в решении проблеминдивидуально или совместно с другими. При тестировании детей изсреды с низким социоэкономическим уровнем некоторые исследователизаметили, что испытуемые, торопясь скорее выполнить тест, дают от-веты почти наугад и заканчивают его раньше положенного времени(К. Eellset а1., 1951). Та же самая реакция наблюдалась среди живущихв Нью-Йорке и на Гавайях пуэрториканских школьников (A. Anastasi,F.A.Cordova, 1953; S. Smith, 1942). Такая реакция может быть след-ствием отсутствия интереса к относительно абстрактному содержаниютеста и предчувствия незначительных результатов в задачах, напоминаю-щих школьные. Торопясь выполнить тест, ребенок стремится избавитьсяот дискомфорта, в котором оказался. Каждая культура и субкультура стимулируют и поощряют опреде-ленные способности и способы поведения и подавляют другие. Поэтомувполне вероятно, что тесты, разработанные в культуре американскогобольшинства, люди, воспитанные в этой культуре, будут выполнять, какправило, лучше других. Если тест методически построен точно так же,но в культуре, заметно отличной от американской, то с точки зрениянорм этого теста его выполнение американцами, по-видимому, будет не-достаточным. В этом случае сравнение разных культур мало что дает.Имеющиеся данные позволяют предположить, что представители однойкультуры могут настолько же не преуспеть в тестах, созданных в другойкультуре, насколько представители последней не преуспеют в тестах пер-вой (A. Anastasi, 1958, р. 566-568). Культурные различия становятся куль-турными помехами, когда индивид покидает ту культуру или субкульту-ру, в которой воспитывался, и пытается действовать, конкурироватьи добиваться успеха в другой культуре. Но в более широком смысле свя-зи и взаимообмен между культурами стимулируют развитие цивилиза-ции в целом. Культурная изоляция, хотя в чем-то более комфортна дляиндивидов, ведет к застою в развитии общества. Язык при межкультурном тестировании. Содержание боль-шинства тестов межкультурных различий носит невербальный характери используется в надежде получить менее зависимый от влияния куль-туры способ измерения интеллектуальных функций, для которых пред-назначаются вербальные тесты интеллекта. Допущения, лежащие в осно-ве этого подхода, весьма сомнительны. Во-первых, трудно предполо-жить, что невербальные тесты измеряют те же функции, что и вер-бальные, даже если эти тесты кажутся очень похожими. Тест простран-ственных аналогий-это не. просто невербальный вариант теста сло-весных аналогий. Некоторые из первых неязыковых тестов, таких, какармейский бета, были сильно перегружены заданиями на зрительное во-сприятие пространства и другими перцептивными способностями, совер-шенно не связанными с вербальными и счетными способностями. Дажев тестах типа прогрессивных матриц, предназначенных для выявленияпонимания и владения абстрактными понятиями, факторный анализ об-наружил сильное влияние в дисперсии тестовых показателей невер-бальных факторов (R. S. Das, 1963). Полученные в различных исследованиях данные подтверждают, что ~~"Ї "-""-ги могут более зависеть от культуры, чем тесты язы- ~ "~""" "ппвепенное во мно-307 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАбальных тестов, чем вербальных (A.Anastasi, 1961; S.H. Irvine, 1969я;A.R.Jensen, 1968; G.Ortar, 1963, 1972;P.E.Vemon, 1965). При анализепроблемы Г. Ортар (G. Ortar, 1963, р. 232-233) писал: и адаптации теста действия. действия являет-ся задаваемое культурой восприятие, но его слова, грамматика и синтаксис вряд ли пол-ностью осознаются, не говоря уж о национальных особенностях. Неизвестно, как картину на язык представлений другой, отличной культуры, но достаточно яснытехника и требования перевода вербального содержания… Понятие, не существующеев каком-то языке, просто на этот язык не может быть переведено, и этот фактор дей-ствует как защитный механизм против формального использования данной методики приее адаптации к иной культуре>. В качестве примера Г. Ортар ссылается на одно наблюдение, когдадетям восточных иммигрантов предъявляли изображение головы, на ко-торой недоставало рта. Они говорили, что недостает тела. Незнакомыес обычаем рассматривать рисунок головы как законченную картину, этидети считали отсутствие тела более важным недостатком, чем отсутствиетакой части головы, как рот. По многим причинам задание на упорядо-чение названий времен года более пригодно для теста межкультурныхразличий, чем задание на упорядочение картинок с изображениями вре-мен года. Времена года в разных странах по географическим причинамразные, и вполне вероятно, что в разных странах им соответствуют раз-ные изобразительные символы, которые могут быть неизвестны предста-вителям другой культуры. Изобразительные средства сами по себе могут оказаться неприме-нимыми в культурах, которым не свойственно такое явление, как рису-нок. Двумерное воспроизведение объекта не есть буквальное повторениеоригинала, в нем только даются определенные признаки, по которым,вследствие прошлого опыта, узнается объект. Если такие признаки све-дены к минимуму, как в упрощенном или схематическом рисунке, то приотсутствии необходимого опыта правильное восприятие может и не по-следовать. Накопленные к настоящему времени данные указывают на за-метные различия в восприятии рисунков представителями разных куль-тур (R.J. Miller, 1973; М.Н. Segall, D.T. Campbell, M.J. Herskovits, 1966). Согласно другим взглядам, невербальные тесты часто предполагаютвладение сравнительно абстрактными мыслительными процессамии аналитическими когнитивными способами на уровне среднего классазападных культур (R.A. Cohen, 1969). Людям, выросшим в иной культу-ре, такие способы решения проблемы могут быть незнакомы. Следует добавить, что невербальные тесты не лучшее средство ив тестировании национальных меньшинств и лиц с низким социоэконо-мическим уровнем, живущих в США. Например, черные дети обычносчитают тесты действия WISC трудными или более трудными, чем вер-бальные тесты; то же можно сказать и про детей из семей с низким со-циоэкономическим уровнем (M.B.Caldwell, Т. A. Smith, 1968; S. Cole,M. Hunter, 1971; B.Goffeney, N.B.Henderson, B.V.Batler, 1971;R.B. Hugher, K. Lessler, 1965; J.E. Teahan, E.M. Drews, 1962). Те же самые~———~-. nrv -гпттАптт TTJTT ITAJ ТТТ1Г1-308 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯтельный к влиянию культур интеллектуальный тест Кеттелла (L. S. Willa-rd, 1968). Конечно, методические трудности в проведении вербального тестав культурах, говорящих на одном языке, отсутствуют, но когда языкиразличны, тест нуждается в переводе, и здесь возникают проблемы срав-нимости норм и эквивалентности его показателей. Следует также отме-тить, что простого перевода редко бывает достаточно. Обычно требуетсянекоторая адаптация и проверка содержания. В этой связи вызывает ин-терес методика уравнивания шкал теста способности к обучению (SAT)и его испанского варианта РАА (W.H. Angoff, С. С. Modu, 1973). РАА вначале разрабатывался для частного использования в Пуэрто-Рико, но впоследствии был принят в американских университетах какодин из вспомогательных методов при принятии в них испаноязычныхстудентов. С этой целью для уравнивания шкал SATvi РАА были прове-дены исследования, остроумная методика которых применима в разныхситуациях, требующих тестирования на многих языках. В основном процедура состоит из двух этапов. На первом-основнаясерия общих заданий, одинаково пригодная для обеих групп студентов,предъявлялась на английском языке студентам, говорящим по-англий-ски, и на испанском-студентам, говорящим по-испански. Данные по вы-полнению заданий обеими группами позволили оценить уровень трудно-сти (А) и разрешающую силу (г с суммарным показателем теста)каждого задания. Из окончательной серии общих для обоих языков зада-ний исключались задания, выполнение которых существенно зависело оттипа группы (см. гл. 8). Такие задания содержали систематическуюошибку и, по-видимому, для обеих групп имели психологически разноезначение. Окончательная серия состояла из эталонных заданий, имевшихприблизительно одинаковую относительную трудность для выборки сту-дентов, говоривших по-английски и по-испански, и удовлетворяла за-данным уровню трудности и разрешающей силе. На втором этапе отобранные эталонные задания включались дляпостоянного применения SAT я РАА, а показатели по ним использова-лись как основа для преобразования всех тестовых показателей в единуюшкалу. Методика уравнивания была той же самой, что и обычное пре-образование показателей последовательных форм SAT в единую шкалу.ПРИРОДА ИНТЕЛЛЕКТА Значение IQ. В широких слоях общества IQ не рассматривается как определепнын тип показателя по конкретному тесту, а нередко отождест- вляя ся с ншеллектом. Такое представление настолько распространи- лось, 410 ei о нельзя больше игнорировать или относиться к нему как к обычной ошибке. Несомненно, рассматривая количественное значение.данного IQ, следует всегда иметь в виду тест, в котором этот показатель получен. Те или иные тесты интеллекта, показателем которых и является IQ, различаю гся и своим содержанием, и иными параметрами, влияющи- ми на интерпретацию этого показателя. Некоторые из этих различий в тестах, опьединяемых названием , обсуждались в примерах, рассмотренных в предыдущих главах. Тем не менее необхо- димо вновь рассмотреть, что же из понятия можно отнести~ — —— м тlтт"rйrттTf>lrГf>309 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАфорд-Бине, много лет бывшей единственным средством для тщательно-го измерения интеллекта и часто использовавшейся в качестве критерияпри валидации новых тестов.Во-первых, интеллект следует рассматривать скорее как описательное,чем как объяснительное понятие. IQ есть форма выражения уровня спо-собностей индивида в данный момент времени по отношению к его воз-растным нормам. Ни один тест интеллекта не может указать причинытого или иного его выполнения. Отнесение неадекватного выполнениятеста или обычной деятельности за счет есть тавтология, которая не только не помогает понять затруднений ин-дивида, но фактически может и затормозить поиски причин этих трудно-стей в прошлом человека. Любые тесты, в том числе и интеллектуальные, следует использо-вать не для навешивания ярлыков, а для понимания самого индивида.Чтобы помочь человеку функционировать на максимальном для негоуровне, следует начать с выяснения уровня, на котором он уже находит-ся, а для этого необходимо оценить сильные и слабые стороны еголичности и выработать соответствующий способ действий. Если тест начтение показывает, что ребенок отстает в этом виде деятельности, мыне ограничиваемся фиксацией этого факта и не даем ему, чтобы изба-вить от затруднений, невербальный тест. Вместо этого мы стараемсяобучить его чтению. Важной целью современного тестирования является содействие са-мопознанию и развитию личности. Данные тестирования все большеиспользуются для того, чтобы помочь индивидам лучше организоватьсвое образование и профессиональную деятельность, а также научитьсяпринимать решения, непосредственно касающиеся их жизни. Внимание,уделяемое эффективным способам сообщения тестовых результатов ис-пытуемому, свидетельствует о растущем признании такого применениятестов. Во-вторых, и это более важно, не следует забывать, что интеллектне есть единая и однообразная способность, он складывается из не-скольких функций. Этим термином обычно обозначается комплекс спо-собностей, необходимых для выживания и достижения успехов в опре-деленной культуре. Следовательно, конкретные способности из этогокомплекса, а также их относительная значимость будут меняться б зави-симости от времени и места. Для разных культур и в разные истори-ческие периоды одной культуры понимание успешности в деятельностименяется. Изменение структуры интеллекта можно видеть и на протя-жении жизни одного индивида от младенчества до взрослого состояния.Способность индивида будет с годами возрастать относительно техфункций, которым окружающая его культура или субкультура придаютособое значение, и уменьшаться относительно тех функций, которым та-кого значения не придается (В. М. Levinson, 1959, 1961). Типичные тесты интеллекта, предназначенные в культуре американ-ского типа для школьников или взрослых, измеряют в основном вер-бальные способности и отчасти способности обращения с числовымии другими абстрактными символами. Именно эти способности преобла-дают в школьном обучении. Большинство интеллектуальных тестовможно поэтому рассматривать яц меру способности к обучению. IQявляется отоажением как ппегттттестнумттшу тяте тя тn{fnлmJ> ттт,а310 ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯзисными, то IQ оказывается эффективным предикатором для многихпрофессий и иных видов деятельности взрослых. Вместе с тем множество других важных функций, таких, как техниче-ские, моторные, музыкальные и артистические способности, мотива-ционные и эмоциональные факторы, установки, для измерения которыхинтеллектуальные тесты никогда не применялись, являются важными со-ставляющими достижений во всех областях. В исследованиях креативно-сти обычно выявляются когнитивные и личностные факторы, относящие-ся к креативной продуктивности. Все это, естественно, означает, что какиндивидуальные решения, так и решения, принимаемые учреждениями,должны основываться на сопоставлении многих данных. Принимать ре-шения только в зависимости от результатов тестов, особенно одного илидвух, значит неправильно их использовать. Решения должны принимать-ся людьми, а тесты-один из источников сведений, необходимых дляпринятия решений. Тесты сами по себе не являются средством для при-нятия решений. Наследственность и изменчивость. Много недоразуменийи споров возникло вследствие применения оценок наследственности к по-казателям интеллектуальных тестов. Как пример можно привести вы-звавшую столько споров и противоречивых суждений известную статьюА.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33
Йенсена (A.R. Jensen, 1969). Хотя ее обсуждение шло по несколькимнаправлениям, а поднимавшиеся при этом вопросы были достаточносложны, камнем преткновения для всех участников дискуссии оказаласьинтерпретация оценок наследственности, в частности насколько индекснаследственности соответствует действительному вкладу генетических,или наследственных, факторов в общую изменчивость конкретногосвойства личности в данной популяции при существующих условиях. На-пример, утверждение, что индекс наследственности IQ по Станфорд-Би-не для учащихся американских городских средних школ составляет 0,70,будет означать, что 70Їо изменений этого показателя связано с наслед-ственными различиями и 30Їо-с различиями окружения. Индексы наследственности подсчитывались разными способами(A.R. Jensen, 1969; J. Loehiin, G. Lindzey, J.N. Spuhler, 1975), но их основ-ное предназначение-измерять в рассматриваемом свойстве фамильноесходство. Наиболее распространенный метод состоит в использованиикорреляций результатов по интеллектуальным тестам у монозиготныхи дизиготных близнецов. Также используются корреляции между мо-нозиготными близнецами, выросшими вместе и в разных приемныхсемьях. В интерпретации оценок наследственности следует обратить внима-ние на следующие моменты. Во-первых, эмпирические данные относи-тельно семейного сходства недостаточно точны, поскольку в них невыявлена роль окружающих средовых факторов. Например, никак неучитываются имеющиеся данные о том, что монозиготные близнецы жи-вут в более сходном окружении, чем дизиготные (A. Anastasi, 1958 а,р. 287-288; H.L. Koch, 1966). Во-вторых, распределение близнецов в при-емную семью не определялось случайным образом, как нужно быв идеальном эксперименте. Хорошо известно, что взятие ребенка на во-спитание зависит от особенностей малыша и приемной семьи. Следова-тельно, условия жизни в приемной семье каждого из близнецов, по-види-мому, будут достаточно сходными, что отчасти объясняет корреляции -.., яп-ип тяк-же-. утверждать, что311 ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАданные о наследственности близнецов нельзя обобщать на популяциюв целом, пЬскольку близнецы чаще подвергаются пренатальным трав-мам, приводящим к некоторым задержкам в умственном развитии.Включение в выборку пар с задержкой умственного развития может за-метно увеличить корреляцию результатов тестирования интеллектаблизнецов (P.L.Nichols, S.H.Broman, 1974). Помимо сомнительности данных, на основании которых вычисляют-ся индексы наследственности, последним присущи и более серьезные не-достатки (A.Anastasi, 1971; D.O. Hebb, 1970). Примечательно, что в пер-вой части упомянутой статьи А. Иенсена (A. R. Jensen, 1969, р. 33-46)среди прочих назывались и они. Во-первых, понятие наследственностиприменимо к популяциям, но не к отдельным индивидам. Например, привыявлении причин умственной отсталости ребенка показатель наслед-ственности вряд ли поможет. Независимо от величины индекса наслед-ственности в популяции умственную отсталость ребенка можно объяс-нить поврежденными генами (как при фенилкетонурии), пренаталь-ной мозговой травмой или крайней ограниченностью жизненногоопыта. Во-вторых, индексы наследственности применимы только к популя-ции, на которой в данное время они были получены, любое изменениев наследственности или окружающих условиях изменит этот индекс. Так,увеличение браков между кровными родственниками, например, на уда-ленном острове, уменьшит изменчивость наследственных признакови этим снизит индекс наследственности, а увеличение однородностиокружения уменьшит изменчивость его условий и, следовательно, увели-чит индекс наследственности. Кроме того, показатель наследственности,подсчитанный в одной популяции, неприменим к анализу различий в вы-полнении теста двумя популяциями, такими, как разные этническиегруппы. В-третьих, наследственность не отражас1 степень изменчивости ка-кого-либо свойства. Даже если покаштель наследственности свойствав данной популяции равен 100Їо, отсюда не следует, что влияние окруже-ния на формирование этого свойства незначительно. Поясним этот мо-мент следующим контрастным примером. Предположим, что какое-тосообщество взрослых питается одинаково, т.е. все получают одну и туже еду и в одинаковом количестве. В такой популяции влияние особенно-стей питания на общую изменчивость здоровья и физического состояниябудет нулевым, поскольку разницей в пище нельзя объяснить индиви-дуальные различия в здоровье и физическом развитии. Тем не менее, ес-ли бы запасы продовольствия внезапно иссякли, все сообщество умерлобы от Истощения. Наоборот, улучшение качества пищи могло бы ска-заться на общем улучшении здоровья членов сообщества. Независимо от величины в разных популяциях индексов наслед-.ственности для IQ достаточно обоснован один эмпирический факт: IQ неявляется постоянной величиной и изменяется под воздействием окру-жающей среды. Некоторые основания для такого вывода рассматрива-лись в этой главе раньше в связи с лонгитюдными исследованиями. Из-учение особенностей окружения позволило выявить условия, ускоряющиеи замедляющие умственное развитие. Возрастание и снижение IQ могуттакже быть результатом как случайных, так и сознательных измененийв окружении ребенка (A. Anastasi, 1958 а). Основные изменения в составе312 ТТСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ ,в детский дом или обучение по программе подготовки в школу могут за-метно увеличить или снизить IQ. Предсказание как критериальной деятельности, так и последующеготестового результата может стать более точным, если принимаются вовнимание основные характеристики окружения, в котором ребенок жилв гот или иной период времени. Имеются некоторые наводящие на раз-мышление факты, свидетельствующие о том, что корреляции с после-дующим результатом интеллектуального теста или достижениями в ус-певаемости существенно возрастают, если в качестве предикторовнаряду с результатами исходного теста включаются факторы окружения(B.S. Bloom, 1964, гл. 6). Например, в группе из 49 учеников корреляциямежду пониманием прочитанного во II и VIII классах возросла с 0,52 до0,72, когда стали принимать в расчет профессию отца как возможныйпоказатель культурного уровня семьи (ibid., р. 119). К тому же перепро-веркой данных интеллектуального теста в исследованиях Гарвардскогоуниверситета по развитию было установлено, что корреляция между по-казателями теста интеллекта в возрасте 7 и 16 лет возрастала с 0,58 до0,92, если во множественную корреляцию включался уровень образова-ния родителей (ibid., р. 80). Похожие данные получены в лонгитюдных исследованиях популя-ций, в которых сравниваемые в этой популяции выборки тестировалисьчерез много лет (A. Anastasi, 1958 я, р. 209-211). Если культурные усло-вия за это время улучшались, то выполнение теста в среднем по всей вы-борке заметно возрастало. Эти данные поясняются сравнением показате-лей американских солдат, тестировавшихся во время первой и второймировых войн с интервалом в 25 лет (R.D. Taddenham, 1948). Для этойцели репрезентативная выборка участников второй мировой войны обс-ледовалась с помощью общего армейского классификационного тестаи варианта армейского альфа, разработанного в первую мировую войну.Распределение этой группы по классификационному тесту практическисоответствовало распределению армии в целом. Основываясь на данныхпо этой выборке, можно оценить медианное выполнение в армии, уча-ствовавшей во второй мировой войне, как равное 83-му процентилю по-пуляции участников первой мировой войны. Иными словами, выполне-ние теста 83Їо популяции участников первой мировой войны оказыва-лось ниже медианного результата популяции второй мировой войны.Заслуживает внимания тот факт, что средний период обучения для участ-ников второй мировой войны равнялся 10 годам по сравнению с 8 года-ми для участников первой мировой войны. Увеличение продолжительно-сти обучения, а также совершенствование средств коммуникации,передвижения и другие культурные изменения расширяли представленияиндивида, что сказывалось на улучшении выполнения теста. Похожее исследование, но меньшего объема было проведено сошкольниками, живущими в горных округах штата Теннесси (L. R.Wheeler, 1942). Групповые тесты интеллекта предъявили в 1940 г. болеечем 3000 детям из 40 сельских школ. Результаты сравнивали с показате-лями детей из тех же мест и в основном из тех же семей, но тестиро-ванных в 1930 г. За прошедшее десятилетие экономический, культурныйи образовательный уровень этих округов заметно вырос. Соответственноэтому, как было установлено, увеличился во всех возрастах и классах IQ.Медианный IQ равнялся 82 в выборке 1930 г. и 93-в выборке 1940 г.1 Гп >Лга nratUff nrtTfTffrnria TTIITTITTTTT nrrfWrt n nlnflnnr 313ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАиндивида может изменяться и структура его интеллекта; сочетание техили иных его способностей под воздействием окружающей среды, стиму-лирующей развитие одних качеств и тормозящей другие, с годами ме-няется. Более того, факторно-аналитические исследования показали, чторазличия в жизненном опыте могут повлиять не только на соответ-ствующий разным способностям уровень выполнения, но и на способразличения в интеллекте идентифицируемых качеств. Имеются эмпири-ческие данные, свидетельствующие, что число и характер этих качеств,или способностей, могут со временем меняться и различаться от однойкультуры или субкультуры к другой (A. Anastasi, 1970). Интеллект индивида в любой момент времени есть конечный про-дукт большого и сложного ряда взаимодействий наследственных факто-ров и факторов окружения. На любой стадии этой причинной цепи суще-ствует возможность взаимодействия с новыми факторами, а посколькукаждое взаимодействие само определяет направление последующихвзаимодействий, то, значит, существует все расширяющаяся сеть воз-можных исходов. Связь между исследуемыми генами и любой и ч попе-денческих характеристик индивида весьма опосредованна и чрезвычайнозапутанна (A. Anastasi, 1968 b, 1973; D.O.Hebb, 1953). Интеллект и личность. Хотя классификация тестов на отдельныекатегории привычна и общепризнанна, следует помнить, что любое та-кое различение достаточно поверхностно. При интерпретации тестовыхпоказателей личность и способности нельзя разделять. На выполнениииндивидом теста способностей, так же как и на его учебе, работе илиином виде деятельности, сказываются его стремление к достижениям,настойчивость, система ценностей, умение освободиться от затрудненийэмоционального порядка и другие характеристики, традиционно связан-ные с понятием . Еще более важным является кумулятивное влияние личностных ка-честв на направление и степень интеллектуал>,ного рячпчтня mi чтила.Некоторые доказа1сльс1па I индивида. Такое словоупотребление предста- вляется бессмысленным, так как мотивация конкретна. То, что требуется в этом случае на самом деле,-это указать систему ценностей индивида и интенсивность, с которой он будет стремиться к достижению частных целей. Сила таких частных мотивов, взаимодействуя с обстоятельствами ситуация и со способностями индивида, определит реальное выполнение индивидом деятельности в данных ситуациях. Отношения между личностью и интеллектом реципрокны. Не толь- ко качества личности влияют на интеллектуальное развитие, но и интел- лектуальный уровень влияет на развитие личности. Предварительные данные, подтверждающие эту связь, получены В. Плантом и Э. Миниу- мом (W.T. Plant, E.W. Minium, 1967). Используя данные из 5 лонги- тюдных исследований молодых людей, закончивших колледжи, авторы.отобрали в каждой выборке по результатам интеллектуальных тестов 25Їо студентов, лучше всех выполнивших тесты, и 25Їо, выполнивших тесты хуже всех. Полученные контрастные группы затем сравнивались по результатам личностных тестов, предъявлявшихся одной или более выборкам и включавших измерение установок, ценностей, мотивации и других некогнитивных качеств. Анализ этих данных показал, что более группы по сравнению с менее значительно сильнее подвержены изменениям лично- сти. Развитие индивида и использование им своих способностей зависит от особенностей эмоциональной регуляции, характера межличностных отношений и сформировавшегося представления о самом себе. В пред- ставлениях индивида о самом себе особенно явно проявляется взаимное влияние способностей и личностных качеств. Успехи ребенка в школе, игре и в других ситуациях помогают ему создавать представление о самом себе, а его представление о себе на данном этапе влияет на его последующее выполнение деятельности и т.д. по спирали. В этом смысле представление о себе есть разновидность индивидуально самоосущест- вляющегося предсказания. К более теоретичным можно отнести гипотезу К. Хайеса (K.J. Hayes, 1962) о соотношении мотивов и интеллекта. Определяя ин- теллект как совокупность способностей к обучению, К. Хайес утвер- ждает, что характер мотивации влияет на вид и величину восприни- маемых знаний. В частности, на интеллектуальном развитии сказывается сила . Как пример таких мо- тивов можно назвать исследовательскую, манипуляторную деятельность, любознательность, игру, лепет младенца и другие внутренне мотивиро- ванные виды поведения. Ссылаясь главным образом на исследования по- ведения животных, К. Хайес утверждает, что генетически детерминированы и служат единственной наследуемой основой индивидуальных различий в интеллекте. Можно добавить, что наследуемая или приобретенная основа не обязательно связана с трактовкой их роли в интеллектуальном развитии. Эти две части теории можно рассматри- вать независимо друг от друга. Каким бы ни было происхождение вырабатываемых в процессе жиз-315ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТАПрошлоеНастоящеенепосредственное окружение как направлпющий фактор действияБудущееЛичность Ткумулятивныехаоактео задачи (А)последствияВОСпрИЯТИЯспособностиуровеньнаследственностьмотивы kJ/vruElallLIIJI nanIJIUULIWсила мотивации различных выборов (Tg…T)Непосредственное окружение как стимул действияРис. 49. Схема взаимодействия когнитивных и некогнитивных факторов в кумулятивномдостижении и развитии индивида (J. W. Atkinson, P. М. OMolley, W. Lens, 1976). С разрешения издательства Академик Прессв любой данный момент времени. Вот так приблизительно выглядит ги-потеза, с помощью которой К. Хайес объединяет совокупность данныхмногих типов исследований как человеческого поведения, так и поведе-ния животных. На основе 25-летнего изучения мотивации достижений Дж. Аткинсон(J.W. Atkinson, 1974, 1976) и его коллеги составили подробную схемувзаимосвязей способностей, мотивации и факторов окружающей среды.Этот подход динамичен, поскольку из него следует осуществляемоев процессе жизни систематическое изменение индивида, а не его неизмен-ность. Кроме того, подход этот предполагает реципрокное влияние спо-собностей и мотивационных факторов на выполнение теста. Для иллю-страции применимости данной умозрительной схемы воспользовалисьмоделированием на компьютерах, показавшем, каким образом способно-сти и мотивация могут сообща влиять как на выполнение интеллек-туальных тестов, так и на кумулятивное достижение. Некоторые под-тверждающие это предположение эмпирические факты связаны со сред-ними годовыми оценками учеников средних классов (мальчиков), пред-сказанными на основе результатов интеллектуальных тестов и измере-ний мотивации достижения (J.W. Atkinson, P.M. OMally, W. Lens, 1976). Схема Дж. Аткинсона приведена на рис. 49. Начиная слева нарисунке представлено совместное действие наследственности и прошлого ——- -~ -~",,-T,T.TT.TV II чвч-г ~—ГЛАВА 5. НАДЕЖНОСТЬ 97Коэффиццеа1_керреляции (98). Типы надежности (104). Надежность тестовна скорость (114). Зависимость ксВЗДЯщиента надежности от тестируемойвыборки (118). Стандартно _оц1ибка измерения (120). Надежность кри-териально-ориентированных тестов~(ТЯ).ГЛАВА 6. ВАЛИДНОСТЬ. ОСНОВНЫЕ ПОНЯТИЯ 126Валидность по содержанию (126). Валидность по кршсрию (131). Кон-структная валидность (140).ГЛАВА 7. ВАЛИДНОСТЬ. ИЗМЕРЕНИЕ И ИНТЕРПРЕТАЦИЯ 149Коэффициент валидности и ошибка прогноза (150). Валидность тестаи теория решений (153). Модераторы (163). Объединение .".данныхразличных тестов .(165). Применение теста при рпрёдёлении (170).ГЛАВА 8. АНАЛИЗ ЗАДАНИЙ 179Трудность заданий (180). Валидность заданий (187). Внутренняя согла-сованность (193). Анализ заданий тестов на скорость (196). Перекрестнаявалидация (197). Взаимодействие между заданием и группой (199).ЧАСТЬ 3. ТЕСТЫ ОБЩЕГО ИНТЕЛЛЕКТУАЛЬНОГО РАЗВИТИЯ 205ГЛАВА 9. ИНДИВИДУАЛЬНЫЕ ТЕСТЫ 205./Шкала Ст4нфорд-Бине.(206). Векслеровские шкалы интеллекта для взрос- лых ; (219). Векслеровская шкала интеллекта для детей (227). Вексле- ровская шкала интеллекта для дошкольников и младших школьников (231).ГЛАВА 10. ТЕСТЫ ДЛЯ СПЕЦИФИЧЕСКИХ ПОПУЛЯЦИЙ 234Тестирование младенцев и дошкольников (236). Тестирование лиц сфизическими недостатками (248). Тестирование межкультурных разли-чий (254).ГЛАВА II. ГРУППОВОЕ ТЕСТИРОВАНИЕ 264. Групповые и индивидуальные тесты (265). Многоуровневые батареи (270). Тесты для колледжей и -олее высоких уровней образования (281).ГЛАВА 12. ПСИХОЛОГИЧЕСКИЕ ВОПРОСЫ ТЕСТИРОВАНИЯ ИНТЕЛЛЕКТА 288 Лонгитюдные исследования интеллекта (289). Интеллект в раннем детстве (294). Проблемы тестирования интеллекта взрослого (298). Проблемы jтестирования межкультурных различий (303). Природа интеллекта (308). j-Анна АнастазиПСИХОЛОГИЧЕСКОЕ ТЕСТИРОВАНИЕКнига 1Переводчики:м. к. АКИМОВАЕ. М. БОРИСОВАЗаведующая редакциейА. В. ЧЕРЕПАНИНАРедакторА. М. ФЕДИНАХудожникА. Б. ЦВЕТКОВХудожественный редакторЕ. В. ГАВРИЛИНТехнический редакторТ. Г. ИВАНОВАКорректорыB.C. АНТОНОВА,Л.Ф. ЧИЧУЛИНАИБ № 463Сдано в набор 23.04.82. Подписано в печать 02.07.82. Формат 0 х 100/.Бумага офС. № 1. Печать офсетная. Гарнитура тайме. Уел п. л. 25,80.Уч.-изд. л. 26,44. Усл. кр.чэтт. 26,12. Тираж 15000 экз. Зак. №700. Цена 2 р. 10 к.Издательство Академии педагогических наук СССРи Государственного комитета СССР по делам издательств, полиграфии и книжнойторговли. JМосква, 107847, Лефортовский пер., 8Набрано на Можайском полиграфкомбинате Союзполигра( шрома при Государственномкомитете СССР по делам издательств, полиграфии и кн 1жной торговли.Можайск, 143200, ул. Мира, 93Отпечатано с пленок в Московской типографии № 4 озполиграфпрома при1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33