Гил-
форду); 5) успешностью использования предмета неожиданным образом (зада-
чи Дункера); 6) легкостью смены установок при решении задач Лачинса (плас-
тичность); 7) успешностью переструктурирования и переорганизации текста.
Поленезависимые хорошо учатся при внутренней мотивации учения. Для их
успешного обучения важна информация об ошибках.
Полезависимые более общительны.
Существует еще множество предпосылок для того, чтобы рассматривать
лполезависимостьДполенезависимость» как одно из проявлений общего интел-
лекта в перцептивно-образной сфере.
Когнитивный подход, вопреки своему наименованию, приводит к расшири-
тельной трактовке понятия линтеллект». В систему интеллектуальных (когни-
тивных по своей природе) способностей разные исследователи включают много-
численные дополнительные внешние факторы.
Парадокс состоит в том, что стратегия адептов когнитивного подхода при-
водит к выявлению функциональных и корреляционных связей с другими (вне-
когнитивными) свойствами психики индивида и в конечном счете служит умно-
жению исходного предметного содержания понятия линтеллект» как общей ког-
нитивной способности.
Глава 3
Диагностика
интеллекта
ПСИХОМЕТРИЧЕСКИЕ ЗАМЕЧАНИЯ
Психологической диагностике способностей, ставшей в последние два десяти-
летия одной из самых популярных областей психологии, посвящено множество
монографий, практических руководств, методичек и т. п., см., например, [\, 6, 8, 171.
Лучшим руководством по психодиагностике до сих пор является книга Анны
Анастази лПсихологическое тестирование» [\\, неоднократно изданная во многих
странах мира.
Это избавляет нас от необходимости останавливаться на проблемах валидно-
сти, надежности и достоверности тестов интеллекта, проблемах применимости
тех или иных диагностических процедур при решении научных и практических
задач, на детальной информации о многочисленных тестах и тестовых батареях,
созданных в нашей стране или за рубежом.
Обратим внимание только на основные, наиболее распространенные в на-
шей стране тесты общего интеллекта и его структуры, по возможности опираясь
на опыт применения этих тестов в лаборатории психологии способностей Инсти-
тута психологии РАН. По причине редкого применения в нашей стране и отсут-
ствия квалифицированной ревалидизации ряд тестов, в частности тест Стэн-
фордДБине, в книге рассматриваться не будут.
Все же для удобства изложения нужно привести некоторые общие соображе-
ния, касающиеся диагностики интеллекта и конструирования тестов интеллекта.
Разработка любого психодиагностического теста состоит из трех этапов:
1) анализ диагностической проблемы, 2) собственно конструирование теста,
3) отбор заданий.
На первом этапе автор формулирует задачу: что диагностировать, какое
психическое свойство он собирается измерять. Ответ на этот вопрос содержит-
ся в многочисленных концепциях интеллекта, о которых говорилось выше. Ис-
следователь либо берет на вооружение одну из существующих, либо, если суще-
ствующие концепции чем-то его не устраивают, создает свою.
Второй вопрос: каким способом измерять интеллект? Производится теоре-
тический анализ достоинств и недостатков существующих методов, и, если ме-
тоды, созданные до сих пор, не удовлетворяют автора по некоторым теоретиче-
ским или практическим соображениям, он берется за создание собственной
методики.
Ответ на вопрос лдля чего?» и сама его постановка от автора не зависят, а
определяются той научно-практической задачей, которую он может модифици-
ровать, но не в силах игнорировать.
На втором этапе происходит собственно работа по созданию теста. Главными
инструментами здесь служат авторская интуиция, опыт предшественников и зна-
ние специфики некоторой интеллектуальной деятельности. Психолог обычно ис-
ходит из интуитивного представления об изоморфизме внутреннего (ментального)
и внешнего (моторно-перцептивного) планов действия и аналогии между ними.
Любая психологическая методика, направленная на диагностику интеллекта
или парциальных способностей, есть задача (игровая, учебная или трудовая), не-
которая модель ситуации, встречающейся в обычной человеческой жизни. Вне-
шняя валидность теста (ее еще можно назвать лэкологическая валидность») Д
это соответствие тестовой задачи той реальной жизненной задаче, которая слу-
жила прототипом теста.
Что касается внутренней валидности, которая, как известно, заключается в соот-
ветствии процедуры измерения измеряемому свойству, то она зависит от интуиции
исследователя, который предположил, что решение именно данной задачи опреде-
ляется уровнем развития у человека определенного психического свойства.
Чтобы лизмерить» это свойство, мы можем лишь вооружить испытуемого
средствами (лвнешними» и лвнутренними», проводя обучение или инструктируя).
Кроме того, исследователь может воздвигать на пути правильного решения препят-
ствия, затрудняя первичный анализ материала и условий задачи, повышать уровень
трудности, вводить дополнительные помехи (лвнешние» и лвнутренние»), изменять
лобратную связь» и так далее. Но все затруднения мы вводим лишь на основе глу-
бинной аналогии между лвнешними» и лвнутренними» планами поведения.
Единственное, что варьирует экспериментатор, Д это трудность задания, а у
испытуемого есть лишь одно средство ее преодолеть Д проявить свои способ-
ности. Предположение о независимости объективного уровня трудности задания
от способностей испытуемого являлась основной предпосылкой при создании в
1952 году датским математиком Г. Рашем [2, 3] модели теста, на основе которой
было создано семейство вероятностных моделей Раша.
Модель имеет две основные версии: мультипликативную и аддитивную.
В соответствии с этой моделью правильность решения теста определяется
либо высоким уровнем развития способности, либо низким уровнем трудности
задания.
В специальной литературе описаны компьютерные алгоритмы и программы,
позволяющие на основе эмпирических результатов рассчитать как объектив-
ную трудность задания, так и лспособность» каждого испытуемого [2, З].
Сам Г. Раш использовал свою модель при создании критериальных тестов и
ввел единицу измерения, называемую логит, которая измеряет в одной шкале как
трудность задания, так и способность испытуемого.
В. С. Аванесов [4] предложил использовать несколько модификаций модели
Раша: модель, учитывающую вероятность угадывания правильного ответа, и бо-
лее сложную модель, учитывающую влияние на успешность решения теста дру-
гих способностей.
Как бы там ни было, интуитивно психологи при создании тестов всегда
строили задания таким образом, чтобы они варьировали по трудности и были
направлены на измерение не более чем одной способности.
Третий этап конструирования теста является этапом отбраковки непригодных
заданий, а не творческим процессом их создания. Но именно этот этап традицион-
но считается конструированием теста. Для него разработан весь существующий
в настоящее время аппарат эмпирико-статистической теории теста, предназна-
ченный для оценки валидности и надежности теста и отдельных его заданий.
Процедура валидизации и проверки на надежность, гомогенность (однород-
ность), дифференцирующую силу, прогностичность и т. д. сводится к отбору за-
даний теста и представляет собой итерационную процедуру доведения теста до
требуемого уровня качества за счет замены заданий, их модификации, а также
изменения процедуры проведения и интерпретации данных тестирования.
Все существующие тесты интеллекта можно условно разделить на две груп-
пы: 1) тесты лскорости» и 2) тесты луровня». Если при проведении первых
вводится жесткий лимит времени, то при проведении вторых, хотя и есть ограни
чение времени выполнения теста или субтеста, но главную трудность для испы
туемого составляют особенности заданий. Встречаются варианты тестов, гд1
используются оба вида затруднений.
Тесты лскорости» представляют собой несколько однотипных и близких п
уровню сложности заданий. Испытуемый должен решить их за определенно
время. Показателем успешности служит число правильно решенных заданий
Уровень сложности их должен быть близок 0,5, то есть задание решает правил]
но половина людей выборки, на которой проверяется тест.
В тестах луровня», как уже было отмечено, время, которое дается испытуем!
му, значительно превышает время, необходимое среднему испытуемому для р>
шения теста. Создатель теста всегда полагает, что испытуемый, не справивший
с заданием за отведенное время, не решит его никогда. В качестве лизмерите
ной линейки интеллекта» в тестах луровня» используется шкала сложное-
тестового задания.
Главное затруднение вызывает оценка сложности задания. Согласно моде.
Раша, сложность оценивается экспериментально, следовательно, имеет статис1
ческий характер. Кроме того, возникает необходимость установить: 1) миг
мально необходимое число заданий для каждого уровня сложности, 2) необходи-
мое число уровней сложности, 3) достоверность различий оценок сложности
заданий, принадлежащих разным уровням.
Эти проблемы решены в работе Ф. М. Юсупова [5], который предложил
вероятностную модель прогнозирования параметров теста луровня». Расчеты
показывают, что в тестовом задании целесообразно брать от 6 до 10 вариантов
ответа, чтобы минимизировать вероятность случайного решения.
Число заданий в тесте уровня не должно быть слишком велико для того,
чтобы значения показателей сложности соседних по уровню сложности заданий
надежно различались. Кроме того, нужно учесть, что правильный ответ может
быть выбран испытуемым случайно.
При 6 вариантах ответа в каждом тестовом задании количество заданий не
может быть более 6-7 (см. табл. 3).
Таблица 3. Расчетные значения показателей сложности тестовых задании
Номер задания1234567
Показатель0,0350,1460,3090,50,690,8340,97
сложности
Модель, предложенная Ф. М. Юсуповым, позволяет спрогнозировать мини-
мальный объем выборки, достаточной для стандартизации теста.
Соответствующая модель для расчета параметров теста с эквивалентными
по трудности заданиями (тест лскорость») предложена в работе В. Н. Дружини-
на [б].
Эмпирически проверка теста интеллекта на валидность и надежность Д про-
цедура стандартная и хорошо отражена в методических руководствах [11.
Главное, что следует заметить: все разработанные тесты рассматривают ин-
теллект как некоторую непрерывную величину (по аналогии с ростом или ве-
сом), которой люди характеризуются в разной степени.
Рис. 14. Отношения между шкалой IQ и шкалами отдельных тестов интеллекта
Подразумевается, что, как большинство биологических и социальных пара-
метров, интеллект характеризуется нормальным распределением людей вдоль
оси континуума.
Можно предположить, что существующие тесты интеллекта, включающие в
себя задания разной сложности, захватывают разные участки этого континуума.
Парадоксально, что это не отражается на характеристиках распределения людей
по результатам тестирования! Возможно, к этому приводит искусственный под-
бор заданий и процедура нормализации шкалы.
Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю грани-
цы, а не простирается в бесконечность, следовательно, уместно говорить лишь о
квазинормальности любого распределения людей по отношению к шкале тесто-
вого балла.
При подсчете баллов во всех тестах используется кумулятивная аддитивная
модель: суммируются баллы, набранные за выполнение каждого отдельного зада-
ния, несмотря на их (заданий) содержательную разнородность.
На первый взгляд пользоваться гипотезой о прямой зависимости вероятно-
сти решения задачи от уровня способности, с определенными оговорками, можно
лишь для тестов с эквивалентными по трудности заданиями. В тестах луровня»
более целесообразно было бы применять шкалу трудности, измеряя способность
самым сложным заданием, которое решил испытуемый. Однако решение зави-
сит от массы случайных факторов, начиная с угадывания и кончая индивидуаль-
ной интерпретацией тестовой задачи испытуемым.
На примере теста Равена мой аспирант Ф. М. Юсупов проверил, в какой
мере валидны различные модели подсчета тестовых баллов:
1) традиционный, применявшийся в тесте балльный показатель,
2) сумма рангов сложности решенных заданий,
3) количество правильно выполненных заданий (оценка трудности заданий не
учитывалась),
Таблица 4. Коэффициенты вариации и их ошибки
для четырех видов показателей тестовой шкалы
Система оценкиКоэффициент вариацииОшибка коэффициента вариации
Без учета сложности19,49%1,4%
Модиф. показатель сложности38,34%2,76%
Сложность в баллах24,43%1,76%
Сложность в рангах30,53%2,19%
2. Учитывающий с
в ранговой фор
3. Не учитывающи
тестовых задан
4. Учитывающий с
форме весовых
5. Используемый
4) сумма показателей сложности решенных задач (сложность определялась
отношением числа решивших задачу к общему числу испытуемых).
Время работы испытуемых с тестом не ограничивалось. Результаты иссле-
дования показали, что наихудшей дифференцирующей способностью обладает
показатель, не учитывающий трудности задания, что естественно, поскольку мы
имеем дело с тестом уровня. Наилучшая дифференцирующая способность у
модифицированного показателя трудности [5]. Показатель, учитывающий слож-
ность в рангах, и традиционный показатель заняли второе и третье место.
1.0-
0.9-
0.8-
0.7 -
0,6 -
0,5 -
0,4-
0,3 -
0,2-
0.1 -
10
11 12 13 14 15 16
m
Рис. 15. График зависимости диапазона изменения показателя сложности от числа
вариантов ответов в тестовом задании (по Ф. M. Юсупову)
Таблица 5. Коэффициенты интеркорреляции для пяти различных показателей шкалы
Показатель шкалы1234
1. Используемый в тесте Равена10,9880,9610,909
2. Учитывающий сложность в ранговой форме0,98810,940,981
3. Не учитывающий сложности тестовых заданий0,9610,9410,885
4. Учитывающий сложность в форме весовых коэффициентов0,9090,9810,8851
5. Используемый в тесте0,7150,7540,6780,79
Таблица 6. Результаты факторного анализа для пяти показателей шкалы
Показатель шкалыIIIh2
1. Используемый в тесте Равена0,9110,3850,978
2. Учитывающий сложность в ранговой форме0,8890,4540,995
3. Не учитывающий сложность тестовых заданий0,9150,3360,95
4. Учитывающий сложность в форме весовых коэффициентов0,8050,540,94
5. Используемый в тесте луровня»0,3880,9180,993
Для удобства факторизации показателей был введен пятый ранг наиболее
сложного выполненного задания.
Факторизация по методу главных компонент с последующим их вращением
по методу Г. Кайзера дала два значимых фактора (см. табл. 6). Наибольший вес
по первому фактору имел традиционный показатель продуктивности, используе-
мый в тесте Равена, а наименьший Д показатель, учитывающий ранг наиболее
сложного решенного задания.
Соответственно второй фактор имел максимальную нагрузку на последний
показатель и минимальную Д на традиционный, используемый в тесте Равена.
Поскольку первый фактор объяснял 64,9% дисперсии, а второй только 32%,
можно было сделать совершенно очевидный вывод, что успешность выполнения
теста Равена, несмотря на то что он является типичным тестом луровня», опре-
деляется скоростным фактором интеллекта в большей мере, чем фактором,
обусловливающим решение сложных заданий. Естественно, результаты факто-
ризации показали, что это разные факторы, и, следовательно, тесты лскорости»
измеряют иной линтеллект», чем тесты луровня». Этот результат тем более
интересен, что тест Равена мы использовали без ограничения времени решения
(не как тест лскорости», а как тест луровня»).
Второй фактор интерпретируется как предельная возможность испытуемого
при выполнении теста, что в большей мере соответствует теоретическому пони-
манию способности как свойства психики.
Однако тестовая шкала, по которой способность будет определяться решени-
ем лишь одного тестового задания, будет очень подвержена действию случайных
факторов. Данные шкалограммного анализа показали, что испытуемые, решив-
шие сложные задания, часто не справляются с простым.
Коэффициент корреляции реальной шкалограммы с идеальной равен 0,82
(желательная величина Д 0,9).
Тем самым наиболее приемлем комплексный показатель, учитывающий как
число заданий, так и их эмпирически установленную сложность (см.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39
форду); 5) успешностью использования предмета неожиданным образом (зада-
чи Дункера); 6) легкостью смены установок при решении задач Лачинса (плас-
тичность); 7) успешностью переструктурирования и переорганизации текста.
Поленезависимые хорошо учатся при внутренней мотивации учения. Для их
успешного обучения важна информация об ошибках.
Полезависимые более общительны.
Существует еще множество предпосылок для того, чтобы рассматривать
лполезависимостьДполенезависимость» как одно из проявлений общего интел-
лекта в перцептивно-образной сфере.
Когнитивный подход, вопреки своему наименованию, приводит к расшири-
тельной трактовке понятия линтеллект». В систему интеллектуальных (когни-
тивных по своей природе) способностей разные исследователи включают много-
численные дополнительные внешние факторы.
Парадокс состоит в том, что стратегия адептов когнитивного подхода при-
водит к выявлению функциональных и корреляционных связей с другими (вне-
когнитивными) свойствами психики индивида и в конечном счете служит умно-
жению исходного предметного содержания понятия линтеллект» как общей ког-
нитивной способности.
Глава 3
Диагностика
интеллекта
ПСИХОМЕТРИЧЕСКИЕ ЗАМЕЧАНИЯ
Психологической диагностике способностей, ставшей в последние два десяти-
летия одной из самых популярных областей психологии, посвящено множество
монографий, практических руководств, методичек и т. п., см., например, [\, 6, 8, 171.
Лучшим руководством по психодиагностике до сих пор является книга Анны
Анастази лПсихологическое тестирование» [\\, неоднократно изданная во многих
странах мира.
Это избавляет нас от необходимости останавливаться на проблемах валидно-
сти, надежности и достоверности тестов интеллекта, проблемах применимости
тех или иных диагностических процедур при решении научных и практических
задач, на детальной информации о многочисленных тестах и тестовых батареях,
созданных в нашей стране или за рубежом.
Обратим внимание только на основные, наиболее распространенные в на-
шей стране тесты общего интеллекта и его структуры, по возможности опираясь
на опыт применения этих тестов в лаборатории психологии способностей Инсти-
тута психологии РАН. По причине редкого применения в нашей стране и отсут-
ствия квалифицированной ревалидизации ряд тестов, в частности тест Стэн-
фордДБине, в книге рассматриваться не будут.
Все же для удобства изложения нужно привести некоторые общие соображе-
ния, касающиеся диагностики интеллекта и конструирования тестов интеллекта.
Разработка любого психодиагностического теста состоит из трех этапов:
1) анализ диагностической проблемы, 2) собственно конструирование теста,
3) отбор заданий.
На первом этапе автор формулирует задачу: что диагностировать, какое
психическое свойство он собирается измерять. Ответ на этот вопрос содержит-
ся в многочисленных концепциях интеллекта, о которых говорилось выше. Ис-
следователь либо берет на вооружение одну из существующих, либо, если суще-
ствующие концепции чем-то его не устраивают, создает свою.
Второй вопрос: каким способом измерять интеллект? Производится теоре-
тический анализ достоинств и недостатков существующих методов, и, если ме-
тоды, созданные до сих пор, не удовлетворяют автора по некоторым теоретиче-
ским или практическим соображениям, он берется за создание собственной
методики.
Ответ на вопрос лдля чего?» и сама его постановка от автора не зависят, а
определяются той научно-практической задачей, которую он может модифици-
ровать, но не в силах игнорировать.
На втором этапе происходит собственно работа по созданию теста. Главными
инструментами здесь служат авторская интуиция, опыт предшественников и зна-
ние специфики некоторой интеллектуальной деятельности. Психолог обычно ис-
ходит из интуитивного представления об изоморфизме внутреннего (ментального)
и внешнего (моторно-перцептивного) планов действия и аналогии между ними.
Любая психологическая методика, направленная на диагностику интеллекта
или парциальных способностей, есть задача (игровая, учебная или трудовая), не-
которая модель ситуации, встречающейся в обычной человеческой жизни. Вне-
шняя валидность теста (ее еще можно назвать лэкологическая валидность») Д
это соответствие тестовой задачи той реальной жизненной задаче, которая слу-
жила прототипом теста.
Что касается внутренней валидности, которая, как известно, заключается в соот-
ветствии процедуры измерения измеряемому свойству, то она зависит от интуиции
исследователя, который предположил, что решение именно данной задачи опреде-
ляется уровнем развития у человека определенного психического свойства.
Чтобы лизмерить» это свойство, мы можем лишь вооружить испытуемого
средствами (лвнешними» и лвнутренними», проводя обучение или инструктируя).
Кроме того, исследователь может воздвигать на пути правильного решения препят-
ствия, затрудняя первичный анализ материала и условий задачи, повышать уровень
трудности, вводить дополнительные помехи (лвнешние» и лвнутренние»), изменять
лобратную связь» и так далее. Но все затруднения мы вводим лишь на основе глу-
бинной аналогии между лвнешними» и лвнутренними» планами поведения.
Единственное, что варьирует экспериментатор, Д это трудность задания, а у
испытуемого есть лишь одно средство ее преодолеть Д проявить свои способ-
ности. Предположение о независимости объективного уровня трудности задания
от способностей испытуемого являлась основной предпосылкой при создании в
1952 году датским математиком Г. Рашем [2, 3] модели теста, на основе которой
было создано семейство вероятностных моделей Раша.
Модель имеет две основные версии: мультипликативную и аддитивную.
В соответствии с этой моделью правильность решения теста определяется
либо высоким уровнем развития способности, либо низким уровнем трудности
задания.
В специальной литературе описаны компьютерные алгоритмы и программы,
позволяющие на основе эмпирических результатов рассчитать как объектив-
ную трудность задания, так и лспособность» каждого испытуемого [2, З].
Сам Г. Раш использовал свою модель при создании критериальных тестов и
ввел единицу измерения, называемую логит, которая измеряет в одной шкале как
трудность задания, так и способность испытуемого.
В. С. Аванесов [4] предложил использовать несколько модификаций модели
Раша: модель, учитывающую вероятность угадывания правильного ответа, и бо-
лее сложную модель, учитывающую влияние на успешность решения теста дру-
гих способностей.
Как бы там ни было, интуитивно психологи при создании тестов всегда
строили задания таким образом, чтобы они варьировали по трудности и были
направлены на измерение не более чем одной способности.
Третий этап конструирования теста является этапом отбраковки непригодных
заданий, а не творческим процессом их создания. Но именно этот этап традицион-
но считается конструированием теста. Для него разработан весь существующий
в настоящее время аппарат эмпирико-статистической теории теста, предназна-
ченный для оценки валидности и надежности теста и отдельных его заданий.
Процедура валидизации и проверки на надежность, гомогенность (однород-
ность), дифференцирующую силу, прогностичность и т. д. сводится к отбору за-
даний теста и представляет собой итерационную процедуру доведения теста до
требуемого уровня качества за счет замены заданий, их модификации, а также
изменения процедуры проведения и интерпретации данных тестирования.
Все существующие тесты интеллекта можно условно разделить на две груп-
пы: 1) тесты лскорости» и 2) тесты луровня». Если при проведении первых
вводится жесткий лимит времени, то при проведении вторых, хотя и есть ограни
чение времени выполнения теста или субтеста, но главную трудность для испы
туемого составляют особенности заданий. Встречаются варианты тестов, гд1
используются оба вида затруднений.
Тесты лскорости» представляют собой несколько однотипных и близких п
уровню сложности заданий. Испытуемый должен решить их за определенно
время. Показателем успешности служит число правильно решенных заданий
Уровень сложности их должен быть близок 0,5, то есть задание решает правил]
но половина людей выборки, на которой проверяется тест.
В тестах луровня», как уже было отмечено, время, которое дается испытуем!
му, значительно превышает время, необходимое среднему испытуемому для р>
шения теста. Создатель теста всегда полагает, что испытуемый, не справивший
с заданием за отведенное время, не решит его никогда. В качестве лизмерите
ной линейки интеллекта» в тестах луровня» используется шкала сложное-
тестового задания.
Главное затруднение вызывает оценка сложности задания. Согласно моде.
Раша, сложность оценивается экспериментально, следовательно, имеет статис1
ческий характер. Кроме того, возникает необходимость установить: 1) миг
мально необходимое число заданий для каждого уровня сложности, 2) необходи-
мое число уровней сложности, 3) достоверность различий оценок сложности
заданий, принадлежащих разным уровням.
Эти проблемы решены в работе Ф. М. Юсупова [5], который предложил
вероятностную модель прогнозирования параметров теста луровня». Расчеты
показывают, что в тестовом задании целесообразно брать от 6 до 10 вариантов
ответа, чтобы минимизировать вероятность случайного решения.
Число заданий в тесте уровня не должно быть слишком велико для того,
чтобы значения показателей сложности соседних по уровню сложности заданий
надежно различались. Кроме того, нужно учесть, что правильный ответ может
быть выбран испытуемым случайно.
При 6 вариантах ответа в каждом тестовом задании количество заданий не
может быть более 6-7 (см. табл. 3).
Таблица 3. Расчетные значения показателей сложности тестовых задании
Номер задания1234567
Показатель0,0350,1460,3090,50,690,8340,97
сложности
Модель, предложенная Ф. М. Юсуповым, позволяет спрогнозировать мини-
мальный объем выборки, достаточной для стандартизации теста.
Соответствующая модель для расчета параметров теста с эквивалентными
по трудности заданиями (тест лскорость») предложена в работе В. Н. Дружини-
на [б].
Эмпирически проверка теста интеллекта на валидность и надежность Д про-
цедура стандартная и хорошо отражена в методических руководствах [11.
Главное, что следует заметить: все разработанные тесты рассматривают ин-
теллект как некоторую непрерывную величину (по аналогии с ростом или ве-
сом), которой люди характеризуются в разной степени.
Рис. 14. Отношения между шкалой IQ и шкалами отдельных тестов интеллекта
Подразумевается, что, как большинство биологических и социальных пара-
метров, интеллект характеризуется нормальным распределением людей вдоль
оси континуума.
Можно предположить, что существующие тесты интеллекта, включающие в
себя задания разной сложности, захватывают разные участки этого континуума.
Парадоксально, что это не отражается на характеристиках распределения людей
по результатам тестирования! Возможно, к этому приводит искусственный под-
бор заданий и процедура нормализации шкалы.
Число баллов в каждом тесте интеллекта имеет верхнюю и нижнюю грани-
цы, а не простирается в бесконечность, следовательно, уместно говорить лишь о
квазинормальности любого распределения людей по отношению к шкале тесто-
вого балла.
При подсчете баллов во всех тестах используется кумулятивная аддитивная
модель: суммируются баллы, набранные за выполнение каждого отдельного зада-
ния, несмотря на их (заданий) содержательную разнородность.
На первый взгляд пользоваться гипотезой о прямой зависимости вероятно-
сти решения задачи от уровня способности, с определенными оговорками, можно
лишь для тестов с эквивалентными по трудности заданиями. В тестах луровня»
более целесообразно было бы применять шкалу трудности, измеряя способность
самым сложным заданием, которое решил испытуемый. Однако решение зави-
сит от массы случайных факторов, начиная с угадывания и кончая индивидуаль-
ной интерпретацией тестовой задачи испытуемым.
На примере теста Равена мой аспирант Ф. М. Юсупов проверил, в какой
мере валидны различные модели подсчета тестовых баллов:
1) традиционный, применявшийся в тесте балльный показатель,
2) сумма рангов сложности решенных заданий,
3) количество правильно выполненных заданий (оценка трудности заданий не
учитывалась),
Таблица 4. Коэффициенты вариации и их ошибки
для четырех видов показателей тестовой шкалы
Система оценкиКоэффициент вариацииОшибка коэффициента вариации
Без учета сложности19,49%1,4%
Модиф. показатель сложности38,34%2,76%
Сложность в баллах24,43%1,76%
Сложность в рангах30,53%2,19%
2. Учитывающий с
в ранговой фор
3. Не учитывающи
тестовых задан
4. Учитывающий с
форме весовых
5. Используемый
4) сумма показателей сложности решенных задач (сложность определялась
отношением числа решивших задачу к общему числу испытуемых).
Время работы испытуемых с тестом не ограничивалось. Результаты иссле-
дования показали, что наихудшей дифференцирующей способностью обладает
показатель, не учитывающий трудности задания, что естественно, поскольку мы
имеем дело с тестом уровня. Наилучшая дифференцирующая способность у
модифицированного показателя трудности [5]. Показатель, учитывающий слож-
ность в рангах, и традиционный показатель заняли второе и третье место.
1.0-
0.9-
0.8-
0.7 -
0,6 -
0,5 -
0,4-
0,3 -
0,2-
0.1 -
10
11 12 13 14 15 16
m
Рис. 15. График зависимости диапазона изменения показателя сложности от числа
вариантов ответов в тестовом задании (по Ф. M. Юсупову)
Таблица 5. Коэффициенты интеркорреляции для пяти различных показателей шкалы
Показатель шкалы1234
1. Используемый в тесте Равена10,9880,9610,909
2. Учитывающий сложность в ранговой форме0,98810,940,981
3. Не учитывающий сложности тестовых заданий0,9610,9410,885
4. Учитывающий сложность в форме весовых коэффициентов0,9090,9810,8851
5. Используемый в тесте0,7150,7540,6780,79
Таблица 6. Результаты факторного анализа для пяти показателей шкалы
Показатель шкалыIIIh2
1. Используемый в тесте Равена0,9110,3850,978
2. Учитывающий сложность в ранговой форме0,8890,4540,995
3. Не учитывающий сложность тестовых заданий0,9150,3360,95
4. Учитывающий сложность в форме весовых коэффициентов0,8050,540,94
5. Используемый в тесте луровня»0,3880,9180,993
Для удобства факторизации показателей был введен пятый ранг наиболее
сложного выполненного задания.
Факторизация по методу главных компонент с последующим их вращением
по методу Г. Кайзера дала два значимых фактора (см. табл. 6). Наибольший вес
по первому фактору имел традиционный показатель продуктивности, используе-
мый в тесте Равена, а наименьший Д показатель, учитывающий ранг наиболее
сложного решенного задания.
Соответственно второй фактор имел максимальную нагрузку на последний
показатель и минимальную Д на традиционный, используемый в тесте Равена.
Поскольку первый фактор объяснял 64,9% дисперсии, а второй только 32%,
можно было сделать совершенно очевидный вывод, что успешность выполнения
теста Равена, несмотря на то что он является типичным тестом луровня», опре-
деляется скоростным фактором интеллекта в большей мере, чем фактором,
обусловливающим решение сложных заданий. Естественно, результаты факто-
ризации показали, что это разные факторы, и, следовательно, тесты лскорости»
измеряют иной линтеллект», чем тесты луровня». Этот результат тем более
интересен, что тест Равена мы использовали без ограничения времени решения
(не как тест лскорости», а как тест луровня»).
Второй фактор интерпретируется как предельная возможность испытуемого
при выполнении теста, что в большей мере соответствует теоретическому пони-
манию способности как свойства психики.
Однако тестовая шкала, по которой способность будет определяться решени-
ем лишь одного тестового задания, будет очень подвержена действию случайных
факторов. Данные шкалограммного анализа показали, что испытуемые, решив-
шие сложные задания, часто не справляются с простым.
Коэффициент корреляции реальной шкалограммы с идеальной равен 0,82
(желательная величина Д 0,9).
Тем самым наиболее приемлем комплексный показатель, учитывающий как
число заданий, так и их эмпирически установленную сложность (см.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39