А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 


При использовании континуального критерия, общего показателя
по тесту, какой же статистический коэффициент будет наилучшим?
Самым лучшим, несомненно, будет коэффициент точечно-бисери-
альной корреляции, или грЬк Anstey, сравнивая бисериальный и
точечно-бисериальный коэффициенты корреляции, проводит два
важных различия между этими показателями. При бисериальной
корреляции предполагается, что распределение показателей по кри-
терию является нормальным и есть количественное различие между
правильными и неправильными ответами. При точечно-бисериаль-
ной корреляции таких предположений о распределениях не делается
и допускается лишь количественное различие между правильными и
неправильными ответами. Более того, значение коэффициента бисе-
риальной корреляции может, если распределение не является нор-
мальным, превзойти 1; для нее также предполагается линейность
регрессии между заданиями и критерием.
Если мы помним, что, согласно классической модели погрешно-
стей измерения, корреляция заданий с общим показателем равна
средней корреляции некоторого задания со всеми остальными зада-
ниями, то коэффициент rpbis является чрезвычайно значимым. Коро-
че говоря, этот коэффициент корреляции дает нам наилучшее сред-
ство измерения корреляции заданий с общим показателем, что суще-
ственно при конструировании однородного теста.
ТРУДНОСТИ ВЫЧИСЛЕНИЯ ПОКАЗАТЕЛЕЙ ПО НЕЗАВЕР-
ШЕННЫМ ТЕСТАМ
Существует практическая проблемы, особенно для тестов способ-
ностей, в работе с которыми некоторые испытуемые не укладываются
во время, отведенное для тестирования. Следовательно, некоторые
задания в конце теста остаются невыполненными. Это приводит к
189
искусственному возрастанию корреляции этих заданий с общим по-
казателем теста. Как видно по формулам, приведенным Anstey
(1966); делались попытки учесть это при вычислении корреляции.
Однако, как указывает Anstey, это вряд ли стоит делать. С нашей
точки зрения, лучше всего предъявлять такое количество заданий,
чтобы все они могли быть выполнены. Если, наконец, 10% испытуе-
мых из выборки не выполнили некоторое задание, то это только 10%
утерянной информации, и никакие статистические ухищрения не
могут на это повлиять. Если же это неосуществимо, то, вероятно,
лучше предъявлять задания случайным образом, так, чтобы количе-
ство испытуемых, не выполнивших какое-либо одно задание, было
незначительным.
Доля испытуемых, давших ключевые ответы
Нет необходимости говорить что-либо об этом статистическом
показателе. Единственной трудностью может быть упомянутая выше
- наличие невыполненных заданий. В общем, все, что необходимо
сделать - это подсчитать количество ответов на каждое задание.
Процедуры анализа заданий
Сейчас будут описаны основные практические шаги, необходи-
мые для анализа заданий. Метод, который я проиллюстрирую, был
рекомендован Nunnally (1978) и использовался автором данной кни-
ги при конструировании его собственных тестов. Это коэффициент
точечно-бисериальной корреляции грЬц . Прежде чем описывать вы-
числения и процедуры, остается отметить одну маленькую деталь.
При вычислении корреляции задания с общим показателем не ис-
ключается вклад в общий показатель данного задания, следователь-
но, полученное значение будет выше, чем корреляция этого задания
со всеми другими заданиями. Когда производится испытание большо-
го количества заданий (скажем, около 100), этот эффект можно не
принимать во внимание. Однако, Nunnally (1978) приводит коррек-
тирующую формулу:
гц (corrected) =
r-ltOt-Oi
V(7? +ff? -20i0t Гц
где гц - корреляция задания с общим показателем, 0i - стандар-
тное отклонение для задания, 0( - стандартное отклонение для
теста.
Эту формулу следует применять, если у вас гораздо меньше
заданий.
190
Будем предполагать, что множество испытываемых заданий было
предъявлено большой выборке подходящих испытуемых, как обсуж-
далось выше, и результаты были обработаны. Будем также предпо-
лагать, что задания являются дихотомическими. Формула для Грыя :
Мн - ML гр-
0 "V
где Мн - среднее значение показателей по тесту для испытуе-
мых, давших правильный (ключевой) ответ на данное задание, ML
- среднее значение показателей по тесту для испытуемых, давших
неправильный ответ на данное задание, О- стандартное отклонение
для теста, / - доля испытуемых, давших правильный (ключевой)
ответ на данное задание, ид= ]- Р.
Шаги вычислений в процедуре анализа заданий
( 1 ) Вычислите арифметическое среднее и стандартное отклонение
для всей группы по тесту.
(2) Для каждого задания вычислите среднее значение показателя
по тесту для испытуемых, давших правильный (ключевой) ответ на
это задание (Мн) и отметьте количество испытуемых, сделавших это
WH).
(3) Для каждого задания разделите NH на N . Это дает Р (см.
примечание на стр. 172).
(4) Для каждого задания 1-P=q. Это дает q .
(5) Имея среднее значение общего показателя по тесту для каж-
дого задания, можно получить ML из уравнения:
(Мн Х NH) + (ML Х NL) = Мг Х NT
Это дает Mi.
(6) Для каждого задания перемножьте Р q и возьмите квадратный
корень.
(7) Теперь может быть получен точечно-бисериальный коэффи-
циент корреляции грЫз для каждого задания:
Мн (из шага 2) - ML (из шага 5) Гп- / <- \
-"-т-- VP q (из шага о)
О (из шага 1)
Эта процедура анализа дает нам для каждого долю испы-
туемых, давших ключевой ответ на данное задание (значение Р из
шага 3), и значение корреляции ГрЬю с общим показателем.
Эта процедура несколько длинновата, если у нас большая выборка
и приличный набор заданий, так что на практике разработчик теста
может и не выполнить все эти шаги. Это особенно важно, если при-
меняется корректирующая формула для корреляции (из-за того, что
каждое задание вносит свой вклад в общий показатель). Но в общем
большинство разработчиков тестов имеют доступ к вычислительной
технике, так что в данном случае всю эту работу за вас может сделать
компьютер.
Вычисления на компьютере
Если можно использовать компьютер, то процедура будет выгля-
деть следующим образом:
(1) Для каждого испытуемого показатель по каждому заданию (О
или 1) и общий показатель по тесту вводятся к память компьютера.
(2) Запрашивается программа, печатающая значения корреля-
ции (скорректированной по отмеченной выше формуле) между зада-
ниями и общим показателем.
(3) Запрашивается программа, печатающая долю испытуемых,
давших правильные (ключевые) (1) ответы на каждое задание.
(4) ОБРАТИТЕ ВНИМАНИЕ, что грЬ-is - это численный эквива-
лент коэффициента произведения моментов Пирсона, так что ком-
пьютеру задается программа вычисления последнего.
Краткое вычисление без компьютера
Если у вас нет никаких программ для анализа заданий, можно
использовать краткий метод вычислений вручную, который дает удо-
влетворительную точность для практического отбора заданий, хотя
и будет неразумным использовать полученные коэффициенты кор-
реляции для дальнейшего статистического анализа или восприни-
мать их слишком буквально. В этом методе для оценки Р и грЫч
используются верхние и нижние 27% распределения. Для этого раз-
личными авторами были разработаны таблицы процедуры анализа
заданий. Здесь мы приведем краткий метод с использованием таблиц
Фэна (Fan, 1952), которые просты в использовании и легко доступны
в Великобритании.
ПРОЦЕДУРА АНАЛИЗА ЗАДАНИЙ С ИСПОЛЬЗОВАНИЕМ
ТАБЛИЦ ФЭНА
(1) Отберите 27% лучших (группа Н ) и 27% худших (группа L )
испытуемых по данному тесту.
(2) Для каждого задания подсчитайте долю испытуемых из груп-
пы Н , давших правильный (ключевой) ответ: РН
(3) Сделайте то же самое для группы L: PL
(4) Для каждого задания посмотрите таблицы Фэна, которые для
каждой возможной комбинации Рц и PL дают приближенную оценку
Р и rpbis ,- на пересечении строк и столбцов: каждая строка соответ-
ствует значению РН , а каждый столбец - значению PL
Очевидно, что если у вас есть компьютер, то имеет смысл его
использовать. Тем не менее, всем разработчикам тестов по крайней
мере однажды приходилось анализировать тест вручную, поскольку
видение реального процесса обработки показателей для заданий в
различных группах испытуемых и постоянная перетасовка заданий
теста дают глубокое проникновение в смысл того, что происходит с
заданиями теста - интуицию, которая не может возникнуть из ком-
пьютерных распечаток.
Отбор заданий после их анализа
Описанный метод анализа заданий дал нам два существенно важ-
ных статистических показателя: Р - долю испытуемых, давших
ключевой ответ на задание, и / - корреляцию между заданием и
общим показателем.
Таблица 6.1. Представление результатов
N-200МN-200FN-200MA
Про-Про-Про-
цеду-цеду-педу-
ра 1ра2раЗ
РгРrРr
Задание 11, Нравится ли вам бол-0.410.520.730.350.400.47
тать"
Задание 22. Испытываете ли вы0.250.350.410.280.310.20
иногда чувство ревности?
Задание 33. Объедались ли вы ког-0.950.060.900.120.920.03
да-нибудь?
Задание N
Примечание: 1) это не задания реального теста, их статистические показатели были
придуманы для иллюстрации;
2) М - мужчины, F - женщины, MA - мужчины-военнослужащие.
Как указывалось, для испытуемых разных полов необходимо вы-
полнять отдельные процедуры анализа заданий, и в некоторых слу-
чаях нам может понадобиться более, чем одна выборка, чтобы убе-
диться в стабильности задания. Предположим, что для всех наших
выборок процедуры анализа заданий выполнены. В таблице 6.1 по-
казан удобный способ представления результатов.
4-196
193
Критерии
При отборе заданий для теста есть много разнообразных момен-
тов, о которых следует помнить, и при окончательном отборе мы
должны достичь между ними равновесия. Важность каждого из этих
критериев изменяется до некоторой степени в зависимости от вида
конструируемого теста и его назначения.
Этими критериями являются:
( 1 ) Величина теста. Для обеспечения надежности необходимо от
20 до 30 заданий.
(2) Содержание. В большинстве тестов желательно использование
настолько широкого разнообразия заданий, насколько возможно. Это
в равной степени важно, например, как для математических тестов,
где необходимы задания, выявляющие знания испытуемых в соответ-
ствии со всеми требованиями курса обучения, так и для тестов лич-
ности, с помощью которых должны измеряться столь же широкие
области релевантных аспектов поведения. Например, для экстравер-
сии это будут: общительность, оптимистичность, преобладание бод-
рого настроения и разговорчивость.
(3) Корреляция заданий с общим показателем. Это основной кри-
терий. Чем выше корреляция, тем лучше задание. Ясно, что следует
оставлять в тесте те задания, которые имеют высокую корреляцию с
общим показателем, однако на больших выборках эти цифры могут
быть и низкими. В идеале, все задания должны иметь корреляцию с
общим показателем не ниже 0,2 .
(4) Уровень трудности. Это также важный критерий. Для боль-
шинства тестов принято, что задания со значением Р от 0,80 до 0,20
считаются удовлетворительными. В то же время задание, эффектив-
ное в других отношениях, но со значением Р= 0,19 не должно быть
отброшено. Однако, в некоторых тестах способностей может быть
желательна максимальная дискриминативность для некоторого
уровня измеряемой переменной. Например, для отбора в среднюю
школу в некоторых областях страны требовались тесты с максималь-
ной дискриминативностью на уровне 115-120 IQ; в других регионах,
там, где было меньше мест в средних школах, максимум дискрими-
нативности был на уровне 125 IQ. Чтобы достичь этого, были необхо-
димы задания различного уровня трудности.
Такое утверждение существенно упрощает истинное положение дел. Определяю-
щим является не количество заданий, а их характер (особенности) и назначение
теста (Прим .ред.)
194
Отбор заданий тестов
Простейшая процедура отбора заданий для теста, которая должна
удовлетворять нашей модели измерения (и без каких-либо специаль-
ных уровней трудности) приведена ниже:
(1) Выберите те задания, которые во всех процедурах их анализа
удовлетворяют статистическим критериям ГрЬи и Р .
(2) Изучите те задания, которые не прошли одну из процедур
анализа, чтобы увидеть, не повлияла ли на это какая-либо особая
характеристика выборки. Например, для выборки из учителей автор
данной книги обнаружил, что задание, касающееся дисциплины,
имеет совершенно другие статистические оценки, чем для других
выборок. Это открытие позволило принять решение об использова-
нии этого задания. С другой стороны, задание, касающееся ухода за
детьми, на котором выявились большие различия в зависимости от
пола испытуемых, было удалено, поскольку можно было ожидать,
что такие различия будут иметь место всегда. При сравнения заданий
на мужской и женской выборках были обнаружены множество эф-
фективных заданий для мужчин и множество эффективных заданий
для женщин, но они имели относительно малое пересечение, следо-
вательно, это было явным показанием к тому, что на этих множест-
вах желательно создание отдельных тестов.
(3) Проверьте содержание отобранных заданий. Охватывают ли
они все характеристики, которые мы предполагали измерять при
помощи данного теста? Если нет, то изучите отбракованные задания,
чтобы посмотреть, есть ли среди них такие, которые измеряют эти
черты и почти удовлетворяет статистическим критериям. Если есть
несколько таких заданий, они должны быть введены в тест. Если нет,
то из этого вытекают два следствия: (а) эти задания, при предъявле-
нии вместе с отобранными, не образуют однородный тест; или (б) мы
сформулировали неудачные задания. Если мы остановимся на (б), то
задания должны быть переформулированы и опять подвергнуты ис-
пытаниям (см. стр. 197).
(4) Подсчитайте количество отобранных заданий. Если их коли-
чество приближается к рекомендованному (20-30) и охватывает все
содержание теста, вычислите коэффициент надежности K-R20. Он
всегда должен быть не менее 0,7; в противном случае в силу ряда
причин, как об этом говорилось при обсуждении процедуры отбора
по внутренней согласованности, можно ожидать более низкой одно-
родности теста. Если же значение надежности удовлетворительно, то
первое испытание заданий может быть окончено. Сконструирован
однородный, надежный, очевидно релевантный по содержанию тест.
т 195
(5) Если значение коэффициента надежности невысокое, то мож-
но добавить к тесту задания, имеющие наилучшие показатели по
статистическим критериям из оставшихся. Затем пересчитывается
коэффициент надежности K-R20 всякий раз, когда мы пытаемся
добавлением заданий увеличить значение надежности. Однако, уда-
стся ли это сделать - зависит от случая. Если нововведенные задания
слабо коррелируют с общим показателем, то они не смогут значи-
тельно увеличить надежность. Необходимо испытывать новые зада-
ния (см. стр. 197).
(6) Если испытание заданий завершилось созданием теста, надеж-
ного и удовлетворительного по содержанию, есть смысл изучить рас-
пределение показателей. Обычно распределение должно быть сим-
метричным. Практически, поскольку наибольшие значения корре-
ляции, вычисленной по формуле rpbis , бывают присущи заданиям,
близким к средним по уровню трудности, то почти неизбежно будет
получено симметричное распределение. Если же оно значительно
смещено, то для его корректировки нам могут понадобиться новые
задания, но в процессе стандартизации возможно приведение пока-
зателей к другому виду распределения.
Следует изучить дисперсию. Она должна быть настолько боль-
шой, насколько возможно, так как это означает, что тест является
эффективно дискриминирующим. При малом значении дисперсии в
тест нужно вводить новые задания. Если большое количество испы-
туемых получили максимальные и минимальные показатели, то для
этих уровней трудности могут потребоваться новые задания, по-
скольку ясно, что наш тест не является дискриминативным на этих
уровнях, и на более крупных выборках из изучаемой популяции
следует ожидать еще большего количества таких испытуемых.
(7) Если тест представляется удовлетворительным по дисперсии и
дискриминативности, вычислите Ферпосона. Если ее значение пре-
вышает 0,9 , то с уверенностью можно сказать, что тест является
дискриминативным.
(8) Если все получилось и похоже, что нам удалось сконструиро-
вать удовлетворительный набор заданий, проведите процедуру ана-
лиза этих заданий на новой выборке. Если более, чем одно или два
задания не удовлетворяют статистическим критериям rpbis и Р , яв-
ляющимся единственными критериями, интересующими нас при
этой повторной проверке, то эти задания должны быть переформули-
рованы и испытаны вновь.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39