А-П

П-Я

А  Б  В  Г  Д  Е  Ж  З  И  Й  К  Л  М  Н  О  П  Р  С  Т  У  Ф  Х  Ц  Ч  Ш  Щ  Э  Ю  Я  A-Z

 

В самом деле,
rkk дает нам ожидаемую корреляцию теста, состоящего из k заданий,
с другим тестом из k заданий из одной и той же генеральной совокуп-
ности. rkk - это надежность, вычисляемая по взаимным корреля-
циям заданий теста.
Формула Спирмена-Брауна (1.6) используется при вычислении
надежности теста при расщеплении его на две части (когда корреля-
ция между половинами теста пересчитывается в зависимости от их
величины). Здесь каждая половина теста рассматривается как выбор-
ка из генеральной совокупности. Это позволяет упростить формулу
для частного случая (при k=2). Формула Спирмена-Брауна для вы-
числения надежности теста при расщеплении его пополам имеет вид:
_ 2п2
1+П2
где /12 - корреляция между двумя половинами теста.
В самом деле, основная формула (1.6) выполняется независимо
от величины оцениваемых методик.
Надежность и выборки заданий
Методы вычисления надежности тестов, которые подробно для
практической разработки тестов будут описаны в главе 5, имеют свои
статистические основания в данной модели погрешностей измерения.
Действительно, для вычисления надежности теста может быть ис-
пользована формула Спирмена-Брауна. Однако, вычисление корре-
ляционных матриц является громоздким, и, в результате, были раз-
работаны другие методы, по сути, аналогичные, хотя и выглядят они
иначе.
39
КОЭФФИЦИЕНТ
И Cronbach (1971), и Nunnally (1978) рассматривают коэффици-
ента как наиболее важный показатель надежности теста, а формула
его вычисления относительно проста. Как показано у Nunnally
(1978), она выведена из классической модели погрешностей измере-
ния. Коэффициент а определяется как оценка корреляции данного
теста с другим тестом такой же длины из одной генеральной совокуп-
ности заданий. Квадратный корень из нее - это оценка корреляции
данного теста с истинным показателем. Таким образом:
coefficient О.
k
"k=\
()

(1.7)
(1.8)
где k - количество заданий в тесте, "Lo - сумма дисперсий для
заданий, и о у - дисперсия для данного теста.
Формула Kuder-Richardson 20 (K-R20) является частным случаем
коэффициента О. для заданий дихотомического типа:
k /1 PQ.
-Т(--.
где Р-доля испытуемых, давших правильные (ключевые) отве-
ты на задания, от общего количества испытуемых, Q ==1- Р,о
-дисперсия для теста.
Этот коэффициент прост для вычисления и, естественно, имеет те
же характеристики, что и коэффициент G., причем PQ является эк-
вивалентом и для дихотомического случая.
Из формулы коэффициента О. можно также сделать вывод, что
надежные тесты имеют большую дисперсию (и, следовательно, явля-
ются более дискриминативными), чем ненадежные тесты - важное
практическое следствие этого аспекта данной модели .
Используя классическую модель погрешностей измерения, мож-
но оценить истинные показатели по полученным эксперименталь-
ным показателям. Однако, это не имеет большого отношения к кон-
струированию тестов вследствие малой практической значимости, и
мы не будем обсуждать здесь этот вопрос.
Из данной модели можно получить одну важную статистическую
величину (она упоминалась в начале данного раздела) - стандар-
Дисперсия и дискриминативность связаны косвенно. При большой дисперсии
надежность низкая (в понимании повторяемости результатов) (Прим.ред.)
40
тную погрешность измерения. Это ожидаемое стандартное откло-
нение от показателей для любого индивидуума, выполняющего боль-
шое количество параллельных тестов. Оно может быть использовано
для определения доверительных границ полученных показателей,
хотя эти зоны располагаются симметрично вокруг истинного, а не
эмпирического показателя (момент, обычно игнорируемый на прак-
тике) .
ffmeas =Ox/VT
(I.I)
где х - это множество полученных показателей и t - это множе-
ство истинных показателей.
= CTx/Vl -Гхх
(надежность)
Таким образом, стандартная погрешность измерения является
стандартной погрешностью оценивания истинных показателей, ис-
ходя из полученных показателей.
О классической модели погрешностей измерения сказано уже до-
статочно. Надеюсь, что содержательные обоснования и статистиче-
ские основания психометрических формул, используемых при раз-
работкетестов, теперьмогутбыть понятыми. Онинеявляютсятолько
лишь изобретениями разработчиков тестов, а вытекают логически из
предположений о погрешностях измерения, которые допускаются в
классической психометрии. Поэтому, давайте завершим рассмотре-
ние этого вопроса и перейдем к следующей теме, гораздо более про-
стой, но, несмотря на это, очень полезной в области приложений
психологического тестирования.
Стандартизация и нормы
Дальнейшая характеристика эффективных тестов, не являющая-
ся, однако, внутренней особенностью, присущей самому тесту, - это
наличие нормативных данных. Нормы - это множество показателей
из четко определенных выборок, а разработка и процедуры получе-
ния этих показателей составляют процесс стандартизации теста.
Нормы позволяют использующему тест адекватно интерпретиро-
вать показатели, которые он получает от индивидуумов. Они, следо-
вательно, имеют большее значение для практического применения
тестов, чем для исследовательских целей, где используются исход-
ные, не подвергнутые обработке показатели теста и где нормы добав-
ляют лишь немного полезной информации.
В главе 8 будет описано, как должны определяться нормы для
различных видов тестов. Здесь же достаточно сказать, что комплек-
тование групп испытуемых должно быть адекватным, а их количест-
41
во - большим. В противном случае нормирование теста может ока-
заться скорее вредным, чем просто бесполезным, то есть, на самом
деле вводящим в заблуждение. Несмотря на это, если стандартизация
выполнена соответствующим образом, показатели психологических
тестов дают нам основу для сравнения, которого не может предоста-
вить ни одна нестандартизированная процедура.
Следует также понимать, что большинство методов испытаний,
отличных от тестов, не могут быть стандартизированы, так что эта
возможность является важной характеристикой психометрических
тестов.
Некоторые другие модели ответов
на задания тестов
Теперь я хотел бы обсудить некоторые другие подходы к психоло-
гическому тестированию, в которых делаются иные предположения
об особенностях ответов на задания тестов. Некоторые из них явля-
ются особенно важными, поскольку они позволяют использовать
шкалы отношений а также потому, что они дают возможность разра-
батывать тесты с подмножествами действительно эквивалентных за-
даний - свойство, которое было использовано в последних разработ-
ках по психологическому тестированию : индивидуально-ориенти-
рованному тестированию и компьютерному тестированию. Оба эти
метода описаны в главе 10. В данной главе я намереваюсь обсудить,
хотя и кратко, теоретические обоснования этих методов.
Кривые зависимости "задание-ответ"
Методы, основанные на кривых зависимости "задание-ответ",
описывают вероятность ответов "Да" или "Нет" на дихотомические
задания, относящиеся к гипотетическим свойствам или латентным
чертам, которые они измеряют. Их статистическая основа полностью
описана у Lord и Novick (1968).
Существует много различных моделей ответов на задания теста,
базирующихся на методе кривых зависимости "задание-ответ", ко-
торые Levy (1973) отмечает как получившие широкое признание.
Birnbaum (1968) описал общую модель латентных черт, согласно
которой вероятность правильного ответа - это функция от трудности
задания, способностей тестировщика и параметра угадывания. Мо-
дель Раша (Rasch, 1966) является, по существу, особым случаем
модели Бирнбаума и связана с процедурой шкалирования по Гутмену
(Guttman, 1950), в которой задания отбираются в порядке их трудно-
сти, так что любой испытуемый, который не смог выполнить задание
X, не может также выполнить все задания, более трудные, чем X, но
42
успешно разрешает все более легкие задания. Как указывает Levy
(1973), если по шкале Раша задания различимы в терминах трудно-
сти, то в результате получаем шкалу Гутмена, если же это невозмож-
но, что бывает редко, то строится вероятностная версия шкалы Гут-
мена. Аналогично, Lord и Novick показали, что модель Lazarsfelda
(1950) является частным случаем модели Бирнбаума.
Вероятность
ответа
Атрибут или свойство
Ъ
Рисунок 1.1.
На рис. 1.1 показаны некоторые гипотетические кривые зависимо-
сти "задание-ответ" для двух заданий, что помогает прояснить роль,
которую играют эти кривые при конструировании-психологических
тестов. Прежде всего, следует заметить, как подчеркивает Nunnally
(1978), что латентные черты или свойства являются гипотетически-
ми и зависят от заданий. В этом отношении, данные модели не отли-
чаются от тестов других видов, обсуждавшихся нами ранее. Гене-
ральный фактор, присутствующий во всем наборе заданий, является,
как мы видели, понятием для объяснения вариации (дисперсии) за-
даний.
Давайте предположим, для иллюстрации, что латентной чертой
двух заданий рисунка 1.1 является интеллект. Испытуемые распре-
деляются по непрерывной (континуальной) шкале - от низкого до
высокого уровня интеллекта. Пусть "а", "Ь" и "с" - три точки на
этой шкале. Испытуемые в точке "а" имеют вероятность 0,015 пра-
вильного ответа на задание 2 и вероятность 0,15 правильного ответа
на задание 1. Те же испытуемые в точке "с" имеют вероятность 1
правильного ответа на задание 2 и вероятность 0,95-на задание 1.
Крутизна кривых на рис. 1.1 не совпадает. В моделях, основанных
на кривых зависимости "задание-ответ", предполагается, что они
являются кривыми нормального распределения.
Кривые зависимости "задание-ответ" в применении
к тестированию
Не следует ожидать или стремиться к тому, чтобы кривые зависи-
мости "задание-ответ" для всего объема заданий были идентичными.
Если это так, то каждое задание будет иметь идентичные характери-
стики. Наоборот, выдвигается предположение, что каждое задание
имеет тенденцию соответствовать конкретной кривой. Характери-
стики заданий отражаются в кривых зависимости "задание-ответ" и
частично показаны на рис. 1.1. Такими характеристиками являются:
( 1 ) Трудность ( (1 )- difficulty
Эта характеристика отражается тем, насколько далеко вправо или
влево смещена кривая, и определяется как точка на оси свойства, в
которой кривая пересекает значение вероятности 0,5. Так, задания
на рис. 1.1 имеют практически одинаковую трудность.
(2) Дискриминативность ( r )- discriminability
Это отражается в крутизне кривой. Чем выше значение r , тем
более точно задание выделяет среди испытуемых по латентной черте
тех, которые попадают в интервал, соответствующий значению ве-
роятности 0,5.
Подмножества заданий
На рис. 1.1 показано, что при помощи кривых зависимости "зада-
ние-ответ" можно приблизительно оценить показатели испытуемых
для заданий, которые они не выполняли, считая, что положение этих
заданий на континууме латентных черт известно. Это означает, что
показатели испытуемых на подмножествах заданий позволяют де-
лать приблизительные оценки для всего теста, и могут быть выделены
эквивалентные подмножества заданий. Такие индексы трудности за-
даний имеют тенденцию быть более стабильными, будучи независи-
мыми от выборки, чем простые уровни трудности, оцененные пропор-
ционально количеству испытуемых, давших правильный ответ, ко-
торые являются сильно зависимыми от выборки испытуемых.
Пока по этим методам разработано еще недостаточное количество
тестов для того, чтобы убедиться, насколько эффективно они могли
бы работать на практике. Nunnally (1978) показал, что корреляция
между тестами, сконструированными по этим методам и по обычно-
му методу, является высокой. Тем не менее, один из этих методов, а
именно метод Раша (Rasch, 1966), получил как сильную поддержку
(например, Elliot и др., 1978), так был подвергнут и некоторой кри-
тике (например, Mellenbergh, 1983), и в качестве особой версии ме-
тодов конструирования тестов, основанных на кривых зависимости
"задание-ответ", заслуживает краткого обсуждения.
44
Модель Раша
Эта модель (Rasch, 1960) может быть описана несколькими спо-
собами. Здесь мы представляем один из них, наиболее легко интерп-
ретируемый. Модель позволяет: (1) предоставить процедуру, кото-
рая могла бы показывать, является ли шкала внутренне согласован-
ной, вне зависимости от диапазона изменения черты в выборочной
совокупности; и (2) выявлять любые взаимозависимости между за-
даниями и выборочной совокупностью заданий (так как дисперсия
заданий внутри выборочной совокупности должна отличаться от дис-
персии между выборочными совокупностями), что, конечно, свиде-
тельствует о сомнительных моментах при любых сравнениях между
выборочными совокупностями, например, в кросс-культурных исс-
ледованиях.
Когда испытуемый V выполняет задание k и отвечает на него "Да"
или "Нет", переменная ответа xvk получает значение 0 или 1, в
зависимости от того, соответствует ли ответ высокой или малой сте-
пени проявления измеряемой черты. Полагается, что значение отве-
та зависит как от возможности задания k выявить степень присутст-
вия данной черты у всех испытуемых, так и от степени выраженности
этой черты у некоторого испытуемого, дающего ответы на все зада-
ния. Пусть выраженность черты испытуемого, которая будет назва-
на мерой черты испытуемого, будет представлена параметром Ту, и
пусть характеристика того, что в задании k имеется для выявления
степени выраженности черты (в тестах способностей, например, на-
зываемая трудностью задания), будет представлена параметром аъ..
Модель ответа, дающая вероятность показателя xvk, принимает тогда
следующий вид:
)-
Очевидно, что чем больше мераТУ, тем больше вероятность того,
что испытуемыйУполучит показатель 1 за свой ответ, и, аналогично,
чем ниже характеристика аь. задания k, тем больше вероятность того,
что испытуемый также получит показатель 1 за свой ответ. Также
понятно, что параметры испытуемого и задания считаются одномер-
ными. Если ответы испытуемых на некоторое множество заданий
удовлетворяют условиям данной модели, то очевидно, что задания
дают одномерные шкалы, или, в традиционной терминологии, что
задания внутренне согласованы или однородны.
Определяющим свойством модели ответа, определяемой форму-
лой (1.9), явно указанным у Rasch (1960, 1961) и Wright (1968),
45
является то, что оценки a.k независимы от значений TV и являются,
следовательно, также независимыми от распределения данной черты
в любой выборке испытуемых, ответы которых анализируются. Как
следствие, могут быть получены данные, касающиеся внутренней
согласованности шкалы в рамках выборочной совокупности, без ка-
кого-либо влияния слабого разброса в измеряемой выборке. Кроме
того, поскольку приблизительная оценка значения a.k для каждого
задания k должна быть эквивалентна, независимо от способов изме-
рения испытуемого, используемых для получения результатов, мо-
жет быть выполнена проверка согласованности шкалы между выбо-
рочными совокупностями.
Для оценивания параметров ад и Ту , а также для идентификации
тех заданий, ответы на которые не описываются данной моделью или
не соответствуют ей, был разработан ряд процедур.
При оценивании параметров производится максимизация вероят-
ности матрицы ответов по отношению к параметрам заданий и испы-
туемых одновременно, тогда как проверка соответствия заключается
в проверке того, могут ли исследуемые данные быть описаны данной
моделью, и выполняется уже после оценивания параметров.
Проверка того, являются ли задания внутренне согласованными
относительно некоторой одной выборочной совокупности, будет на-
зываться согласованностью заданий в рамках выборочной совокуп-
ности (within-population item-fit). Проверка того, соответствуют ли
задания данной модели относительно нескольких выборочных сово-
купностей, будет называться согласованностью заданий между выбо-
рочными совокупностями (among-population item-fit). Процедура
для выполнения этой проверки получается непосредственно из того
свойства, что оценки параметров заданий должны быть независимы-
ми от того, какие испытуемые выполняли эти задания. Для каждого
задания значения параметров, полученные для выборки из каждой
выборочной совокупности испытуемых, статистически сравнивают-
ся. Для подробного ознакомления со сложными уравнениями оцени-
вания читатели могут обратиться к Wright (1968) или Rasch (1961).
Модель Раша является математически гораздо более сложной,
чем классическая модель, и для вычислений по ней нужна компью-
терная программа.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39