Люди используют в процессе восприятия
формы мириады когнитивных и физиоло-
гических признаков, чтобы получить одно
целостное впечатление; насколько нам из-
вестно, это свойственно лишь разумным
существам.
61 62
Распознавание паттернов
79
неравенство. Как мы увидим, даже самое обычное распознавание паттер-
нов включает сложное взаимодействие ощущений, восприятия, КВП, ДВП
и когнитивного поиска с целью идентификации стимулов.
Подходы к распознаванию зрительных паттернов
Какие же когнитивные процессы нужно постулировать, чтобы объяснить
нашу способность классифицировать зрительные паттерны? Этот вопрос
изучался с нескольких теоретических позиций. Из них мы обсудим следу-
ющие:
Гештальт-психология. Распознавание паттернов основано на воспри-
ятии целого стимульного паттерна. Отдельные части целостной конфигу-
рации приобретают свое значение, находясь в составе целого.
Обработка информации, по принципу "снизу-вверх" или "сверху-
вниз"1. Распознавание паттерна начинается с отдельных его частей ("сни-
зу-вверх"), суммирование которых ведет к опознанию всего паттерна; либо:
распознавание всего паттерна ведет к опознанию его компонентов ("сверху-
вниз").
Сравнение с эталоном. Распознавание паттернов происходит при на-
личиии совпадения сенсорных стимулов с соответствующей внутренней
мысленной формой.
Подетальный анализ. Распознавание паттерна происходит после ана-
лиза элементарных свойств входных стимулов (аналогично обработке по
принципу "снизу-вверх"2).
Опознание по прототипу. Распознавание паттерна происходит при
наличии совпадения воспринимаемого паттерна с абстрактным или иде-
альным умственным паттерном,
Принципы гешталыа
Некоторые стимульные паттерны одинаково опознаются разными людьми.
Так, большинство людей опознают следующий зрительный паттерн: ||
и называют его квадратом. В начале 20-го века гештальт-психологи |___|
изучали то, как мы организуем и опознаем зрительные стимулы. Согласно
первым гештальт-психологам, паттерн организуется так, что все стимулы
Принцип "снизу-вверх" соответствует русскому выражению "от частного к
общему", а принцип "сверху-вниз" - выражению "от общего к частному"
(соответственно, индуктивный и дедуктивный методы). Русские выражения
обычно относятся к процессам мышления, американские аналоги - к любым
процедурам (в том числе и сенсорным), выполняемым человеком или маши-
ной.- Прим. ред.
Аналогия чисто внешняя: часть стимула (в принципе "снизу-вверх") может
быть как элементарной, так и сложной его компонентой,- Прим. ред.
Обнаружение и интерпретация сенсорных сигналов
80
действуют совместно и таким образом производят впечатление большее,
чем сумма ощущений от каждого отдельного стимула. Вертгаймер
(Wertheimer, 1923) формулирует основные принципы психологии гештальта
в следующем рассуждении:
"Я стою у окна и вижу дом, деревья, небо. Теоретически я мог бы
все подсчитать и сказать: "здесь... 327 градаций яркости и
оттенков." Разве я вижу "327"? Нет, я вижу небо, дом, деревья; и
никто не может видеть эти "327" как таковые. Более того, если
в этом странном подсчете отнести на счет дома, скажем, 120,
на счет деревьев - 90, и на счет неба - 117, то я во всяком случае
буду иметь дело с этим сочетанием, с этой отдельностью, а не,
скажем, со 127, 100 и 100 или 150 и 177. Я вижу все это в данном
конкретном сочетании, данном конкретном единстве; и тот тип
сочетания или единства, при котором я вижу,- это не просто
мой выбор: почти невозможно, чтобы я увидел все это в
произвольно выбранной мной комбинации. Было бы весьма странно,
если бы мне удалось видеть какое-то необычное сочетание.
Пришлось бы только удивляться тому, как после длительного
рассматривания и многих попыток я бы. вдруг обнаружил - под
влиянием какой-нибудь нереальной установки - что вот эти части
оконной рамы вместе с какой-нибудь ровной веткой дерева
составляют букву N".
Согласно Вертгаймеру, некоторые стимульные паттерны стремятся к
естественной (или "спонтанной") организации. Например, весьма вероят-
но, что изображение:
вызовет у вас впечатление ряда из восьми точек. А если из них составить
такой паттерн:
то вы будете склонны видеть четыре группы двухточечных паттернов, и
при этом будет достаточно трудно мысленно переставить их так, чтобы
видеть первую точку отдельно, вторую и третью - вместе, четвертую и
пятую - вместе, шестую и седьмую - вместе, а восьмую - снова от-
дельно. Или, если те же самые восемь точек расположить так:
то вы будете склонны видеть квадрат, круг и абстрактную форму
соответственно.
Вертгаймер предложил следующие принципы такой организации:
Близость. Элементы, близко расположенные во времени или простран-
стве, имеют тенденцию восприниматься вместе. Например, линии на
Рис.3.1а склонны видеться в виде трех пар линий.
Распознавание паттернов
81
Рис. 3.1. Приме-
ры перцептивных
факторов, пос-
тулированных в
гештальт-психоло-
гии (см. текст).
Сходство. Одинаковые элементы, входящие в одну структуру, имеют
тенденцию восприниматься вместе (Рис.3.1Ь).
Направление. Элементы, образующие непрерывное плавное
направление, имеют тенденцию восприниматься вместе (Рис.3.1 с).
Объективная установка. Однажды воспринятая организация имеет
тенденцию видеться в сходных организациях, непосредственно следующих
за ней (Рис.3. Id). Если мы смотрим на точки слева направо, то мы склонны
продолжать видеть точки так, как они расположены на левой фигуре (т.е.
парами), хотя на правой фигуре фактор близости уже отсутствует.
Общая судьба. Элементы, выделенные из общей группы сходным
образом, сами стремятся объединиться в группу, как показано на Рис.3.1е.
Прегнантность. Фигуры видятся настолько "хорошо", насколько это
возможно при данных стимульных условиях. "Хорошая" фигура - это
стабильная, такая, которую нельзя упростить или упорядочить путем
изменения восприятия. Например, разрывы в фигурах на Рис.3. If
фактически не замечаются, и эти фигуры видятся как более "хорошие"
круг и треугольник.
Ранние гештальтисты (в частности, Келер (Koehler, 1947)) особо на-
стаивали том, что спонтанная организация паттерна есть естественная
функция стимула как такового и очень слабо связана с прошлым опытом
Обнаружение и интерпретация сенсорных сигналов
82
человека. Хотя споры об истоках "естественной организации" продолжа-
ются, результаты многих экспериментов (некоторые из них основаны на
меж-культурных исследованиях3) подтверждают/что "естественная орга-
низация" паттерна непосредственно связана с перцептивной историей
индивидуума.
Изучение распознавания паттернов в когнитивной психологии значи-
тельно отклонилось от курса, взятого в ранних исследованиях гештальти-
стов. Теперь когнитивные психологи переключили свое внимание с осо-
бенностей элементарных стимулов на "внутренние" структуры и процес-
сы, связанные с опознанием сложных паттернов. Ниже мы рассмотрим
некоторые их этих моделей, а также паттерны, на которых они основаны.
Как мы распознаем образ? Узнаем ли мы собаку потому, что сначала уви-
дели ее шерсть, четыре ноги, глаза, уши и пр.,- или мы узнаем эти части
потому, что сначала увидели собаку? Эта проблема - начинается ли рас-
познавание с частей паттерна, которые служат только основанием для
распознавания целого ("снизу-вверх"), или же оно начинается с выдвиже-
ния гипотезы о целом, которая позволяет его идентифицировать, а потом
опознаем его составные части ("сверху-вниз") - называется "аналити-
ческий парадокс". (Термины "снизу-вверх" и "сверху-вниз" заимствованы
из компьютерной лексики.)
Некоторые теоретики, например, Палмер (Palmer, 1975a) предположи-
ли, что при определенных обстоятельствах опознание частей и целого может
происходить одновременно в направлении снизу-вверх и сверху-вниз. В
качестве примера взаимодействия стратегий "от частного к общему" и "от
общего к частному" Палмер приводит опознание частей лица в контексте
и без такового. Как видно из Рис.3.2, части лица, легко опознаваемые в
контексте, выглядят неоднозначно, если стоят отдельно, но становятся
узнаваемыми при более подробном изображении или когда снабжены до-
полнительной информацией.
Более подробно об этом см. Deregowski (1973, 1973); Deregowski, Muldrow,
and Muldrow (1967); Hudson (1967).
Принципы
обработки
информации:
"снизу-вверх"
и "сверху-
вниз"
Рис. 3.2. Черты
лица, опознава-
емые в контексте
всего профиля (А),
вне контекста опо-
знать труднее JBJ.
Однако, если эти
черты изобразить
более полно и ре-
алистично IQ, они
опознаются легче.
Заимствовано у
Palmer, 1975a.
Распознавание паттернов
83
В различных контекстах мы ожидаем увидеть определенные объекты.
В кабинете врача мы обнаруживаем стетоскоп, на кухне - столовое
серебро, в офисе - пишущую машинку, а на улице - пожарный кран.
Похоже, что такое "знание о мире" каким-то образом облегчает
идентификацию объектов в знакомых контекстах и мешает их
идентификации в неподходящих контекстах. Несколько исследований
"влияния контекста", проведенных Бидерманом и его сотрудниками
(Biederman, 1972; Biederman, Glass, and Stacy, 1973), показали, что когда
испытуемые ищут объект в сценах из реального мира (например, объекты
в своем институте или на улице), то точность опознания и требуемое для
идентификации время зависит от соответствия объекта его положению в
данной сцене.
Другие свидетельства влияния контекста на опознание объектов
приведены в работе Palmer, 1975a, 1975b. В одном эксперименте
испытуемым показывали сцену - такую, как слева на Рис.3.3,- а затем
на очень которое время предъявляли объекты - такие, как в правой части
этого рисунка. Испытуемых просили опознать воспринимаемый объект и
степень их уверенности в своем ответе по пятибалльной шкале. Этими
"целевыми объектами" были: (1 Соответствующие сцене (например, хлеб),
(2)несоответствующие сцене, но внешне сходные с первыми (например,
почтовый ящик), и (З)несоответствующие сцене и несходные с первыми
внешне (например, барабан). В дополнительном условии эксперимента
испытуемым предлагалось идентифицировать целевые объекты без кон-
текстуальной сцены. Результаты показаны на Рис.3.4. Кривая "правильных
ответов" показывает количество правильных опознаний в зависимости от
контекста. Правильное опознание объекта при соответствующем контексте
(узнавание буханки хлеба после показа сцены "кухня") составило около
84%, тогда как правильное опознание целевого объекта без контекста или
при несоответствующем контексте происходило значительно реже.
Из этих и других аналогичных исследований, в которых на фоне
контекста идентифицировались буквы и слова, ясно, что на восприятие
объекта значительно влияют ожидания человека, задаваемые контекстом.
Рис. 3.3. Рисун-
ки, использован-
ные при изучении
влияния контекста.
Предъявление
сцены (левая часть
рисунка) задает
контекст для одно-
го из рисунков
(справа), изо-бра-
жающих опозна-
ваемые объекты:
буханка хлеба,
почтовый ящик,
барабан. Взято из
Palmer, 1975b.
КОНТЕКСТУАЛЬНАЯ СЦЕНА
ПРЕДЪЯВЛЯЕМЫЙ
ОБЪЕКТ
Обнаружение и интерпретация сенсорных сигналов
84
Одна из гипотез о том, как распознаются паттерны и формы, называется
"сравнение с эталоном". В нашем случае с распознаванием паттернов че-
ловеком эталон - это некоторая внутренняя структура, которая при ее
сопоставлении с сенсорными стимулами позволяет опознать объект. Со-
гласно такому представлению о распознавании, в процессе приобретения
жизненного опыта у нас образуется огромное количество эталонов, каж-
дый из которых связан с некоторым значением. Так, зрительное опозна-
ние формы, например, геометрической фигуры, происходит следующим
образом: световая энергия, исходящая от этой фигуры, воздействует на
сетчатку глаза и преобразуется в нервную энергию, которая передается в
мозг. Осуществляется поиск среди имеющихся эталонов. Если находится
эталон, который соответствует нервному паттерну, человек опознает этот
паттерн. После сопоставления объекта с его эталоном может происходить
дальнейшая обработка информации и интерпретация объекта.
Сравнение с эталоном как одна из теорий распознавания паттернов
имеет свои сильные и слабые стороны. С положительной стороны, кажет-
ся очевидным, что для опознания некоторой фигуры, например, буквы или
какой-нибудь визуальной формы, нужен определенный контакт с соответ-
ствующей внутренней формой. На каком-то уровне абстракции для опоз-
нания объекта "внешней реальности" необходимо, чтобы он был представ-
лен в долговременной памяти. С другой стороны, буквальная интерпрета-
ция теории сравнения с эталоном встречается с определенными трудно-
стями. Например, если опознание возможно только тогда, когда между
"внешним" объектом и его "внутренней" репрезентацией имеется соот-
ветствие 1:1, то это значит, что даже при незначительном расхождении
между объектом и его эталоном опознания не произойдет. Поэтому стро-
гое следование этой теории означало бы необходимость формирования
несчетного количества эталонов, соответствующих каждой из разнообраз-
ных геометрических форм, которые мы видим и узнаем.
Легкость, с которой мы распознаем зрительные образы в повседневной
жизни, может навести на мысль, что это очень простой процесс, и все же,
Рис. 3.4. Кривые
ответов испытуемо-
го в исследовании
влияния контекста.
По горизонтали:
А- соответствую-
щий контекст; N-
нет контекста; "Is"-
несоответствующий
контекст, сходный
объект; и Ib-не-
соответствующий
контекст, непохо-
жий объект. Адапти-
ровано из: Ru-
melhart (1977J по
данным Palmer
11975Ь1.
Сравнение с
эталоном
Распознавание паттернов
85
когда мы пытаемся воспроизвести опознание с помощью искусственных
средств, то оказывается, что результат от нас ускользает. Возьмем для
примера опознание букв и устройство для распознавания слов. Чтобы на-
учиться хорошо читать, нужно потратить несколько лет, но когда мы на-
учились распознавать орфографическую конфигурацию, составляющую
слово, мы можем мгновенно узнать это слово в различных контекстах,
произнести его и вспомнить его значение. Как бы вы смоделировали ис-
ходный процесс опознания буквы на компьютере? Один из способов -
это хранить в "памяти" компьютера каждую из 26 букв. Тогда каждый раз,
когда буква сканировалась бы оптическим устройством, воспринимаемая
зрительная конфигурация "настраивалась" бы на элемент памяти (эта-
лон), связанный с этой буквой. Так, слово CARD (карточка) анализирова-
лось бы как C-A-R-D, т.е. "С" настраивалось бы на ячейку памяти, соот-
ветствующую конфигурации "С", для "А" нашлось бы соответствие в ячейке
"А" и т.д. "Вуа-ля! - мог бы воскликнуть компьютер,- а я читаю буквы!"
Но что если бы мы попросили его опознать буквы в слове "card"? В его
памяти нет конфигураций для написания букв в нижнем регистре. Реше-
ние просто, скажете вы: увеличьте память и включите туда буквы нижне-
го регистра. Но тогда мог бы наш компьютер прочитать (как это делаем
мы) буквы, написанные вот так:
ОРдСГили так Obdили так 0гд/или так Су1й)
Конечно же, в чтении участвуют гораздо более сложные процессы, чем
простое опознание букв. Прием, используемый в компьютерной техни-
ке,- сравнение конфигурации букв с конкретными конфигурациями в
памяти машины - называется "сравнение с эталоном"; это похоже на
поворот ключа в замке. Чтобы открыть замок, конфигурация бороздок Ь
выемок на ключе должна совпасть с конфигурацией замка. На языке рас-
познавания образов при сравнении с эталоном происходит следующее:
когда зрительная конфигурация соответствует совместимой с ней репре-
зентации в памяти, информация высвобождается. Как видно из примера с
компьютером, метод сравнения с эталоном встречается с трудностями при
попытке опознать слово "CARD", если в его написании есть какие-либо
отклонения,- это все равно, что пытаться открыть замок погнутым клю-
чом.
Таким образом, сравнение с эталоном - это элементарная процедура
распознавания паттернов, основанная на том, что конфигурация сенсор-
ной информации точно подходит к соответствующей "конфигурации" в
памяти; и хотя ее возможности ограничены, она имеет определенное тео-
ретическое и практическое значение. Теоретические вопросы, связанные
с этим методом, мы затронем позднее. Что касается его практических
применений, то они весьма многочисленны.
Итак, в случае распознавания паттернов человеком "жесткое" следо-
вание этой модели привело бы к необходимости создания миллионов от-
дельных шаблонов, каждый из которых соответствовал бы отдельному
зрительному паттерну.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81