Глава 6 Обработка зрительной информации при помощи нейроподобных сетей

ТЕХНИЧЕСКОЕ ЗРЕНИЕ

МАШИННОЕ ЗРЕНИЕ

КОМПЬЮТЕРНОЕ ЗРЕНИЕ

ЗРЕНИЕ РОБОТОВ

ГЛАВНАЯ
СТАТЬИ
ПРОГРАММЫ
ЛИТЕРАТУРА
МЕРОПРИЯТИЯ

из книги Нейрокомпьютеры и интеллектуальные роботы/ под ред. Амосова Н. М., — Киев, "Наукова думка", 1991.
авторы книги: Амосов Н. М., Байдык Т.Н.,Гольцев А.Д., Касаткин А.М., Касаткина Л.М., Куссуль Э.М., Рачковский Д.А.

Глава 6
ОБРАБОТКА ЗРИТЕЛЬНОЙ ИНФОРМАЦИИ ПРИ ПОМОЩИ НЕЙРОПОДОБНЫХ СЕТЕЙ

На этой странице представлен материал только из первых параграфов главы 6.

Содержание 6 главы

6.1. Яркостная сегментация изображений
6.2. Очерчивание границ яркостных пятен на изображении
6.3. Подсчёт компактных областей на изображении

Нейронные сети зрительного анализатора живых организмов являются в настоящее время единственным известным устройством, способным распознавать сложные зрительные образы. Этот факт делает весьма правдоподобным предположение, что аппарат нейроподобных сетей представляет собой наиболее адекватный механизм для решения задачи визуального распознавания. Это предположение, в свою очередь, даёт основание для конструирования алгоритмов обработки зрительной информации в виде организации взаимодействия различных частей структурированной нейроподобной сети. В данной главе последовательно рассмотрены разные механизмы обработки визуальной информации, начиная с выравнивания освещённости исходного изображения и кончая распознаванием образов объектов на нём. Общим во всех этих механизмах является то, что они реализованы в виде нейроподобных сетей различной степени сложности. Описанные ниже механизмы и алгоритмы составляют, разумеется, лишь малую долю того, что необходимо для полного решения задачи зрительного распознавания. Значительная часть проблем, относящихся к задаче распознавания образов, вовсе не затронута в данной главе. Однако это не означает, что не видны возможности их решения с помощью нейроподобных сетей. Упомянутые проблемы не рассматриваются в данной главе по той причине, что в настоящее время соответствующие сети не реализованы в виде программ для ЭВМ и, следовательно, ещё не проверены экспериментально. В то же время в данную главу включены параграфы 6.4 и 6.5, не имеющие экспериментального подтверждения, с той целью, чтобы создать целостное представление о путях решения задачи распознавания образов в рамках выбранного подхода, т. е. на основе нейроподобных сетей.

В параграфе 6.6 обсуждаются вопросы предварительной обработки стереоизображений.

6.1. Яркостная сегментация изображений

Проблема сегментации изображений признается в настоящее время основной в задаче создания технического зрения роботов [75]. Для сегментации изображения, т. е. разделения областей на изображении, отличающихся друг от друга по своим зрительным характеристикам, предложены различные способы [15, 16, 18, 111]. Частичная сегментация изображения производится в результате выделения в нём однородных яркостных областей, каждую из которых можно определить как локально-контрастное образование, внутренняя яркостная неоднородность которого значительно меньше, чем его отличие от окружающей части изображения. Для обозначения процесса разделения однородных яркостных пятен на изображении используется термин яркостная сегментация. Методы яркостной сегментации изображения делятся на два основных класса: выявление внутренних точек областей одно-родности (как правило, посредством того или иного варианта порогового среза матрицы яркостей исходного изображения) [15] и выделение границ областей с последующим их прослеживанием [16].

В данном параграфе описывается алгоритм, с помощью которого в изображении выделяются наиболее яркие, протяжённые, равномерно освещённые области. Особенность алгоритма заключается в органическом совмещении операций, относящихся к обоим названным выше классам методов яркостной сегментации. Результаты применения предложенного алгоритма к изображению рассматриваются как предварительные. В дальнейшем предполагается использовать их в качестве обучающей выборки для адаптивной нейроподобной сети с ансамблевой организацией, предназначенной для решения задачи точного определения формы яркостных пятен на изображении [6]. Упомянутый алгоритм представляет собой структурированную нейроподобную сеть. Основания для реализации алгоритма сегментации изображения в виде нейроподобной сети состоят в следующем. Яркостный анализ изображения несомненно должен выполняться на первом этапе обработки визуальной информации. В ходе нейрофизиологических исследований получены наиболее подробные и достоверные сведения, касающиеся структурно-функциональной организации именно тех нервных сетей, которые непосредственно примыкают к светочувствительным рецепторам глаза различных живых организмов [24, 78]. Таким образом, имеется возможность использовать некоторые принципы структурной организации зрительного анализатора при построении искусственных нейроподобных сетей, предназначенных для решения задачи предварительной обработки изображения. Нейрофизиологические принципы, относящиеся к яркостному анализу, кратко формулируются в следующем виде.

1. Нервная сеть зрительного анализатора состоит из нейронных слоев, причём каждый слой сохраняет примерное соответствие со слоем рецепторных элементов.

2. Связи между слоями имеют регулярную структуру и обеспечивают последовательную передачу информации через все нейронные слои, начиная со слоя рецепторов.

3. Первые слои рецепторных и нервных элементов выполняют операции локальной и глобальной нормировки уровня яркости исходного изображения при помощи механизма латерального торможения.

4. На одном из первых этапов предварительной обработки зрительной информации нервная сеть осуществляет выделение (подчёркивание) резких перепадов яркости, т. е. контуров, имеющихся на изображении. Выделение контуров производится на основе латерального торможения.

5. Зрительный анализатор живых организмов состоит по меньшей мере из двух симметричных подсистем. Их особенность заключается в том, что одна подсистема может быть получена из другой посредством частичной или полной замены возбуждающих связей структуры на тормозные, а тормозных — на возбуждающие.

6. В нервных сетях зрительного анализатора имеются нейронные слои, содержащие регулярную структуру ближних связей — как возбуждающих, так и тормозных. Характер взаимодействия между двумя произвольными нейронами в таком слое зависит от расстояния между ними. Если расстояние мало, то нейроны взаимно усиливают активность друг друга. С увеличением расстояния степень возбуждающего взаимодействия падает, а затем сменяется взаимодействием тормозным. На больших расстояниях корреляция между активностями нейронов отсутствует [47].

Рассматриваемая в данной работе модель нейроподобной сети, предназначенной для предварительной яркостной сегментации изображения, создана в виде программы для миниЭВМ. Для лучшего понимания работы модели содержательное описание механизмов её функционирования сопровождается формальным описанием вычислительных процедур, посредством которых осуществлена реализация модели. Программное моделирование нейроподобной сети организовано в настоящей работе на основе операции усреднения (расфокусировки) по квадрату со стороной n. Пусть [x_i,j] — матрица, в строке которой содержится p элементов, а в столбце — m элементов: i = 1, 2, 3, ... ..., p; j = 1, 2, 3, ..., m. Отметим, что все матрицы, введённые ниже, имеют один и тот же размер: p × m. Обозначим fⁿ_i,j(х) — значение i, j-го элемента матрицы, образованной в результате усреднения по квадрату со стороной n матрицы [x_i,j]. Операцию усреднения определим формулой

fⁿ_i,j(х) =

x_{i + k, j + l}.

(6.1)

Чтобы не усложнять описание вычислительных процедур совершенно непринципиальными подробностями, которые связаны с эффектами, возникающими при попадании квадрата усреднения на края матриц, все формулы записываются в предположении справедливости таких неравенств:

1 ≤ i + k ≤ p,	(6.2)
1 ≤ j + l ≤ m,	(6.3)

Необходимо упомянуть следующее. Выполнение операции усреднения (расфокусировки) занимает в настоящее время большую часть времени счёта сети. Легко может быть создано специализированное быстродействующее устройство, предназначенное для реализации расфокусировки матриц заданного размера.

Из нейрофизиологических исследований известно, что в нервной системе живых организмов широко распространено торможение [78, 90]. Материальным субстратом тормозных эффектов являются тормозные нейроны и структура их связей. В искусственной нейроподобной сети тормозное воздействие также может осуществляться специально введёнными тормозными нейроподобными элементами. Более простой путь моделирования явления торможения состоит в том, что в нейроподобной сети постулируется наличие двух типов связей, соединяющих выход одного нейроподобного элемента со входом другого. Один тип связи имеет возбуждающий характер, другой — тормозной. В настоящей работе принято, что тормозное воздействие полностью симметрично возбуждающему. Выходной потенциал нейроподобного элемента передается на вход другого нейроподобного элемента через возбуждающую связь со знаком плюс, а через тормозную связь — со знаком минус. Одновременно приходящие на нейроподобный элемент возбуждающие и тормозные воздействия алгебраически суммируются на его входе.

По аналогии с электротехникой в данной главе термин вес связи, используемый в других частях книги, переименован в проводимость связи. Кроме того, для удобства написания формул вводится также сопротивление связи (величина, обратная проводимости).

Работа модели начинается с серии последовательных преобразований исходного изображения. Дело в том, что исходное изображение может иметь избыточный, недостаточный или резко неоднородный уровень освещения. Поэтому цель упомянутых преобразований заключается в компенсации подобных дефектов освещения и в приведении изображения к стандартному виду, оптимальному для последующей обработки.

локальное сглаживание яркостного уровня изображения нейросетью

Рис. 6.1
Прежде всего в соответствии с п. 3 осуществляется локальное сглаживание яркостного уровня изображения. Смысл данной операции состоит в том, чтобы ослабить влияние возможной неравномерности освещения на зрительное восприятие. Для выполнения этой операции нейроподобная сеть производит расфокусировку исходного изображения, вычитает расфокусированное изображение из исходного и затем (для сохранения масштаба) прибавляет к результату среднее значение освещённости матрицы рецепторов. В нейроподобной сети эта процедура может быть реализована одним слоем нейроподобных элементов, имеющих сложную структуру связей со слоем рецепторов. Каждый нейроподобный элемент слоя соединен тормозными связями с n² рецепторами, образующими квадрат, проекция центра которого совпадает с рассматриваемым элементом. Величина n (сторона квадрата) составляет значительную долю линейного размера растра. Сопротивление этих связей равно n². Смысл их введения заключается в передаче на слой нейроподобных элементов сильно расфокусированного изображения (с отрицательным знаком). Структура содержит ещё два типа возбуждающих связей. Задача возбуждающих связей первого типа состоит в точной передаче рельефа яркости исходного изображения на слой нейроподобных элементов. Должно быть понятно, почему со-проводимость каждой из этих связей равна единице, а их общее число определяется величиной m·p. Возбуждающие связи второго типа осуществляют суммирование на нейроподобных элементах слоя среднего значения освещённости рецепторной матрицы. Для реализации этой функции рассматриваемые связи соединяют все нейроподобные элементы слоя со всеми рецепторами. Таким образом, общее число усредняющих связей достигает значения m²·pⁱ, а сопротивление каждой из них равно m·p. В соответствии с приведённым описанием структуры сети можно записать следующую формулу:

I'_i,j = I_i,j – fⁿ_i,j(I) +

I_i,j.

(6.4)

[I_i,j] — матрица яркостей исходного изображения, а [I'_i,j] — матрица яркостей изображения, полученного в результате применения данной процедуры.

На рис. 6.1 представлен зрительный эффект использования этой операции, он состоит из трёх частей, каждая из которых представляет собой фотографию половины экрана телевизора — полукадр. Всего на телевизионный экран выводится 128 × 128 яркостных точек, имеющих по 64 градации яркости каждая. Соответственно в полукадре содержится 128 × 64 таких точек. В верхнем полукадре помещено исходное изображение. Ниже — одно под другим — два преобразованных описанной процедурой изображения: n = 7 и n = 31 (размер окна расфокусировки в формуле (6.4)).

Следующая трансформация изображения, осуществляемая моделью, заключается (согласно п. 3) в приведении интервала разбросов яркостных значений на изображении к стандартной величине. Для этого изображение, полученное моделью в результате применения описанной выше процедуры, подвергается расфокусировке. В расфокусированном изображении отыскивается максимальное значение яркости М'', т. е.

M'' =

fⁿ_i,j(I').

(6.5)

Обозначим М — максимально возможное значение яркости в изображении. Тогда данное преобразование можно выразить следующей формулой:

I''_i,j = M / M'' · I'_i,j.

(6.6)

Описываемое формулой (6.6) преобразование трансформирует изображение таким образом, что максимум яркости матрицы [I''_i,j] приближается к величине М. При этом все остальные детали изображения пропорционально изменяют свою яркость.

приведения изображения к стандартному масштабу яркости

Рис. 6.2 — приведение к стандартному масштабу яркости.
Из этого следует, что операция приведения изображения к стандартному диапазону разбросов яркости у живых организмов должна выполняться нервной сетью. Естественно, может быть построена структурная модель такой сети. Однако поскольку целью настоящей работы является скорее не структурное, а функциональное моделирование зрительного анализатора, постольку структурные модели участков нейроподобной сети используются в ней в двух случаях: либо в случае принципиальной необходимости, либо при условии легкости реализации. В остальных случаях нейроподобные структуры моделируются функционально. Примером функционального моделирования участка сети может служить только что описанный алгоритм приведения изображения к стандартному масштабу яркости. Результат действия этого механизма представлен на рис. 6.2. В соответствии с введёнными обозначениями, на верхней половине кадра (см. рис. 6.2) приведена матрица [I_i,j], а на нижней — матрица [I''_i,j].

Цель всех трансформаций исходного изображения заключается в том, чтобы обеспечить наилучшие условия для выделения признаков на нём. Согласно общепринятым представлениям об алгоритмах распознавания зрительных образов основой, на которой происходит формирование большинства признаков, служат линии границ образов объектов на изображении. На трёхмерном яркостном рельефе, образующемся в слое рецепторных элементов при восприятии изображения, края объектов часто предстают в виде границ между областями, обладающими различными зрительными характеристиками, в частности различной яркостью. Наиболее просто выделяются на изображении крутые перепады яркости между соседними однородными областями, т. е. контуры. Известно, что в зрительных анализаторах всех живых организмов происходит выделение (подчёркивание) контуров [24, 39, 57, 78]. Технические устройства, имеющие дело с изображениями реальных объектов, как правило, также осуществляют выделение контуров в изображениях на одном из начальных этапов обработки информации [17, 32, 39, 40, 70, 75, 79, 80]. Таким образом, представляется обоснованной необходимость выделения контуров для отделения от фона и (или) друг от друга образов объектов на изображении. Однако выбор среди выделенных контуров границ объектов является совсем не простой задачей. Подводя итог сказанному можно заключить, что одной из целей серии трансформаций исходного изображения является создание оптимальных условий для выделения контуров.

В настоящее время предложено множество методов для выделения контуров [16, 18, 24, 36, 39, 40, 57, 70, 79]. Все они имеют дело с градуальными значениями яркости в некотором компактном множестве дискретов растра. В связи с этим возникают следующие соображения. Для предварительного анализа изображения, в частности для задачи яркостной сегментации изображения, предполагается, что выделение контуров, расположенных внутри областей, обладающих достаточно высоким или, наоборот, слишком низким уровнем освещённости, является излишним. Данное предположение вытекает из наблюдения, что при первом взгляде на зрительную картину человек плохо различает слабоконтрастные детали на слишком ярком или слишком тёмном фоне. Все слабо или сильно освещённые области воспринимаются им (в первый момент) как бесструктурные. Для реализации этого предположения в модели введен слой нейроподобных элементов, имеющих существенно нелинейную S-образную статическую выходную характеристику, представленную на рис. 6.3. Изображение, полученное последовательным применением двух описанных выше операций, на третьем этапе обработки зрительной информации преобразуется таким слоем в матрицу [I'''_i,j]. Обозначая процедуру, которую выполняет слой нелинейных нейроподобных элементов через S(х_i,j), можно записать

I'''_i,j = S(I''_i,j) (6.7)

нелинейная S-образная выходная характеристика нейрона

Рис. 6.3 — S-образная выходная характеристика нейрона

Функциональный смысл данной операции состоит в том, что яркость слишком или недостаточно ярких деталей изображения изменяется: яркие участки становятся ещё более яркими, тёмные — темнеют, а яркость областей, находящихся в среднем диапазоне яркостей, остаётся неизменной. Вследствие этого в области, относящейся к одной из крайних групп, уменьшается разброс яркостных значений, следствием чего является уменьшение вероятности выделения контуров внутри такой области.

Необходимо отметить, что обе предыдущие операции требуют для своей реализации в виде нейроподобных структур линейности статической выходной характеристики каждого нейроподобного элемента. Известно, что обобщенная выходная характеристика биологического нейрона имеет S-образную форму, близкую к показанной на рис. 6.3. Поэтому можно предположить, что операция, рассмотренная здесь в качестве третьего этапа предварительной обработки зрительной информации, автоматически выполняется в реальных нейронных структурах (и может быть неоднократно) в процессе любой обработки зрительной информации нервной сетью.

К сожалению, зрительные эффекты, возникающие в результате передачи изображения через слой элементов с S-образной выходной характеристикой, выражены довольно слабо и на фотографиях теряются. Поэтому описанная операция здесь не иллюстрируется.

В модели контуры выделяются с помощью трёх слоев нейроподобных элементов, сохраняющих топологическое соответствие со слоем рецепторов. Рецептивные поля нейроподобных элементов первых двух слоёв имеют форму квадрата. Площади рецептивных полей нейроподобных элементов одного слоя, так же, как и размеры рецептивного поля элементов одного слоя, равны между собой. Размер рецептивного поля элементов первого слоя превышает размер рецептивного поля элементов второго слоя. Функция, которую выполняют оба слоя нейроподобных элементов, заключается в усреднении или же в расфокусировке исходного изображения. Третий слой выполняет операцию вычитания одного расфокусированного изображения из второго. Поскольку степень расфокусировки в первых двух слоях разная, то в третьем слое активность элементов выделяет границы более или менее равномерно освещённых областей.

Из приведенного описания следует, что нейроподобные элементы третьего слоя структуры являются аналогами нейронов — детекторов, контраста, широко распространенных в зрительной системе всех высших живых организмов [78]. Настройка алгоритма на выделение границ областей с теми или иными зрительными характеристиками осуществляется подбором двух параметров: размерами большого и размерами малого рецептивного поля нейроподобных элементов третьего слоя. Чем меньше размер малого рецептивного поля, тем более точно очерчивается граница области, но вместе с тем увеличивается количество ложных контуров, отражающих случайные скачки яркости на (в целом) равномерно освещённой области. Чем больше размер малого рецептивного поля, тем, соответственно, более сглаженными становятся границы областей, но и ложных контуров на изображении появляется меньше. Расфокусировка изображения малым рецептивным полем диктуется необходимостью сглаживания структурных элементов изображения, размер которых меньше заданной величины, которая, в свою очередь, определяется степенью приблизительности, с которой требуется найти границы областей в процессе яркостной сегментации изображения.

Из изложенного выше следует, что трёхслойная структура реализует собой граничный интегро-дифференциальный оператор, аналогичный ∇²G-фильтру, описанному в работе [57]. Таким образом, можно сказать, что преобразование изображения трёхслойной структурой эквивалентно вычислению отклика в результате осуществления свёртки указанного оператора с изображением. Нулевые значения преобразованного изображения (отклика) рассматриваются в работе [57] в качестве контуров. Под термином контур обычно понимается линия, ширина которой не превышает один дискрет растра. В отличие от этого в настоящей работе под контуром понимается любое множество дискретов растра, полученное в результате вычисления приведённых ниже формул. Другими словами, здесь на ширину контурных линий не накладывается никаких ограничений. Кроме контурных линий, фиксированных в бинарных матрицах, в модели используется контурная, функция k_i,j, представляющая собой положительную часть отклика:

k_i,j = 1{

(I''')},

(6.8)

где 1(х) — единичная ступенчатая функция [59], 1(x) =

и всегда n₁ > n₂.

Чтобы объяснить функциональный смысл следующей операции, необходимо описать такой психологический феномен. При беглом взгляде на зрительную картину в ходе предварительной сегментации изображения человеком наличие резкого и протяженного контраста в какой-либо области изображения маскирует присутствие в некоторой его окрестности слабоконтрастных деталей изображения.

Для реализации в модели этого наблюдения предварительно усреднённая матрица контурной функции вычитается из матрицы контурной функции, затем результат сравнивается с фиксированным порогом, вследствие чего образуется двоичная матрица контуров [c_i,j(n₁, n₂)]. Таким образом,

c_i,j(n₁, n₂) = 1(k_i,j – f^n₃_i,j(k) – δ), (6.9) где δ — величина порога, n₃ — размер окна расфокусировки контурной функции.

Механизм яркостного анализа предполагает одновременное применение в модели нескольких трёхслойных структур описанного выше типа для выделения контуров в изображении. Однако в отличие от алгоритма, предложенного Марром [57], разница между трёхслойными структурами в модели заключается в том, что при переходе от одной структуры к другой происходит изменение размеров рецептивных полей, но не обоих сразу, а только одного из них — большего (n₁). Малое рецептивное поле (n₂) всех трёхслойных структур имеет в модели один и тот же размер. Контуры, выделенные в изображении набором трёхслойных структур и превращенные в двоичные линии в соответствии с формулой (6.9), суммируются в одной двоичной матрице [c_i,j] с помощью операции дизъюнкции:

(6.10) где n₁¹, n₁²,... n₁^β — размеры большого рецептивного поля в наборе трёхслойных структур, использованные в модели; β — количество структур. [Примечание: в формуле скорее всего ошибка, должно быть вместо n³₃ нужно писать n³₁.]

Рис. 6.4

На рис. 6.4 представлено действие механизмов, описанных формулами (6.8) и (6.10). Здесь верхний полукадр эквивалентен матрице [I'''_i,j], второй сверху полукадр соответствует матрице [k_i,j] с тем отличием, что с целью создания зрительного изображения выделенных контуров (светлым на тёмном фоне) пришлось умножить [k_i,j] на коэффициент пропорциональности ≈15, нижний полукадр демонстрирует результат последовательного применения к исходному изображению всех описанных выше процедур — выделенные из этого изображения контуры, т. е. [c_i,j] (светлые точки).

Основой модели служит слой нейроподобных элементов, связанных друг с другом регулярной структурой возбуждающих и тормозных связей. Взаимные (двойные) возбуждающие связи, имеющие одинаковую проводимость R_B, соединяют каждый нейроподобный элемент слоя (не краевой) с его соседями, расположенными в границах квадрата, центром которого является рассматриваемый нейроподобный элемент. Сторона квадрата содержит n_B дискретов растра. Структура тормозных связей каждого нейроподобного элемента имеет точно такой же вид. Отличие заключается только в значениях параметров. Размер квадрата тормозных связей n_T превышает величину n_B; проводимость тормозных связей R_T меньше, чем значение R_B. Благодаря такой структуре связей нейроподобные элементы слоя, находящиеся друг от друга на расстояниях, меньших, чем (n_T + 1)/2, взаимоусиливают свою активность. С ростом расстояния между ними до (n_B + 1)/2 характер взаимодействия меняется на взаимотормозный. Элементы, расположенные ещё дальше друг от друга, непосредственно не взаимодействуют.

(λ·E_i,j(t) – P_i,j(t)) (6.11) где λ — статический коэффициент усиления нейроподобного элемента; τ — постоянная временной суммации; E_i,j(t) — суммарное воздействие на входе i, j-го нейроподобного элемента.

Контуры, выделенные на предыдущем этапе анализа изображения, используются в модели для тормозного воздействия на слой нейроподобных элементов с ближними связями. Структурно это реализовано слоем специальных элементов (представляющих элементы двоичной матрицы [с_i,j]), от которых направленные тормозные связи, имеющие проводимость, равную r, передают тормозное воздействие на входы соответствующих нейроподобных элементов слоя ближних связей. На слой ближних связей поступает также и возбуждающее воздействие. Для этого структура сети дополняется ещё одним слоем, цель введения которого заключается в представлении дважды преобразованного изображения, т. е. матрицы [I''_i,j]. От элементов такого слоя через направленные связи с проводимостью, равной ρ, на каждый нейроподобный элемент слоя ближних связей подаётся возбуждающее воздействие, величина которого в значительной степени определяется уровнем освещенности соответствующего дискрета растра рецепторов. Таким образом, согласно приведенному описанию, суммарное воздействие на входе i, j-го нейроподобного элемента слоя ближних связей в произвольный момент времени t вычисляется по формуле

E_i,j = ρ·I''_i,j – r·c_i,j + R_B·n²_B·f^n_B_i,j(P(t)) – R_T·n²_T·f^n_T_i,j(P(t)) (6.12)

Из-за смешанного возбуждающе-тормозного внешнего воздействия на нейроподобные элементы слоя с ближними связями и взаимодействия его элементов в слое начинает нарастать суммарный уровень активности. Причём распределение активности по слою оказывается очень неравномерным; наибольший уровень активности достигается в тех участках слоя, где на изображении находятся наиболее яркие, компактные, бесконтурные области, имеющие сравнительно большие размеры и в целом выпуклую форму. Малые, слабо освещённые и многоконтурные области не активируются в слое до сколько-нибудь значительного уровня. Через некоторое время после предъявления нейроподобной сети изображения в слое ближних связей устанавливается стабильный паттерн активности. Следующий слой пороговых элементов служит для выделения нейроподобных элементов слоя ближних связей, выходные потенциалы которых превышают постоянное, заранее заданное значение. Другими словами, выявление искомых областей производится посредством горизонтального среза рельефа установившейся активности нейроподобных элементов в слое ближних связей. Дискреты, в которых расположены активированные элементы порогового слоя, относятся моделью к искомым областям. Таким образом, благодаря сочетанию тормозного и возбуждающего воздействия на слой нейроподобных элементов с ближними связями в нём происходит выделение некоторого количества компактных участков, соответствующих наиболее ярким, большим, бесконтурным областям на исходном изображении.

Роль тормозных связей между элементами слоя заключается в следующем. Операция выделения областей нейроподобной сетью согласно приведённому описанию выполняется параллельно по всему растру. Это означает, что несколько соседних областей одновременно расширяют площадь, занятую активированными пороговыми элементами. Благодаря наличию тормозной окантовки вокруг каждой такой области в случае совмещения двух окантовок соседних областей с узким промежутком между контурами, ограничивающим распространение возбуждения по слою, в процессе роста активности в слое не происходит слияния рассматриваемых областей в одну. Другими словами, эффект тормозной окантовки областей в слое в сочетании с тормозным воздействием контуров на слой позволяет осуществить операцию градуального «окукливания» ярких областей на изображении.

Для упрощения расчёта в ЭВМ нейроподобной сети принято λ = τ.

Тогда уравнение (6.11) приобретает вид

dP_i,j(t) = E_i,j(t)dt – (P_i,j(t))/τ)dt (6.13)

Для численного решения системы из p×m уравнений (6.13) вводится тактированное машинное время t с интервалом между тактами Δt: из уравнения (6.13), в результате, получаем

P^t_i,j =

Δt) (6.14)

Подстановка (6.12) в (6.14) даёт формулу, по которой в модели осуществляется последовательный пересчёт выходных потенциалов нейроподобных элементов слоя ближних связей (элементов матрицы [P^t_i,j]):

(6.15)

Выделенные пороговым слоем вершины рельефа установившейся активности нейроподобных элементов слоя ближних связей представляются единицами в двоичной матрице [a^t_i,j] в соответствии с формулой

a^t_i,j = (P^t_i,j – L), (6.16) где L — постоянный порог.

Рис. 6.5

Работа модели прекращается после пересчёта в ЭВМ заданного количества тактов, которое выбирается из тех соображений, чтобы в слое ближних связей успел установиться постоянный паттерн активности. Обозначим двоичную матрицу, в которой фиксируется результат работы описанной модели, через [а_i,j].

Для ввода изображений в ЭВМ, контроля промежуточных результатов и вывода результатов работы модели использовался комплекс, содержащий телекамеру, кадровую память размером 128 × 128 6-битовых слов, ЭВМ СОУ-1 и цветной телевизор. С помощью этого комплекса алгоритм яркостного анализа был проверен на изображениях природных объектов. На рис. 6.5 – 6.7 представлены фотографии экрана телевизора: в верхнем полукадре помещено исходное изображение, в нижнем — выделенные программой области. На рис. 6.5 представлено негативное изображение опушки леса, на рис. 6.6 тропинка в траве, на pиc. 6.7 образцы двух текстур. На рис. 6.5, кроме работы программы, продемонстрировано то, что самые тёмные области изображения выделяются тем же самым алгоритмом при условии обработки им изображения, предварительно превращенного в негативное.

Рис. 6.6

Рис. 6.7

В заключение отметим следующее. Как вытекает из всего изложенного, моделирование нейроподобной сети в настоящей работе базируется на операции расфокусировки матрицы. Причём указанная операция выполняется с помощью процедуры усреднения (формула (6.1)). Усреднение по квадрату со стороной n фактически реализует в модели ближние связи одинаковой проводимости, соединяющие друг с другом все нейроподобные элементы сети, расположенные внутри квадрата со стороной, равной n. В то же время, нейрофизиологические источники свидетельствуют, что взаимодействие нейронов в живых нервных сетях зрительного анализатора ослабляется с ростом расстояния между ними [47, 78]. С другой стороны, из общих рассуждений вытекает, что для максимально возможной равномерности расфокусировки (размывания) изображения, вносящей минимальные искажения в исходное изображение, упомянутая процедура должна производиться с помощью колоколообразного оператора, описываемого распределением Гаусса [57]. Для учёта этих фактов в модели, очевидно, необходимо предусмотреть уменьшение проводимостей как возбуждающих, так и тормозных связей в слоях с увеличением расстояния между нейроподобными элементами слоёв. Это не было сделано в данной работе по причине вычислительной сложности реализации такого распределения связей в слое. Известно, что слой нейроподобных элементов, в котором достаточно точно промоделирован колоколообразный закон убывания проводимостей ближних связей нейроподобных элементов друг с другом, обладает многими полезными свойствами [58]. Таким образом, изложенное даёт основание надеяться, что в случае замены операции усреднения (формула (6.1)) оператором колоколообразного вида при полной неизменности всех остальных алгоритмов модели результаты обработки изображения моделью должны улучшиться.

6.2. Очерчивание границ яркостных пятен на изображении

Согласно приведённому описанию, яркостный анализ позволяет в ходе параллельного процесса выделить все наиболее яркие и протяженные пятна на изображении. Однако если параметры модели подобраны правильно, то каждая выделенная сетью область в большинстве случаев находится внутри действительных границ пятна. При этом чем меньше яркость пятна, тем больше разница между выделенной областью и пятном как по площади, так и по форме. Соответственно, чем больше яркость пятна, тем ближе выделенная сетью область к действительной форме пятна. Из последнего утверждения вытекает, что наиболее точно сеть выделяет форму самого яркого пятна на изображении. Цель яркостной сегментации изображения состоит в том, чтобы очертить границы всех равномерно освещённых областей изображения. Отсюда следует, если искусственно преобразовать исходное изображение таким образом, чтобы при этом яркость выбранного пятна изменилась и достигла максимально возможного уровня, а затем произвести яркостный анализ такого изображения, то форма этого пятна будет, в результате, выделена гораздо точнее, чем в случае отсутствия предварительной коррекции его яркости. Данную операцию можно последовательно применить к каждой равномерно освещенной области изображения и тем самым решить задачу сравнительно точного очерчивания границ всех равномерно освещённых областей изображения. Таким образом, в краткой формулировке смысл описываемого ниже алгоритма заключается в последовательном привлечении внимания ко всем равномерно освещённым областям на изображении.

Алгоритм очерчивания формы яркостных пятен на изображении состоит из циклов, количество которых равно числу областей одинаковой освещённости, обнаруженных на изображении. Каждый цикл представляет собой процесс яркостного анализа изображения, подробно изложенный выше, в который внесены сравнительно незначительные изменения.

Согласно описанию алгоритма яркостного анализа исходное изображение преобразуется моделью с целью создания оптимальных условий для его последующей обработки. Затем в изображении выделяются контуры. Тормозно-возбуждающее воздействие от контуров и трансформированного изображения подается на слой нейроподобных элементов с ближними связями. Начинается активация нейроподобных элементов слоя. Однако здесь, как только выходной потенциал хотя бы одного нейроподобного элемента слоя достигает порога (L), ход процесса яркостного анализа нарушается. В каждый такт машинного времени вычисляется уравнение

d^t =

a^t_i,j. (6.17)

По условию d^t ≠ 0 определяется момент , с которого начинается выполнение следующей последовательности операций. Прежде всего осуществляется поиск самого возбуждённого нейроподобного элемента слоя ближних связей

(6.18)

Координаты этого элемента матрицы [р_i,j] запоминаются в специальной бинарной матрице [b_i,j], в которой только один элемент равен единице, все остальные являются нулями. Функциональный смысл данной операции заключается в том, что соответствующий дискрет растра в дальнейшем используется в качестве идентификатора области, на которой концентрируется внимание модели в текущем цикле работы алгоритма. (Как показано в параграфе 6.3, упомянутый дискрет располагается вблизи центра вписанного в область квадрата.) Это даёт возможность приблизительно оценить яркость рассматриваемого пятна.

Определим названную величину (обозначим её М') формулой

(6.19)

Формула (6.19) означает, что яркость области оценивается значением освещённости расфокусированного изображения в выделенном дискрете растра.

Затем исходное изображение преобразуется в соответствии с формулой (6.6) при условии замены в ней М" на М'.

Как упоминалось в параграфе 6.1, описываемое формулой (6.6) преобразование трансформирует исходное изображение таким образом, что оценка яркости рассматриваемого пятна максимально приближается к величине М.

После того как получено преобразованное согласно формуле (6.6) изображение (обозначим его матрицей [I¹_i,j]), оно рассматривается моделью в качестве исходного, и весь процесс анализа яркости начинается сначала, проводится в полном объёме, включая все преобразования, выделение контуров и прочее и на этот раз доводится до конца, т. е. до выделения в матрице [а_i,j] нескольких областей. Поскольку матрица [I¹_i,j] в общем случае существенно отличается от исходного изображения, то форма некоторых областей, выделенных в [а_i,j], может частично не соответствовать исходным яркостным пятнам. Однако форма области, для которой проводится этот цикл анализа, оказывается выделенной сравнительно более точно, чем в случае анализа исходного изображения.

Для того чтобы описать алгоритм выявления искомой области в матрице [а_i,j], необходимо ввести операцию однократного расширения бинарной матрицы [x_i,j]. Пусть матрица содержит произвольное число нулей и единиц. Каждый единичный элемент матрицы, расположенный не на её краю, имеет восемь соседей. Операция заключается в присваивании единичных значений всем восьми соседям каждого единичного элемента матрицы. Обозначим Φ[x_i,j] — операция расширения произвольной двоичной матрицы [x_i,j]; [u¹_i,j], [u²_i,j], ..., [u^φ_i,j] и
[s¹_i,j], [s²_i,j], ..., [s^φ_i,j] — последовательности промежуточных матриц, вычисляемых в процессе выделения из множества областей, имеющихся в матрице [а_i,j] области, на которой сконцентрировано в данном цикле внимание модели. Упомянутые последовательности вычисляются по формулам

(6.20)

Матрица [s^φ_i,j] определяется из условия

(s^φ_i,j – s^φ–1_i,j) = 0. (6.21) В этой матрице фиксирована в виде единичных значений её элементов искомая область растра.

Набор матричных операций, определяемый формулами (6.20) и (6.21), обозначим через W, тогда

[s^φ_i,j] = W( [b_i,j], [a_i,j]). (6.22)

Результаты работы алгоритма (для дальнейшего использования) переносятся в специальную двоичную матрицу [z_i,j], все элементы которой в начальный момент времени имеют нулевые значения. Обозначим последовательность циклов анализа изображения рядом индексов 1, 2, 3, q, .... v. Тогда в q-м цикле анализа матрица [z_i,j] определяется по формуле

z^q_i,j = z^q–1_i,j ∨s^φ,q_i,j. (6.23)

Индекс q в обозначении элемента матрицы [s^φ,q_i,j] указывает, что в формуле (6.23) операция дизъюнкции выполняется с участием элементов матрицы [s^φ,q_i,j], вычисленной по формуле (6.22) в q-м цикле анализа изображения. Следует отметить, что, строго говоря, все формулы, описывающие работу алгоритма, должны включать в свои обозначения индекс цикла. Это не было сделано из опасения переусложнить написание указанных формул. После того как выделенная в данном цикле область перенесена на матрицу [z^q_i,j], начинается следующий цикл анализа. Модель приступает к выделению нового яркостного пятна в изображении. Для того чтобы исключить повторную концентрацию внимания на уже обработанных пятнах, в модели предусмотрено выполнение операции конъюнкции матриц [a^t_i,j] и [z^q_i,j] на каждом такте этапа выявления дискрета-идентификатора области, которую алгоритм будет выделять на (q + 1)-м цикле работы. В соответствии с этим формула (6.17) должна быть переписана в следующем виде:

d^t =

(a^t_i,j – z^q_i,j). (6.24)

Теперь необходимо отметить следующее. Поскольку в результате каждого цикла яркостного анализа изображения выделяется только одна область (на которой в данный период времени сконцентрировано внимание модели), то совершенно не обязательно делать яркостный анализ целого растра, т. е. полного изображения. Вполне достаточно рассмотреть лишь сравнительно небольшой участок растра — назовём его полем внимания. Центром этого поля, естественно, должно быть выделяемое в текущем цикле анализа яркостное пятно. Из описания механизма взаимодействия нейроподобных элементов слоя ближних связей следует, что для более точного определения формы области требуется наличие в поле не одной выделяемой области равной освещённости, а комплекса, содержащего центральное пятно и окружающие его области изображения. Площадь яркостных пятен, для выделения которых предназначена модель, может быть существенно различной. Поэтому поле внимания должно иметь такие размеры, которые гарантировали бы включение в него любого комплекса. Высказанные соображения относительно (уменьшенного по сравнению с полем зрения — растром) поля внимания носят чисто теоретический характер, поскольку в реализованной модели в качестве поля внимания используется весь растр.

Рис. 6.8 а — исходное изображение,
б — однократное применение процедуры
яркостного анализа, в — многократное
применение процедуры яркостного
анализа.

Рис. 6.9 — работа по выделению
областей на негативном
изображении

В верхней части рис. 6.8 представлено исходное изображение; второй сверху полукадр демонстрирует области, выделенные на изображении в процессе однократного применения процедуры яркостного анализа; нижняя фотография показывает те же области, выделенные в результате многократного использования упомянутой процедуры в соответствии с описанным здесь алгоритмом.

В п. 5 нейрофизиологических принципов, на которых основывается структурно-функциональная организация модели, говорится о том, что предварительной обработкой изображения в живых нейронных сетях параллельно занимаются две почти полностью симметричные подсистемы. Из нейрофизиологических данных можно сделать вывод, что одна подсистема осуществляет выделение ярких пятен на изображении, а другая — тёмных [78, 87].

В соответствии с обозначениями, введёнными выше, негативное изображение (обозначим его [Ĭ_i,j]) можно получить из предварительно нормализованного изображения [I''_i,j] по формуле

Ĭ_i,j = 1(M – I''_i,j)·(M – I''_i,j) (6.25)

Для полной яркостной сегментации изображения оба его варианта — позитивный и негативный, — очевидно, должны обрабатываться моделью независимо друг от друга почти до самого конца процесса. Сопоставление результатов работы модели над обоими вариантами изображения требуется проводить только для того, чтобы избежать ненужного дублирования, т. е. выделения моделью одних и тех же областей равной освещённости на обоих вариантах изображения. Для достижения указанной цели, алгоритм полной яркостной сегментации изображения состоит из двух одинаковых частей (подсистем). Обе части алгоритма работают одновременно. Одна подсистема обрабатывает позитивное изображение, другая негативное. Введём, по аналогии с формулой (6.25), знак «~» для обозначения величин, вычисляемых подсистемой, которая имеет дело с негативным вариантом изображения. В конце каждого цикла яркостного анализа, после того, как в обоих подсистемах модели в матрицах [s^φ,q_i,j] и [^φ,q_i,j] оказывается по одной вновь выделенной области, эти области сравниваются, т. е. выполняется операция

Ω =

( s^φ,q_i,j &

^φ,q_i,j). (6.26)

Удовлетворение неравенству

Ω > γ (6.27) где γ — фиксированное число, свидетельствует, что обе подсистемы уже выделили в изображении все яркие и тёмные области равной освещённости и в данный момент завершили выделение одной и той же области, яркость которой находится вблизи от среднего значения диапазона освещённостей исходного и зображения. По этому сигналу одна из матриц — [s^φ,q_i,j] или [

^φ,q_i,j] — превращается в нулевую; в обоих подсистемах модели реализуется процедура, описанная формулой (6.23), вследствие чего в матрицах [z^v_i,j], [

^v_i,j] фиксируется окончательный результат работы алгоритма.

На рис. 6.9 представлено, в качестве дополнения к рис. 6.8, функционирование той части модели, которая обрабатывает негативный вариант изображения. В верхней части рис. 6.9 помещён негативный вариант изображения (позитивный вариант расположен в верхней части рис. 6.8). Средний полукадр рис. 6.9 показывает выделенные в изображении области в результате параллельного процесса яркостного анализа изображения. Нижняя фотография показывает те же области, выделенные в ходе последовательного применения процедуры яркостного анализа ко всем яркостным пятнам изображения.

6.3. Подсчёт компактных областей на изображении

Процедура сегментации изображения, т. е. разделение областей на изображении, различающихся по зрительным характеристикам, немыслима без выделения текстурных областей.

Для разделения текстурных областей и распознавания текстур предложено множество алгоритмов [111]. Многие из них для решения задачи используют текстурные признаки, в качестве которых обычно выбирают признаки нелокального типа. Имеется в виду, что текстурный признак представляет собой некоторую совокупную характеристику сравнительно большого количества дискретов исходного изображения. Как правило, упомянутые дискреты образуют компактную область на растре (квадратное окно, часть строки растра, часть столбца растра). В данной работе предполагается отнесение текстурного признака к квадратному окну заданного размера. Рассмотрим случай, когда текстура имеет отчётливый текстурный рисунок. Наблюдения показывают, что наличие в текстуре чётко выделяемых структурных элементов (рисунка) часто сочетается с тем, что участки изображения, занятые рисунком, предстают для человеческого глаза в виде бесконтурных или даже равномерно освещённых областей. В параграфах 6.1 и 6.2 показано, что именно такие области могут быть выделены на изображении с помощью яркостного анализа. В результате применения процедуры яркостного анализа к исходному изображению из текстурного рисунка посредством параллельного процесса выделяются компактные области примерно одинакового размера — «зерна». Наличие зёрен того или иного размера в текстуре является важной отличительной особенностью данной текстуры. Плотность распределения «зёрен» в текстуре также представляет собой определённую характеристику текстуры. Поэтому в качестве одного из текстурных признаков естественно выбрать количество «зёрен» заданного размера, расположенных в стандартном квадрате растра. Содержательно этот признак, который условно можно назвать «зернистостью», даёт некоторую интегральную оценку степени упорядоченности распределения яркостных значений по элементам растра в исходном изображении. Однако для определения значения введённого признака зернистости недостаточно только выделить зёрна на изображении, надо ещё подсчитать их количество. Для этого, очевидно, необходимо превратить каждое «зерно» в единичную точку на растре, после чего легко произвести требуемый подсчёт. В данном параграфе предлагается параллельный алгоритм, превращающий произвольнее количество компактных областей в единичные точки, расположенные в ближайшей окрестности центров вписанных в них максимальных квадратов. Известны задачи, которые сводятся к поиску центров нескольких несвязных областей на растре [61].

Основой предлагаемого алгоритма является модель структурированной нейроподобной сети, реализованной в виде программы для ЭВМ. Работа алгоритма начинается с того, что заданные области фиксируются в специальном бинарном растре в виде единичных значений соответствующих дискретов растра. Бинарный растр, таким образом, служит для описываемой системы рецепторным слоем. Большая часть обработки информации в системе происходит в слое нейроподобных элементов с ближними связями. Выходной потенциал i, j-го нейроподобного элемента слоя Р_i,j(t) вычисляется по формуле

= E_i,j(t). (6.28)

Каждый нейроподобный элемент имеет взаимные возбуждающие связи одинаковой проводимости ψ со всеми соседями, расположенными в некоторой окрестности вокруг рассматриваемого элемента.

Ячейки памяти упомянутого выше бинарного рецепторного слоя попарно соединены возбуждающими или тормозными связями с соответствующими нейроподобными элементами слоя ближних связей. Структура связей изменяется в процессе работы алгоритма таким образом, что в любой момент времени единичные ячейки памяти оказывают на соответствующие нейроподобные элементы возбуждающее воздействие с коэффициентом передачи, равным ω, а нулевые ячейки — тормозное воздействие с бесконечно большим коэффициентом передачи. Благодаря такому комбинированному возбуждающе-тормозному влиянию, поступающему с рецепторного слоя, в слое ближних связей начинает возрастать уровень активности нейроподобных элементов, соответствующих исходно зафиксированным в рецепторном слое единичным областям. Радиус действия ближних связей, соединяющих нейроподобные элементы слоя друг с другом, максимальный в начале процесса, постепенно уменьшается вследствие воздействия внешних по отношению к сети управляющих сигналов (при увеличивающейся проводимости связей). Достигнув минимального значения (равного расстоянию между двумя соседними нейроподобными элементами), радиус действия ближних связей начинает постепенно возрастать. Медленная пульсация длины ближних связей продолжается в течение всего процесса. Сочетание описанных выше входных воздействий с пульсацией радиуса действия ближних связей приводит к тому, что в результате роста выходных потенциалов нейроподобных элементов слоя ближних связей рельеф активности в каждой области слоя приобретает конусообразный вид, причем проекция вершины каждого конуса находится в близкой окрестности центра, вписанного в область квадрата максимально возможного размера.

Пусть [ϰ¹_i,j] — исходная рецепторная матрица, т. е. матрица, в которой первоначальные области зафиксированы в виде единичных значений соответствующих двоичных элементов, а все остальные элементы матрицы — нули.

В ходе реализации алгоритма рецепторная матрица периодически изменяется в результате выполнения описанного в параграфе 6.2 набора операций с двоичными матрицами. Для различения последовательности циклов этих матричных операций вводится индекс k, который пишется справа сверху от буквы, обозначающей матрицу. Тогда после k-го цикла матричных операций обозначение рецепторной матрицы примет вид [ϰ^k_i,j].

Согласно описанию структуры нейроподобной сети, приведённому выше, в любой момент времени t суммарное воздействие на входе i, j-го-нейроподобного элемента слоя с ближними связями определяется по формуле

E_i,j(t) = ϰ^k_i,j(ω·ϰ^k_i,j + ψ·n²·fⁿ_{i j}(P(t))), (6.29) где n — сторона квадрата распространения ближних возбуждающих связей в слое.

Как и в параграфе 6.1, для численного решения системы из p × m уравнений (6.28) вводится тактированное машинное время t. Из уравнения (6.28) получаем

P^t_i,j = P^t–1_i,j + E^t–1_i,j·Δt. (6.30)

Подстановка (6.29) в (6.30) приводит к формуле, по которой ЭВМ осуществляет последовательный пересчёт выходных потенциалов нейроподобных элементов слоя (элементов матрицы [P^t_i,j]):

P^t_i,j = P^t–1_i,j + Δt·ϰ^k_i,j·(ω·ϰ^k_i,j + ψ·n²·fⁿ_i,j(P^t–1)). (6.31)

Напомним, что в процессе счёта сети величина n периодически изменяется в пределах от 3 до n_mах = 31.

В случае различающихся по площади и по форме исходных областей конусообразные образования рельефа активности слоя, возрастающие в процессе пересчёта сети, в любой момент времени существенно отличаются друг от друга по высоте. Задача заключается в том, чтобы параллельным алгоритмом определить координаты их вершин. Для этого на каждом такте пересчёта сети выходные потенциалы нейроподобных элементов слоя сравниваются с постоянным порогом — L. Как только хоть один элемент матрицы [P^t_i,j] достигает величины L, в соответствующем элементе дополнительной двоичной матрицы [a^t_i,j] производится изменение нулевого значения на единичное в

[позже текст будет дополнен до конца параграфа]

Глава 6 ОБРАБОТКА ЗРИТЕЛЬНОЙ ИНФОРМАЦИИ ПРИ ПОМОЩИ НЕЙРОПОДОБНЫХ СЕТЕЙ

Содержание 6 главы

6.1. Яркостная сегментация изображений

6.2. Очерчивание границ яркостных пятен на изображении

6.3. Подсчёт компактных областей на изображении

Глава 6
ОБРАБОТКА ЗРИТЕЛЬНОЙ ИНФОРМАЦИИ ПРИ ПОМОЩИ НЕЙРОПОДОБНЫХ СЕТЕЙ