Графические образы и нейронные сети

В.М. Хачумов,
зав. лаб., д.т.н., проф.,
ИПС РАН, г. Переславль-Залесский

В последнее время получила развитие новая прикладная область математики – нейроматематика, предназначенная для распознавания графических образов, на основе искусственных нейронных сетей (НС). За рубежом создано множество программных систем, с помощью которых можно проектировать, настраивать и использовать нейронные сети, например Neurooffice, Neuro Emulator, Matlab-6 и т.д. Отечественные аналоги, к сожалению, отсутствуют. Актуальными являются вопросы распознавания движущихся объектов или их отдельных частей, имеющих, как правило, различную топологию, пространственно-временную ориентацию и масштаб; задачи восстановления трехмерной информации и определения необходимого набора геометрических параметров рассматриваемого объекта, включая координаты, угловое положение, линейный размер, расстояние и т.д. В то же время существенным недостатком типовых НС является отсутствие эффективных средств для решения задач распознавания динамических образов. Основной проблемой интерпретации динамических визуальных сцен является высокая размерность пространства признаков, наличие геометрических (аффинных) преобразований над объектом. Сжатие пространства признаков выполняется методом извлечения интегральных и инвариантных к аффинным преобразованиям параметров изображений.

Яркостные и геометрические инварианты играют значительную роль в задачах распознавания изображений [1]. Так, например, инварианты, в том числе инвариантные моменты [2], были успешно использованы для распознавания профилей самолетов и танков, печатных и рукописных букв [3], параметров стыковочного узла космического аппарата [4], а также многих других объектов. Математическое обоснование инвариантных особенностей полутоновых изображений основывается на теории алгебраических инвариантов [2]. Изменение условий среды существенно усложняет задачу классификации изображений. Инварианты динамических объектов, как правило, носят вероятностный характер, что делает целесообразным привлечение вероятностных нейронных сетей (ВНС) [5] к процессу распознавания.

Рассмотрим задачу классификации изображений на основе ВНС. Полутоновое изображение – это матрица пикселей с яркостью . Центральные моменты порядка (p+q)£3 для цифрового изображения вычисляются как [2]: ,.где  - координаты центра тяжести, –нормализованная функция яркости. Известно, что если  кусочно-непрерывна и имеет нулевые значения только на ограниченной части образа, то моменты всех порядков существуют и определены однозначно через функцию . В свою очередь моменты однозначно определяют функцию [2]. Ограничившись моментами не выше третьего порядка, получают семь инвариантных моментов. Данные инварианты могут быть дополнены и другими [1,4]. Вследствие изменения входных условий инварианты флуктуируют и их отклонения могут превысить допустимые величины, при которых распознавание становится невозможным. При заданных вероятностных характеристиках изображения, не превышающих установленного порога, решить проблему можно с использованием ВНС. Таким образом, необходимо определить набор инвариантов, выбрать структуру и способ настройки ВНС для решения задачи классификации изображений.

Один из приемов получения яркостных инвариантов связан с заменой функции яркости  на нормализованную: , где - среднее значение яркости. На этом этапе устраняется влияние изменений освещенности и контрастности изображения. Инварианты к группе аффинных преобразований получают следующим образом [2].

                                                                                            

На этом этапе существенно сокращается размерность пространства признаков. Процесс распознавания заключается в сравнении наборов инвариантных моментов входного и эталонных изображений. Эталоны получают путем проведения статистических исследований при различных яркостных и аффинных преобразованиях. На данном этапе целесообразно выполнение геометрической нормализации признаков. Еще одним инвариантом по отношению к преобразованиям поворота полутонового объекта может служить величина среднеквадратичного расстояния пикселей до линии положения объекта [5]. Пусть  - расстояние от точки  до линии положения объекта, определяемой уравнением , а =- яркость точки. Линия положения проводится так, чтобы: . Она проходит через центр тяжести. В результате получают пару решений, которые определяют две пересекающиеся под прямым углом линии положения. В качестве инварианта выбираем значение, которое удовлетворяет критерию . Наконец, последний этап предлагаемого подхода связан с классификацией образов на основе ВНС [4]. Нулевой (фиктивный) слой сети служит для распределения входных данных между нейронами первого слоя нейронов. Для нейронов первого слоя устанавливается активационная функция вида: , где j-номер нейрона,  - инвариант неизвестного входного образца, – значение весового коэффициента, соответствующее математическому ожиданию -го инварианта -го эталона. Величина среднеквадратичного отклонения - находится в результате экспериментов для каждого эталона. Количество нейронов первого слоя соответствует числу эталонов. Нейроны второго слоя производят суммирование выходов первого слоя, относящихся к определенному классу, передают информацию третьему слою, после чего не принимают участия в дальнейшей обработке. Сеть должна выбрать образец с минимальным евклидовым расстоянием до неизвестного входного изображения. Для активизации только одного выхода сети каждый нейрон третьего слоя может быть охвачен собственной положительной и отрицательными обратными связями с выходов других нейронов, так как это имеет место в сети Хэмминга. Положительная связь имеет вес +1, а  весовые коэффициенты тормозящих синапсов определяют экспериментально. В результате некоторого числа итераций ненулевой выход будет соответствовать выбранному классу. В качестве третьего слоя может быть использован нейрон - дискриминатор, обнаруживающий выход с максимальным сигналом [5]. Рассмотренный выше подход позволяет отказаться от сложной структуры нейронной сети, типа когнитрона, в пользу ВНС с ограниченным числом входов. Проведенные эксперименты по распознаванию букв только методом инвариантных моментов [2,3], а также  с подключением ВНС подтвердили эффективность комбинированного метода.

В настоящее время силами студентов ИПС-УГП им. А.К.Айламазяна и РУДН ведется работа над реализацией инструментальных средств распознавания в рамках инициативного проекта. Его целью является разработка набора программных компонент типовых нейронных сетей. Проект содержит многофункциональную систему для работы с изображениями. Решение представлено в виде набора компонент, каждая из которых представляет собой модель НС, имеющей свой интерфейс (конструкторы, методы и свойства). Все они объединены в единое пространство имен для удобства их дальнейшего использования. Язык реализации – C#. Структурно проект разделен на две части. Первая часть реализует набор .NET компонент для основных моделей нейронных сетей, а также дополнительные компоненты, необходимые для решения задач распознавания изображений: сглаживающие и медианые фильтры, алгоритмы выделения контуров, алгоритмы выделения интегральных, в том числе инвариантных, параметров, представленные в виде набора классов, свойств и методов. Вторая часть проекта связана с реализацией параллельных алгоритмов обработки изображений и моделирования нейронных сетей на одной из версий отечественного суперкомпьютера «СКИФ».

Работа выполняется при частичной финансовой поддержке РФФИ (проекты № 03-01-00808 и  02-01-00308).

Литература

1.   Путятин Е.П., Аверин С.И. Обработка изображений в робототехнике. - М.: Машиностроение, 1990.- 320 с.

2.   Wong R.Y., Hall E.L. Scene Matching with Invariant Moments.// Computer Graphics and Image Processing, 1978, N8, p. 16-24.

3.   Хачумов В.М., Потапов А.В. Распознавание символов на основе метода инвариантных моментов. В сб. «Оптико-электронные приборы и устройства в системах распознавания образов, обработки изображений и символьной информации. - Курск: Курск. гос. техн., ун-т, 2003, ч.1, с.99-101.

4.   Грибов М.Г., Хачумов В.М. Определение геометрических параметров объектов по растровым изображениям. - Автометрия,  № 1, 2001, с.40-49.

5.   Роберт Каллан. Основные концепции нейронных сетей. - М.: Изд. дом «Вильямс», 2001. –288 с.