Скачать .docx  

Доклад: Нейросетевое моделирование

Федеральное агентство по образованию РФ

Государственное образовательное учреждение

высшего профессионального образования

«Ижевский Государственный Технический Университет»

Кафедра «Мехатронные системы»

Доклад

по дисциплине: Современные проблемы в науке,

на тему: «Нейросетевое моделирование»

Выполнил: студент гр. М 110-3,

А.В. Пиков

Проверил: д.т.н., профессор,

Ю. В. Турыгин

Ижевск 2010

СОДЕРЖАНИЕ

Введение ........................................................................................................ 3

1. Нейронные сети в информационном моделировании ............................ 5

2. Регуляризация в нейросетевых моделях................................................. 9

Заключение .................................................................................................... 15

Список использованной литературы........................................................... 16

ВВЕДЕНИЕ

Рассмотрим систему, состоящую из некоторого числа компонент. Для определенности будем иметь в виду, скажем, терминал крупного океанского порта, обслуживающий разгрузку судов портовыми кранами, и отправку грузов автомобильным и железнодорожным транспортом. Нашей конечной целью будет построение модели системы, описывающей ее поведение, и обладающей предсказательными свойствами. Модель способна во многих приложениях заменить собой исследуемую систему.

Каждая из компонент системы имеет свои свойства и характер поведения в зависимости от собственного состояния и внешних условий. Если все возможные проявления системы сводятся к сумме проявлений ее компонент, то такая система является простой, несмотря на то, что число ее компонент может быть велико. Для описания простых систем традиционно применяются методы анализа , состоящие в последовательном расчленении системы на компоненты и построении моделей все более простых элементов. Таковым в своей основе является метод математического моделирования[1], в котором модели описываются в форме уравнений, а предсказание поведения системы основывается на их решении.

Современные технические системы (например, упомянутый выше порт, инженерные сооружения, приборные комплексы, транспортные средства и др.) приближаются к такому уровню сложности, когда их наблюдаемое поведение и свойства не сводятся к простой сумме свойств отдельных компонент. При объединении компонент в систему возникают качественно новые свойства, которые не могут быть установлены посредством анализа свойств компонент.

В случае терминала порта небольшие отклонения в производительности работы кранов, малые изменения или сбои графика движения железнодорожных составов, отклонения в степени загрузки и в графике прибытия судов могут вызвать качественно новый режим поведения порта, как системы, а именно затор. Образование затора вызывает обратное воздействие на режимы работы компонент, что может привести к серьезным авариям и т.д. Состояние затора не может быть в полной мере получено на основе отдельного анализа, например, свойств одного крана. Однако в рамках системы обычный режим работы этого крана может приводить к состоянию затора.

Такие системы, в которых при вычленении компонент могут быть потеряны принципиальные свойства, а при добавлении компонент возникают качественно новые свойства, будем называть сложными . Модель сложной системы, основанная на принципах анализа, будет неустранимо неадекватной изучаемой системе, поскольку при разбиении системы на составляющие ее компоненты теряются ее качественные особенности.

Возможным выходом из положения является построение модели на основе синтеза компонент. Синтетические модели являются практически единственной альтернативой в социологии, долгосрочных прогнозах погоды, в макроэкономике, медицине. В последнее время синтетические информационные модели широко используются и при изучении технических и инженерных систем. В ряде приложений информационные и математические компоненты могут составлять единую модель (например, внешние условия описываются решениями уравнений математической физики, а отклик системы - информационной моделью).

1. НЕЙРОННЫЕ СЕТИ В ИНФОРМАЦИОННОМ МОДЕЛИРОВАНИИ

Искусственные нейронные сети (ИНС) являются удобным и естественным базисом для представления информационных моделей. Нейросеть может быть достаточно формально определена [3], как совокупность простых процессорных элементов (часто называемых нейронами ), обладающих полностью локальным функционированием, и объединенных однонаправленными связями (называемыми синапсами ). Сеть принимает некоторый входной сигнал из внешнего мира, и пропускает его сквозь себя с преобразованиями в каждом процессорном элементе. Таким образом, в процессе прохождения сигнала по связям сети происходит его обработка, результатом которой является определенный выходной сигнал. В укрупненном виде ИНС выполняет функциональное соответствие между входом и выходом, и может служить информационной моделью G системы F .

Определяемая нейросетью функция может быть произвольной при легко выполнимых требованиях к структурной сложности сети и наличии нелинейности в переходных функциях нейронов [4]. Возможность представления любой системной функции F с наперед заданной точностью определяет нейросеть, как компьютер общего назначения . Этот компьютер, в сравнении с машиной фон Неймана, имеет принципиально другой способ организации вычислительного процесса - он не программируется с использованием явных правил и кодов в соответствии с заданным алгоритмом, а обучается посредством целевой адаптации синаптических связей (и, реже, их структурной модификацией и изменением переходных функций нейронов) для представления требуемой функции.

В гипотетической ситуации, когда функция системы F известна или известен алгоритм ее вычисления при произвольных значениях аргументов, машина фон Неймана наилучшим средством для моделирования (состоящего в вычислении F ), и необходимость в информационных моделях отпадает.

При моделировании реальных сложных технических систем значения системной функции F получаются на основе экспериментов или наблюдений, которые проводятся лишь для конечного параметров X . При этом значения как Y так и Х измеряются приближенно, и подвержены ошибкам различной природы (см. ниже). Целью моделирования является получение значений системных откликов при произвольном изменении X. В этой ситуации может быть успешно применена информационная (статистическая) модель G исследуемой системы F .

Информационные модели могут строиться на основе традиционных методов непараметрической статистики Данная наука позволяет строить обоснованные модели систем в случае большого набора экспериментальных данных (достаточного для доказательства статистических гипотез о характере распределения) и при относительно равномерном их распределении в пространстве параметров. Однако при высокой стоимости экспериментальных данных, или невозможности получения достаточного их количества (как, например, при построении моделей тяжелых производственных аварий, пожаров и т.п.), их высокой зашумленности, неполноте и противоречивости, нейронные модели оказываются более предпочтительными. Нейронная сеть оказывается избирательно чувствительной в областях скопления данных, и дает гладкую интерполяцию в остальных областях.

Эта особенность нейросетевых моделей основывается на более общем принципе - адаптивной кластеризации данных. Одной из первых сетей, обладающих свойствами адаптивной кластеризации была карта самоорганизации Т. Кохонена [5,6]. Задачей нейросети Кохонена является автоматизированное построение отображения набора входных векторов высокой размерности в карту кластеров меньшей размерности, причем, таким образом что близким кластерам на карте отвечают близкие друг к другу входные вектора в исходном пространстве. Таким образом, при значительном уменьшении размерности пространства сохраняется топологический порядок расположения данных. При замене всех векторов каждого кластера его центроидом достигается высокая степень сжатия информации при сохранении ее структуры в целом.

Карты Кохонена применяются в основном, для двух целей. Первая из них - наглядное упорядочивание многопараметрической информации. На практике обычно используются одномерные и двумерные карты. Кластеры, задаваемые узлами карты, содержат группы в некотором смысле похожих наблюдений, которым может быть приписан групповой семантический смысл. Одним из новых эффективных применений сети Кохонена является построение тематической карты электронных сообщений в глобальных компьютерных сетях. При помощи такой карты пользователь получает возможность свободной навигации в бесконечном потоке сообщений, в соответствии с индивидуальным кругом интересов. В применении к моделированию технических систем, карты Кохонена могут использоваться для выявления различий в режимах поведения системы, при этом могут выявляться аномальные режимы. Важно, что при этом могут быть обнаружены неожиданные скопления близких данных, последующая интерпретация которых пользователем может привести к получению нового знания об исследуемой системе.

Вторая группа технических применений связана с предобработкой данных. Карта Кохонена группирует близкие входные сигналы X , а требуемая функция Y=G(X) строится на основе применения обычной нейросети прямого распространения (например, многослойного персептрона или линейной звезды Гроссберга) к выходам нейронов Кохонена. Такая гибридная архитектура была предложена Р. Хехт-Нильсеном [7,8], она получила название сети встречного распространения . Нейроны слоя Кохонена обучаются без учителя, на основе самоорганизации, а нейроны распознающих слоев адаптируются с учителем итерационными методами. При использовании линейных выходных нейронов значения их весов могут быть получены безитерационно, непосредственным вычислением псевдо-обратной матрицы по Муру-Пенроузу.

Сеть встречного распространения дает кусочно-постоянное представление модели Y=G(X) , поскольку при вариации вектора X в пределах одного кластера на слое соревнующихся нейронов Кохонена возбуждается один и тот же нейрон-победитель. В случае сильно зашумленных данных, такое представление обладает хорошими регуляризирующими свойствами. При этом процедура обучения сети встречного распространения заметно быстрее, чем, например, обучение многослойного персептрона стандартным методом обратного распространения ошибок [9].

Другой альтернативой традиционным многослойным моделям является переход к нейросетям простой структуры, но с усложненными процессорными элементами. В частности, можно рассмотреть нейроны высоких порядков, активирующим сигналом для которых является взвешенная сумма входов, их попарных произведений, произведений троек и т.д., вплоть до порядка k .

Каждый процессорный элемент k -го порядка способен выполнить не только линейное разделение областей в пространстве входов, но также и произвольное разделение, задаваемое поли-линейной функцией нескольких аргументов. Семейство решающих правил, определяемых нелинейным нейроном значительно богаче, чем множество линейно разделимых функций. На Рис. 1 приведен пример решающего правила, задаваемого одним нейроном второго порядка, для классической линейно неразделимой задачи "исключающее ИЛИ ".

Рис.1 Решающее правило для задачи "исключающее ИЛИ".

Важным достоинством нейронов высокого порядка является возможность строить нейросетевые модели без скрытых слоев, воспроизводящие широкий класс функций. Такие нейроархитектуры не требуют длительного итерационного обучения, оптимальные веса даются решением уравнений регрессии. Другой отличительной чертой является возможность эффективной аппаратной (электронной или оптической) реализации корреляций высокого порядка. Так, например, существуют нелинейные среды, оптические свойства которых определяются полиномиальной зависимостью от амплитуды электрического поля световой волны. Потенциально, устройства, основанные на таких средах, могут обеспечить высокие скорости вычислений со свойственной оптическим компьютерам супер-параллельностью вычислений.

2. РЕГУЛЯРИЗАЦИЯ В НЕЙРОСЕТЕВЫХ МОДЕЛЯХ

Классическим методом решения некорректных задач является метод регуляризации А.Н.Тихонова [10]. Суть метода состоит в использовании дополнительных априорных предположений о характере решения. Обычно в качестве таковых используются требования максимальной гладкости функции, представляющей решение задачи. Данный принцип полностью соответствует идее бритвы Оккама , согласно которой следует предпочесть простейшее из возможных решений, если нет указаний на необходимость использования более сложного варианта.

В приложении к нейросетевые моделям, регуляризирующие методы сводятся к оптимизации функционала ошибки (в простейшем случае - суммы квадратов уклонений модели от экспериментальных значений) с аддитивной добавкой, исчезающей по мере улучшения свойств гладкости функции:

.

Здесь j - регуляризирующий функционал, l - неотрицательная константа регуляризации.

Замечательной особенностью нейросетевых моделей (аппроксимаций системной функции на основе конечного набора наблюдений) являются их внутренние регуляризирующие свойства, позволяющие получать малые ошибки обобщения. Полезность регуляризирующих свойств нейронных сетей проявляется в ситуациях, когда экспериментальные данные о системе содержат внутреннюю избыточность. Избыточность позволяет представить совокупность данных моделью, содержащей меньшее число параметров, чем имеется данных. Таким образом, нейросетевая модель сжимает экспериментальную информацию, устраняя шумовые компоненты и подчеркивая непрерывные, гладкие зависимости.

Следует отметить, что в случае полностью случайных отображений построение модели с малой ошибкой обобщения не возможно . Достаточно рассмотреть простой пример, в котором аппроксимируется отображение фамилий абонентов телефонной сети (вектор входов X ) в номера их телефонов (вектор выходов Y ). При любой схеме построения обобщающей модели предсказание номера телефона нового абонента по его фамилии представляется абсурдным.

Имеется обширная научная библиография, посвященная обоснованию оптимального выбора нейроархитектур и переходных функций нейронов исходя из различных видов регуляризирующих функционалов j (см., например [11] и цитируемую там литературу). Практическая направленность данной главы не позволяет изложить математические детали. Одним из продуктивных подходов к построению нейросетей с хорошими обобщающими свойствами является требование убывания высоких гармоник Фурье переходных функций. Различные законы убывания приводят к локальным сплайн-методам и нейросетям с радиальными базисными функциями.

В случае сигмоидальной переходной функции абсолютная величина коэффициентов Фурье[1] асимптотически быстро убывает. Это свойство отчасти объясняет регуляризирующие свойства популярных многослойных сетей с такими переходными функциями.

Рассмотрим особенности регуляризированных решений обратных задач моделирования описанных систем A, B и C. Обучающая выборка в расчетах содержала 200 пар x-y , в которых величина x случайно равномерно распределена на отрезке [0,1], а значение y определяется моделируемой функцией. Расчеты проведены для нейросети с обратным распространением ошибки и нейросети встречного распространения. Еще 500 случайных примеров служили для оценки ошибки обобщения. В трех сериях расчетов величины y из обучающей выборки нагружались внешней шумовой компонентой с амплитудой 0%, 10% и 50% соответственно. Обучение проводилось на обратной зависимости x (y ), т.е. величины y использовались в качестве входов, а x - выходов нейросети.

Проведенные расчеты преследовали следующие основные цели:

· выяснение возможности получения оценки некорректности задачи из наблюдений за ошибкой обучения и обобщения,

· изучение роли шума и его влияния на точность оценки степени некорректности,

Результаты моделирования приведены на Рис. 3 - 7.

Рис. 3 Зависимость ошибки обучения EL (кружки) и ошибки обобщения EG (точки) от степени некорректности h обратной задачи при различных уровнях шума

На Рис. 3 представлено изменение ошибки обучения (и практически совпадающей с ней ошибки обобщения) при росте скачка моделируемой функции. Ошибка при различных уровнях шума прямо пропорциональна величине скачка, определяемого параметром некорректности h . Для сильно некорректной задачи (h=1 ) результаты полностью не зависят от шума в данных. Теоретически, для неограниченного обучающего набора для моделируемых систем имеется точное (линейное) решение, минимизирующее среднеквадратичное уклонение, которое в предельном случае (h =1) дает значение ошибки 0.25. Расчетное значение на Рис.3 в этом наихудшем случае близко к данной теоретической величине.

Таким образом, скейлинг ошибки обучения выявляет степень некорректности задачи независимо от присутствия аддитивного шума в обучающих данных. Данные шум может быть вызван как неточностью измерений, так и эффектом "скрытых" параметров, неучтенных в модели.

На следующем рисунке приведено регуляризованное решение предельно некорректной задачи (h =1), даваемое нейронной сетью с обратным распространением, обученной на зашумленных данных.

Рис. 4. Регуляризованное решение (точки) предельно некорректной обратной задачи, полученное при помощи нейросети с обратным распространением ошибки на зашумленных данных (кружки).

Решение отвечает минимуму среднеквадратичного уклонения от обучающих данных, что является типичным для сетей с сигмоидальными функциями.

Укажем явно, в чем состоит характер априорных предположений, принимаемых при построении нейросетевых моделей. Единственное предположение (которого оказывается достаточно для регуляризации) состоит в указании базисной архитектуры нейросети с ограничением ее структурной сложности . Последнее существенно, т.к., например, при неограниченном увеличении числа нейронов на скрытом слое, сеть способна достаточно точно запомнить дискретный обучающий набор. При этом вместо гладкого решения (Рис.4) будет получено "пилообразное" решение, колеблющееся между двумя ветвями обратной функции, проходя через все обучающие точки.


ЗАКЛЮЧЕНИЕ

Нейронные сети являются естественным инструментом для построения эффективных и гибких информационных моделей инженерных систем. Различные нейроархитектуры отвечают различным практическим требованиям.

Сети двойственного функционирования с обратным распространением ошибки и сети встречного распространения обладают хорошими обобщающими свойствами и дают количественные решения для прямых информационных задач.

Внутренние регуляризирующие особенности нейронных сетей позволяют решать также обратные и комбинированные задачи с локальной оценкой точности . Для некорректно поставленных задач моделирования предложена нейросетевая информационная технология построения гибридной нейроархитектуры, содержащей кластеризующую карту Кохонена и семейство сетей с обратным распространением, обучаемых на данных индивидуальных кластеров. В этой технологии выявляются области частичной корректности задачи, в которых дается решение с высокой локальной точностью. Для остальных областей признакового пространства нейросеть автоматически корректно отвергает пользовательские запросы.


СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ

1. В. А. Головко Нейронные сети: обучение, организация и применение. — М.: Изд-во «ИПРЖ», 2002. — 256 с.

2. А.Н.Горбань, В.Л.Дунин-Барковский, А.Н.Кирдин и др. Нейроинформатика - Новосибирск: Наука. Сибирское предприятие РАН, 1998. - 296с.


[1] Имеется в виду интеграл Фурье в смысле главного значения (интеграл от квадрата сигмоидальной функции, очевидно, расходится).