7. Модели - аналогии кибернетических систем

Отличие моделей итеративного научения, рассматриваемых в настоящем разделе, от описанных выше заключается в том, что объектами исследования являются не живые системы, изучение которых основывается на гипотетических аналогиях и предположениях о зависимости между параметрами элементов и обучаемой системы, а кибернетические системы - автоматы, алгоритмы, нейронные сети и др.

Другими словами, при построении математических моделей итеративного научения биологических систем выше использовались аналогии с физическими явлениями, те или иные интуитивные предположения и т.д. В моделях - аналогиях кибернетических (абстрактно-логических моделях, не реализованных материально, в отличие от технических) систем принципы функционирования последних с одной стороны переносятся (на уровне гипотез) на моделируемые системы, а с другой стороны многие кибернетические системы используют аналогии с системами живой природы.
Проведенное разделение не случайно. Например, конечные автоматы и нейронные сети нашли широкое распространение в теории управления, прикладной математике и других областях науки не только как модели живых систем, но и как объекты, заслуживающие самостоятельного изучения и используемые при синтезе управляющих систем, распознавании образов и т.д. [68? 72]. К этому же классу моделей мы относим и модели, использующие аналогии с методами оптимизации - существует целый ряд моделей ИН, в которых предполагается, что природа "использует" тот или иной алгоритм для снижения, например, значения рассогласования. С другой стороны, если мы хотим на основании анализа поведения, например, нейронной сети при ее научении [34] сделать какие-то выводы о поведении человека и животных при итеративном научении, то необходимо понять какое отношение исследуемая кибернетическая система имеет к сети нейронов в мозге человека.
При этом, однако, надо четко понимать, что искусственные системы ведут себя тем или иным образом не сами по себе, а в строгом соответствии с теми правилами и алгоритмами, которые были в них заложены человеком - создателем системы.
Первым использованием методов поиска экстремума при анализе и моделировании поведения биологических систем является, по-видимому, метод оврагов [32], в котором все переменные (параметры системы) разбиваются на два качественно различных класса - существенные и несущественные. Одни из них характеризуются тем, что при их изменении значение минимизируемой функции изменяется достаточно быстро (спуск по склону "оврага" - поверхности функции), а другие - достаточно медленным изменением минимизируемой функции (спуск по наклонному дну оврага). Соответственно, для максимально быстрого достижения минимума нужно насколько возможно быстро двигаться именно по дну оврага (отметим, что здесь и в ходе дальнейшего изложения мы не будем обсуждать локальность алгоритмов, их сходимость и т.д. [39], ограничиваясь лишь качественным анализом).
Модель 7.1.
О(Г, Ф, В). Предположим, что алгоритм минимизации рассогласования использует метод поиска корня (некоторой функции fx) на отрезке [a; b]) делением отрезка пополам. Оценка сверху рассогласования (в зависимости от числа итераций) дается выражением xn < (b - a) / 2n, то есть xn < a e- gn, где
a = exp (log2 (b - a) In 2), g = In 2.
А. Примерно экспоненциальную сходимость (для достаточно "хороших" функций - см. более подробно, например [39]) имеют не только дихотомические методы поиска корня, но и многие другие. •
Модель 7.2.
О(Г). Предположим, что рассогласование системы в момент времени n определяется как среднее арифметическое текущих значений рассогласований всех N элементов.
Пусть рассогласования всех элементов в начальный момент времени равны единице, неотрицательны в любой момент времени, и в n-й момент времени рассогласование 7-го элемента x7(n) может принимать с равной вероятностью любое значение, меньшее x7 (n - 1).
Ф(В). Тогда, если определить рассогласование всей системы
1 N
как XN(n) = — ^ xi (n), то, если число элементов достаточно
N i=1
велико, то рассогласование системы Xn = Xn1 /2 n, n = 1, 2, ..., Xo = 1.
А. Предположение о невозрастании рассогласований элементов вполне соответствует известному принципу "не упускать достигнутого" [93, 94]. В то же время, использование среднего арифметического в качестве значения рассогласования системы и предположение о равновероятности допустимых значений рассогласований элементов представляются не очень обоснованными. Стоит отметить некоторую близость рассматриваемой модели к моделям 5.1 и 8.4. •
Модель 7.3. (О.М. Аттли [15]).
О. Техническая система, изменяемыми характеристиками которой являются вероятности (определенных действий, состояний, реакций и т.д.).
Г. В зависимости от "успеха" или "неуспеха" на шаге n, на шаге n + 1 вероятность p определяется следующим образом:
\ Рп + a (1 - Pn )
Pn+1 = \ .
I Pn - P Pn
Ф(В). Предположим, что, если на n-ом шаге выбирается правильное действие (с вероятностью pn), то вероятность "успеха" равна p (соответственно, "неуспеха" - (1 - p)). Если выбирается неправильное действие (с вероятностью (1 - pn)), то вероятность "успеха" равна q. Тогда ожидание "успеха" на (n + 1)-ом шаге равно: Vn+1 = Vn (pn+1 p + (1 - pn+1) q).
Подставляя закон изменения вероятности, получим, что Vn экспоненциально изменяется со временем (см. модель 4.2.).
А. Экспоненциальный вид кривой, отражающей изменение ожидаемого "успеха" обусловлен линейным изменением вероятности. В 50-60-х годах, в период бурного развития кибернетики, было построено значительное число самых разнообразных обучающихся машин: машины условной вероятности [15], обучающиеся матрицы [91], "мышь" К. Шеннона (лабиринтная модель), "черепаха"
Г. Земанека, "машина-спекулятрикс" (аналог безусловного рефлекса) и "CORA" (аналог условного рефлекса) Г. Уолтера [80] и др. В большинстве из них использовались линейные законы изменения переменных (в отличие, например, от нелинейных законов, используемых в гомеостате У.Р.

Эшби [93]). Более того, при иссле-довании общих закономерностей процессов адаптации и обучения в автоматических системах, многие законы обучения (например, линейные алгоритмы оптимального обучения) выбирались также линейными [86, 87]. •
Большой класс обучающихся автоматов составляют так называемые конечные вероятностные автоматы с переменной структурой. Под конечным автоматом понимается объект, имеющий некоторые внутренние состояния, на вход которого могут поступать внешние воздействия и выходной параметр которого может принимать одно из конечного числа значений [24-26]. Внутренние состояния автомата изменяются с изменением входных параметров, а выходные - с изменением внутренних состояний. Для нашего анализа важна способность автомата "самостоятельно" изменять свою структуру - преобразование "вход" - "внутреннее состояние", "вход, внутреннее состояние" - "выход" (естественно, автомат меняет эти законы не по своему усмотрению, а в соответствии с заложенным в него алгоритмом), функционируя в нестационарной среде. Эта способность позволяет говорить об адаптивности поведения, эффектах коллективного поведения (игры автоматов, иерархические обучаемые автоматы [48, 49]) и наличии некоторого рода научения (понимаемого в данном случае как накопление и переработка информации о внешней среде и выработка целесообразных законов поведения в данных конкретных условиях [85]).
Модель 7.4. (В.И. Варшавский, В.Ю. Крылов и др. [24, 49]).
О. Вероятностный автомат в момент времени t совершает 7-е действие (выбирает 7-е выходное состояние) с вероятностью p7(t),
7 = 1, к, где к - конечное число выходных состояний. Цель автомата - максимизировать выигрыш, зависящий от его действий и состояния окружающей среды. "Переменность" его структуры означает возможность изменения вероятностей. Понятно, что если в данных условиях (при данном состоянии окружающей среды)
51
было выбрано "правильное" действие, приведшее к положительному выигрышу, то вероятность выбора этого действия следует увеличить, а вероятности выбора остальных действий, соответственно, уменьшить, так как должно выполняться условие нормировки (ср. с "лабиринтной" моделью 4.2).
Г. Предположим, что вероятности выбора действий i и j изменяются по закону A±pi(t), такому, что выполнено: p,(t + 1) = p,(t) ± Apt), p}(t + 1) = p() ± A±p](t), j * i,
причем
A±pi(t) + 2 A±p(t) = 0.
j * i
Ф(В, А). Если закон изменения A±pi(t) линеен по pi(t), получаем экспоненциальную последовательность. В общем случае, конечно, чисто экспоненциальной кривой наблюдаться не будет, однако, в большинстве случаев при имитационном моделировании наблюдались примерно экспоненциальные замедленно- асимптотические кривые зависимости, например, среднего выигрыша от числа сыгранных партий [24, 25]. •
Другим обширным классом кибернетических систем, претендующих на моделирование явлений и процессов, происходящих в биологических системах, являются так называемые нейронные сети.
Алгоритмы научения нейронных сетей условно можно разделить на детерминированные алгоритмы и алгоритмы случайного поиска. Фактически обучение нейронной сети - не что иное как задача минимизации многоэкстремальной функции многих переменных [103]. Число известных на сегодняшний день различных методов обучения (алгоритмов минимизации) и разнообразных конструкции сетей (их архитектур) составляет, как минимум, несколько десятков. Мы рассмотрим некоторые общие подходы к обучению нейронных сетей, не вдаваясь в детали.
Модель 7.5.
О. Нейронная сеть представляет собой несколько слоев нейронов, имеющих логистические или какие-либо другие сигмо- образные передаточные функции [103, 108]. Выходы нейронов 52
каждого слоя подаются на входы нейронов других слоев с определенными весами. Вес "связи" (i, j) - число, на которое перед суммированием на входе j-го нейрона умножается выходной сигнал i- го нейрона. Обучение нейронной сети заключается в подборе (последовательном изменении) весов нейронов, соответствующих решаемой задаче (распознавание сигнала, минимизация функции и т.д.). Обучение происходит следующим образом: нейронной сети подаются на вход определенные сигналы, выходные сигналы сети сравниваются с нормативными значениями и на основании этого сравнения корректируются веса.
Г(Ф). Достаточно распространенными алгоритмами изменения весов являются алгоритм обратного хода (BP - backpropagation neural network) - сначала изменяются веса нейронов последнего (выходного) слоя, затем предпоследнего и т.д. [112], и так назы-ваемый случайный мультистарт (точнее, его модификации - выбирается начальная точка, следующая точка определяется путем добавления к начальной, например, гауссовского случайного вектора и "инерционной добавки", сравниваются значения функции ошибки в этих точках и т.д. [97]).
В(А). Справедливости ради, следует констатировать, что в общем случае, веса отдельных нейронов и их ошибки не всегда изменяются замедленно-асимптотическим образом. Однако общая ошибка, которая чаще всего вычисляется как средняя ошибка нейронов, в большинстве случаев изменяется примерно экспоненциально (в частности - при использовании метода градиентного спуска [97]). Понятно, что динамика ошибки зависит как от используемого метода научения, так и от специфики минимизируемой функции [97]. Например, в работе [107] для аппроксимации времени обучения BP-сети предлагается полиномиальная функция. Скорость сходимости к точке минимума функции ошибки (скорость научения нейронной сети) зависит от алгоритма изменения весов нейронов, который, в свою очередь, закладывается конструктором. •
Таким образом, при научении кибернетических систем экспоненциальный характер соответствующих КН обусловлен линейным законом изменения внутренних параметров системы и/или большим числом составляющих ее элементов.

<< | >>

↑

Источник: Новиков Д. А.. Закономерности итеративного научения. М.: Институт проблем управления РАН,1998. - 77 с.. 1998

Еще по теме 7. Модели - аналогии кибернетических систем: