8. Модели коллективного поведения

В настоящем разделе рассматриваются модели итеративного научения, основывающиеся либо на результатах экспериментальных наблюдений взаимодействия членов коллектива, либо на аналогиях с принципами, используемыми в формальных моделях коллективного поведения.
Модель 8.1.

(У.Р. Эшби [94]).
Одной из первых моделей адаптационного взаимодействия элементов является гомеостат Эшби, служащий хорошей иллюстрацией возможностей использования ультрастабильных динамических систем при моделировании свойств нервной системы. Следует признать, что так как при изучении гомеостата основной акцент делается на адаптивность поведения, его "кривые научения" в ряде случаев не являются замедленно-асимптотическими. Эта модель настолько известна и детально исследована, что мы ограничимся ссылкой на первоисточник [94]. •
Модель 8.2. (М.А. Новиков [58]).
О. Модель гомеостата может быть использована для анализа групповой деятельности операторов. Фактически, отличие от предыдущей модели заключается в том, что компенсация воздействий (внешних по отношению к конкретному оператору) осуществляется не за счет физической обратной связи (устройства прибора), а за счет целенаправленной деятельности каждого оператора, учитывающего действия остальных.
Г(Ф,В,А). Матричное уравнение "Гомеостата" имеет вид [58]: % = A U, U - матрица положений ручек управления, % - матрица положений стрелок приборов, A - матрица, характеризующая структуру "гомеостата" и величины коэффициентов взаимной связи (показания каждого прибора являются линейной комбинацией положений ручек управления). В зависимости от способа соединения операторов (использовались кольцо, звезда, цепь и др.) и числа операторов определяется трудность решаемых задач.
А. При различных структурах трудность решаемой задачи существенно зависит от числа операторов. Предположение о линейности взаимосвязи существенно упрощает модель. При этом, опять
же в силу адаптивности, динамика системы не всегда описывается замедленно-асимптотической кривой. •
Модель 8.3. (А. Раппопорт [71]).
О. Параметры самоорганизации в группе из трех испытуемых.
Г. Обозначим Hmax - максимальное значение энтропии системы, H(t) ?Hmax - текущее значение энтропии, h = Hmax - H - количество накопленной информации. Предположим, что скорость накопления информации (приращение информации за одну итерацию или за одну ошибку) постоянна (см. раздел 6) и, что остаточная энтропия равномерно распределена между опознаваемыми объектами.
Ф(В). В соответствии с принятыми предположениями, если
обозначить x(t) - полное число ошибок за время t, то вероят-
dt
dH dx
ность ошибки в момент t, = g, H(t) = - M ln(1 ) (откуда
dt dt берутся эти выражения, как справедливо заметил переводчик работы [71], не очень понятно). Если x(0) = 0, то H = gx. В результате получается следующее уравнение теоретической кривой суммарной ошибок:
x = Hmax / g- M/ g [eXp(Hmax / M - 1) exp (- gt / M) + 1].
А. Справедливость ряда предположений, принятых автором этой модели не очевидна, некоторые утверждения (особенно формальные) нуждаются в объяснении. Тем не менее [71] считается одной из классических работ по экспериментальному и формальному исследованию процессов самоорганизации в коллективах. Отметим, что полученное выражение определяет зависимость накопленной ошибки от времени. Кривая текущего значения рассогласования будет логистической. •
Достаточной общностью, с нашей точки зрения, обладают теоретико-игровые модели итеративного научения, точнее - модели, использующие результаты теории коллективного поведения.
Прежде чем рассматривать конкретные модели, проведем описание общих принципов. Пусть система состоит из n элементов, каждый из которых может в момент времени t находиться в со-
стоянии s7(t) є W = [ s7 ; s+ ]. Предположим, что состояние всей системы однозначно описывается вектором состояний элементов:
n
s(t) = (si(t), S2(t), Sn(t)), s(t) є W = nw7, "t > 0.
7 =1
Величину h(t) = {s(t) є W | t < t}, то есть информацию о стратегиях всех элементов, выбранных до момента t, назовем историей игры.
Рассмотрим как будут вести себя элементы. Предположим, что существуют некоторые функции j() = {j7(s)}, которые мы будем называть целевыми функциями элементов, отражающие интересы элементов (каждый элемент стремится максимизировать значение свей целевой функции). Отметим, что целевая функция каждого элемента в общем случае зависит не только от его собственного состояния (выбираемой им или назначаемой ему "управляющим устройством" стратегии), но и от состояний других элементов, то есть имеет место игра элементов (например, каждый элемент может стремиться минимизировать функцию-индикатор [52, 53]). Мы будем считать, что эта игра некооперативная, то есть каждый элемент выбирает стратегию самостоятельно, не имея возможности договориться с остальными элементами.
Последовательно изменяя свои стратегии, элементы стремятся достичь некоторой точки равновесия. В теории игр существует несколько концепций равновесия. Если мы считаем игру элементов некооперативной, то, целесообразно рассматривать равновесие Нэша (как такую совокупность стратегий, одиночное отклонение от которой невыгодно ни одному из элементов). Для нашего анализа первичным является не концепция равновесия, а принципы поведения элементов. Под принципом поведения 7-го АЭ мы будем понимать правило, по которому он выбирает свою стратегию в момент времени t, зная свою целевую функцию и допустимое множество, зная (а иногда и не зная или зная только частично) целевые функции и допустимые множества остальных элементов и зная (а иногда и не зная или зная только частично) историю игры h(t). То есть
(8.1) s, 0.
Предвосхищая возможные возражения против наделения элементов обучаемой системы некоторыми "интересами", отметим, что, действительно, в активных системах (например, группа взаимодействующих операторов) функции { j, F,} отражают интересы элементов системы, а в пассивных системах F,(-) - не что иное, как закон (иногда неизвестный исследователю) изменения состояний элементов, удовлетворяющий физическим, биологическим и другим ограничениям.
Понятно, что, приняв ту или иную гипотезу о поведении элементов и их взаимодействии, можно рассчитать траектории каждого из них. С ростом размерности системы целесообразность использования такого метода становится проблематичной и возникает желание описать поведение системы в целом (может быть несколько усредненно и не совсем точно), не вдаваясь в подробное описание каждого из элементов.
Интуитивно, такое агрегированное описание в ряде случаев будет оказываться с ростом размерности системы все более точным.
В частном случае (8.1) превращается в динамическую систему
si = f(s(t)), i = їй, t > 0,
или, если время дискретно, систему разностных уравнений:
s(k + 1) = f(s(k)), i = 1,n, k = 0, 1, 2, ... .
В последних двух случаях задача исследования динамики кол-лективного поведения сводится к изучению свойств динамической системы [65, 66]. В частности, необходимо определить - существует ли точка равновесия (иногда это эквивалентно исследованию существования положения равновесия динамической системы) и устойчиво ли оно, сходятся ли траектории системы к этому положению равновесия (каковы области притяжения различных равновесных точек), какова скорость сходимости и т. д. На сегодняшний день ответов на эти вопросы в общем случае не существует, и большинство исследований сконцентрировалось на изучении тех или иных частных моделей.
Модель 8.4.
О(Г). Состояния элементов системы удовлетворяют нормальной системе дифференциальных уравнений:
(8.4) st = f(s(t), t), 7 = 1, n, t > 0.
Пусть функции {f} непрерывны и липшицевы (удовлетворяют определенному ограничению на скорость роста) во всей допустимой области.
Ф(В).

Для любой допустимой начальной точки решение системы (8.4) существует и единственно. Более того, если решение (8.4) асимптотически устойчиво, то положение равновесия достижимо за бесконечное время (групповое свойство).
Если {/7} - линейные функции и все собственные значения соответствующей матрицы имеют отрицательные действительные части, то существуют две экспоненциальные функции, ограничивающие траекторию системы (8.4) сверху и снизу. Введение дополнительного предположения о монотонности правой части системы (8.4) приводит к замедленно-асимптотическому виду траекторий ее решения.
А. Липшицевость правой части системы дифференциальных уравнений может интерпретироваться как ограниченность скорости возможных изменений состояний элементов (и, следовательно, рассогласования), приводящая к недостижимости положения равновесия (нулевой ошибки) за конечное время. Для того, чтобы исключить возможность появления точек перегиба, следует ввести достаточно сильное предположение о монотонности правой части. •
Одним из наиболее распространенных и хорошо изученных предположений о рациональном поведении элементов активной системы является гипотеза индикаторного поведения. В соответствии с этой гипотезой на каждой итерации каждый элемент делает шаг в направлении той стратегии, которая была бы оптимальной, если все остальные элементы выбрали бы те же стратегии, что и на предыдущем шаге. В этом случае определим положение цели 7-го элемента:
wt(s_i) = arg max j(sv s_)
siІ
где s_7 = (sj, s2, ..., s7_i, s7+1, ..., sn) - обстановка для 7-го элемента.
Тогда гипотезу индикаторного поведения можно записать в
виде
s(k+1) = s(k) + gk (w(Si(k)) - s(k)), i = 1, n, k = 0, 1, 2, ... , где параметры 0 ? gk ? 1 определяют "величины шагов". Детальное исследование систем, в которых элементы ведут себя в соответствии с гипотезой индикаторного поведения проведено в [6163, 65].
С ростом числа элементов при "примерно одинаковом" их влиянии на систему в целом, оказывается, что поведение системы определяется некоторым "усредненным" элементом. При этом нет необходимости исследования всех элементов - значения показателей, характеризующих всю систему оказываются стабильными на достаточно широкой области значений параметров элементов [1, 60]. Возможность такого "усреднения" (без существенной потери точности описания) представляется достаточно привлекательной, так как число элементов в реальных итеративно научаемых системах, как правило, чрезвычайно велико (при этом не принципиально, что понимать под "элементом" - нейрон мозга, степень свободы руки и т.д.) [64]. Примером использования методов асим-птотического агрегирования при исследовании коллективного поведения (в рамках гипотезы индикаторного поведения) является приводимая ниже модель (читатель, не знакомый с используемым аппаратом, может пропустить приводимые ниже формальные результаты, границы которых отмечены "?").
Модель 8.5.
О. Рассмотрим систему, состоящую из n взаимосвязанных элементов, функционирующих в дискретном времени. Состояние
системы в момент времени k: sk = ( s^, s^k, ..., s'k ) є W с Жn опре-деляется состояниями элементов sk є О,, k = 1, 2, ... , где
< s- < s+ < +?, i = 1, n .
Г. Предположим, что поведение системы удовлетворяет гипотезе индикаторного поведения - в каждый момент времени каждый из элементов изменяет свое состояние в направлении текущего положения цели, т.е. описывается итерационной процедурой типа
(8.5) sk+1 = sk + gk [w(s-) - sk], k = 1, 2, ... , i = \n .
где wг( s-) - текущее положение цели і-го элемента, зависящее от состояний остальных элементов, а параметры
g = (її ' її' ¦¦¦' gn X выбираемые элементами, определяют величины шагов (скорость научения) и имеют произвольные распределения в единичном кубе.
? Предположим, что точка равновесия системы c = (c1, c2' ¦¦¦' cn)' сг є [s-; s+ J, г = 1,П' существует, единственна и
траектории (8.5) сходятся к этой точке (соответствующие условия приведены, например, в [52, 65]).
В качестве меры текущей "удаленности" системы от положения равновесия выберем рассогласование
1n
(8.6) А = ||c - /|| = - ?|c, - ski,
n г=1
т.е. расстояние между точками s и c в пространстве Шn. Ф. Воспользовавшись (8.5), получим:
1n
(8.7) A*+1 = - - sk )(1 - її ) + її (c - Wг (sk ))|
n г=1
Очевидно: An < An , где
1 n 1
її
) A+1 = - Zlc- - sf|(1 - її) + - 2 її I c - w, (sk )|.
n г=1 n г=1
При достаточно больших n оценка рассогласования АП+1
должна слабо отличаться от "среднего значения"
1 n
(8.9) А+1 = (1 - їкп) At + їкп -2|c, -w,(sk)|,
n г=1
_ 1 n
где їп = — 2 їі . Приведем корректную формулировку и обос-
n г=1
нование этого утверждения. Определим, что понимается под близостью АїП1 и A+1 . В соответствии с [60, 64], последовательность
функций Akn+1 (gk) стабилизируется на единичных кубах Kn = [0;1]n,
~Tk+1
если существует такая числовая последовательность An , что
Pr {| Akn+1 - Ak+1 > e} - 0, n ® +?
для любого наперед заданного e > 0.
Для того, чтобы судить о стабилизации, оценим разность значений функции Akn+1() в следующих точках: ^ є Kn и Sk = (Sk, Sk, ..., Sk) є Kn: ~ ~ 1 n
|Akn (/) - Akn (S k)| = H ?|c, - sk I (Si - gk) +
n i=1
1n
+ - z (gk - s k )i с - W, (sk )||.
n ,=1
Обозначив a = max (s+ - s-), получим
i
I Akn (7і) - Akn (S k)| ? —— zz I gk - Sk|,
n i=1
т.е. An (•) является липшицевой функцией с постоянной Липшица порядка 1 / n.
В силу теоремы 2 [64], для любых распределений gk на Kn дисперсия D{ Ай } ® 0, n ® +?, следовательно, по неравенству Че- бышева выполняется (8.10).
В. Стабилизация последовательности Akn позволяет сформулировать следующий вывод. С ростом числа элементов системы оценка (8.8) рассогласования (8.6) сходится по вероятности к (8.9), т.е. имеет место:
1n
Pr {Akn+1 > (1 - gk) Ak„ + gk- Z | С - w, (sk) |} -+ 0.
n n®+?
i =1
Некоторые частные случаи приведенного утверждения рассмотрены ниже:
- если система монотонно движется к положению равновесия (если sk: > с,, то sk > w,(sk) > С, и, соответственно, если sk ? с^, то
sk ? w,(sk) ? С,, i = 1, n, k = 1, 2, ...), то (8.7) сходится по вероятности к (8.9);
если элементы системы не взаимодействуют или существует S > 0: |с, - w,(sk)| ~ o(nS), i = 1, n, к = 1, 2, ... , то (8.7) сходится по вероятности к (1 - 7к ) Akn . ?
А. Исследование модели позволяет сделать следующий качественный вывод: если
элементы не взаимодействуют, или
положения цели не меняются со временем (например,
wi = С,), или
среднее изменение положений цели относительно точек равновесия для каждого элемента на каждом шаге достаточно мало:
|С, - w,(sk)| << |С, - sk | "i = , к = 1, 2, ... ,
то среднее рассогласование достаточно точно может быть аппрок-симировано экспоненциальной кривой.
Существенным в настоящей модели является допущение о справедливости гипотезы индикаторного поведения и выбор рас-согласования в виде (8.6). Более того, предположение о стационарности положений цели, фактически, сводит рассматриваемую модель к модели 4.1. •
В моделях коллективного поведения замедленно- асимптотический характер КН является следствием либо большого числа элементов системы, либо/и отсутствия или ограниченности их взаимодействия, либо/и постоянства положений цели.

<< | >>

↑

Источник: Новиков Д. А.. Закономерности итеративного научения. М.: Институт проблем управления РАН,1998. - 77 с.. 1998

Еще по теме 8. Модели коллективного поведения: