1.2. Специфика систем отношений и структура данных
Обычное измерение, применяемое в социальных науках, имеет своей парадигмой социально-демографи-ческие признаки и основано на простой связке «индивид – признак» (рис.1.1).
Стандартная система отношений в социальном измерении" /> Рис.1.1. Стандартная система отношений в социальном измерении
Измеряемые значения признака имеют распределение некоторого вида на множестве индивидов. Характер таких распределений определяет отношения между разными признаками, устанавливаемые на этом множестве. Именно для связки «индивид – признак» предназначено подавляющее большинство методов статистического анализа. Ранжирование позволяет включать в эмпирическую систему отношений третий элемент – объект оценки. Он существенно усложняет структуру системы, потому что, благодаря этому элементу, мы можем регистрировать не только дополнительную связь «индивид – объект», но и связь индивида с отношением «объект – признак» (рис.1.2).
Рис.1.2. Система отношений в ситуации ранжирования
Заметим, что аналогичная система отношений присутствует в некоторых других методах социального измерения, например в семантическом дифференциале. Модели шкалирования могут быть различимы в зависимости от того, измеряются ли признаки индивидов и предъявляемых стимулов. Так, измерение по шкале Лайкерта сконцентрировано на субъектах, которым присваиваются определенные значения. Модель парных сравнений Терстоуна предназначена для оценки стимула (объекта). И стимулы, и индивиды могут получить значения в гуттмановском шкалировании. Ранжирование позволяет определять прежде всего значения признаков для объектов. Но шкалирование респондентов возможно и по характеристикам организации системы признаков и объектов. Индивидуальным значением может выступать ранг объекта по признаку или величина статистической связи признаков между собой. Введение объекта в качестве элемента эмпирической системы отношений позволяет рассматривать распределение признака на множестве объектов. Если мы также имеем множество признаков (в случае поликритериального ранжирования), то можем наблюдать отношения между признаками на множестве объектов. Что в свою очередь позволяет регистрировать связь между индивидом и отношением «признак – признак» (рис.1.3).
Рис.1.3. Система отношений, выделяемых в анализе ранжирования />Итак, метод поликритериального ранжирования обогащает возможности измерения не только через установление отношений «индивид – объект», но и через описание распределений на множестве индивидов значений отношения «объект – признак» и «признак – признак». Усложнение системы эмпирических отношений не может не сказаться на системе отношений числовых. В связи с тем, что данные, получаемые методом ранжирования, включают не только отношения, устанавливаемые на множестве респондентов, но и отношения, устанавливаемые респондентами на множестве объектов сразу по нескольким признакам (n респондентов ранжируют m объектов по соответствию k различным признакам), мы сталкиваемся с многомерной структурой данных. Каждому респонденту соответствует уже не вектор характеристик, а матрица с регулярным числом строк и столбцов. Рассмотрим эту структуру с позиций теории данных Кэрролла-Араби-Юнга [74]. Эта теория принимает во внимание количество измерений (ways) и модусов (modes), содержащихся в матрице данных. Измерения соотносятся с размерностью таблицы (2 и выше), а под модусами понимаются различаемые виды сущностей[1] (entities), представляемых этими измерениями. Модусы определяют градации измерений и их интерпретацию. Число модусов всегда меньше либо равно числу измерений в матрице данных. Матрицы, получаемые по обычным массовым опросам, содержат два измерения и два модуса (респонденты и вопросы). Матрица парных сравнений для одного респондента содержит два измерения и один модус (сравниваемые объекты), для множества респондентов – три измерения и два модуса (респонденты и объекты). Нетрудно видеть, что данные поликритериального ранжирования имеют трехмерную трехмодусную[2] структуру. Несмотря на то что большая часть методов статистического анализа предназначена для двумерных таблиц (соответственно одно-, двухмодусных данных), на сегодняшний день обработка данных сложной структуры не является неразрешимой проблемой. Для многомодусных данных существуют аналоги факторного и кластерного анализа, и многомерного шкалирования. При разработке этих методов возникают некоторые трудности математического порядка, но, в целом, технически они довольно совершенны. Главная проблема, на наш взгляд, состоит в том, что соответствующие методы основаны на сложных для понимания математических моделях, что затрудняет не столько их использование (предельно упрощенное благодаря разработанному программному обеспечению), сколько интерпретацию результатов. Кроме того, они обычно рассчитаны, по крайней мере, на интервальный уровень измерения (значит, их применение к данным ранжирования было бы не вполне корректным). Это специально оговаривается, например в руководстве к одной из наиболее известных программ анализа многомерных матриц CANDECOMP [57], вероятно, поэтому, во многих случаях исследователи предпочли бы работать с более простыми процедурами. Первой задачей в разработке таких процедур яв-ляется преобразование структуры данных в направлении применения простейших методов статистического анализа. Если работа CANDECOMP основывается на канонической декомпозиции матриц, то мы предлагаем осуществлять рекомпозицию, целью которой является редукция трехмерных данных до двумерной таблицы как самого простого формата их представления. Под рекомпозицией мы понимаем подстановку одной из осей многомерной матрицы в качестве градаций другой оси. Двумерные таблицы можно исследовать простыми статистическими инструментами, релевантными ординальному характеру данных. Рекомпозиция может осуществляться на основе, по крайней мере, двух подходов, из которых первый служит подготовительным этапом второго. При этом можно «избавляться» от любой из трех осей, сводя ее к одной из двух оставшихся. Первый подход заключается в представлении одного измерения через набор значений другого. Например, каждый респондент может быть сведен к списку объектов, которые он сортировал, и этот список будет повторен в таблице число раз, соответствующее числу респондентов. Это позволяет сократить размерность[3] матрицы при сохранении всех модусов и градаций. Как правило, сокращаемая ось кодируется дополнительной колонкой, что оставляет возможность восстановления первичного вида таблицы и дальнейших рекомбинаций. Эта колонка содержит либо пропорционально длинные ячейки, либо повторяющиеся значения в ячейках. Всего возможно шесть схем рекомпозиции: респондент ? объект, респондент ? признак, объект ? признак, объект ? респондент, признак ? респондент, признак ? объект (табл.1.4).
Т а б л и ц а 1. 4 Схемы редукции
1. Респондент ? объект
Респондент
Объект
Признак 1
Признак 2
n1
m1
k1-1-1
k2-1-1
m2
k1-1-2
k2-1-2
m3
k1-1-3
k2-1-3
n2
m1
k1-2-1
k2-2-1
m2
k1-2-2
k2-2-2
m3
k1-2-3
k2-2-3
2.
Респондент ? признак
Респондент
Признак
Объект 1
Объект 2
Объект 3
n1
k1
m1-1-1
m2-1-1
m3-1-1
k2
m1-1-2
m2-1-2
m3-1-2
n2
k1
m1-2-1
m2-2-1
m3-2-1
k2
m1-2-2
m2-2-2
m3-2-2
colspan="3">
Окончание табл.1.4
3. Объект ? признак
Объект
Признак
Респондент 1
Респондент 2
m1
k1
n1-1-1
n2-1-1
k2
n1-1-2
n2-1-2
m2
k1
n1-1-3
n2-1-3
k2
n1-2-1
n2-2-1
m3
k1
n1-2-2
n2-2-2
k2
n1-2-3
n2-2-3
4. Объект ? респондент
Объект
Респондент
Признак 1
Признак 2
m1
n1
k1-1-1
k2-1-1
n2
k1-1-2
k2-1-2
m2
n1
k1-1-3
k2-1-3
n2
k1-2-1
k2-2-1
m3
n1
k1-2-2
k2-2-2
n2
k1-2-3
k2-2-3
5. Признак ? респондент
Признак
Респондент
Объект 1
Объект 2
Объект 3
k1
n1
m1-1-1
m2-1-1
m3-1-1
n2
m1-1-2
m2-1-2
m3-1-2
k2
n1
m1-2-1
m2-2-1
m3-2-1
n2
m1-2-2
m2-2-2
m3-2-2
6. Признак ? объект
Признак
Объект
Респондент 1
Респондент 2
k1
m1
n1-1-1
n2-1-1
m2
n1-1-2
n2-1-2
m3
n1-1-3
n2-1-3
k2
m1
n1-2-1
n2-2-1
m2
n1-2-2
n2-2-2
m3
n1-2-3
n2-2-3
Схемы второй тройки получаются путем перестановки колонок обратных им схем из первой тройки. Схема рекомпозиции фактически определяет, какое из трех измерений будет зависимой переменной. Сокращение размерности на первом этапе, таким образом, представляет собой компоновку осей, и направление этого сокращения определяется лишь способом группировки колонок. Если не производить усреднений, то значения большинства статистических коэффициентов для обратных схем рекомпозиции эквивалентны. Выбор конкретной схемы диктуется фокусировкой исследовательского интереса на одной из осей, которую и целесообразно оставлять без изменения. В отношении признаков это, как правило, задачи корреляционного и факторного анализа, в отношении объектов и респондентов – задачи кластеризации. Второй способ (и этап) сокращения размерности предполагает усреднение значений сгруппированных колонок. Если первый способ мы обозначили как рекомпозицию матрицы данных, то второй можно назвать редукцией. Это связано с тем, что значения исходной матрицы невозможно восстановить из значений преобразованной. Происходит усреднение соответственно объектов по респондентам, признаков по респондентам, признаков по объектам, респондентов по объектам, респондентов по признакам, объектов по признакам [39]. В данном случае результаты отличаются для всех шести схем, причем не все такие усреднения всегда осмысленны. Кроме того, средние оценок, вычисленные по одному из модусов, обладают не вполне ясными свойствами. Так, усреднение шкал по индивидам в случае с семантическим дифференциалом скорее всего не может опираться на модель случайных отклонений от общих для всех респондентов значений [88].