Проблема выбора: дискретна или непрерывна латентная переменная?

Природа латентной переменной (или переменных, латентной структуры) требует обсуждения. О чем стоит говорить в том или ином практическом случае: о латентных классах или о латентных непрерывных признаках? Исследователь стоит перед выбором одной из двух моделей: латентной классовой (latent class model или latent class analysis, LCM или LCA; русские варианты — соответственно, ЛКМ и ЛКА), когда латентная переклейная предполагается дискретной (каждое ее значение отвечает определенному латентному классу) и т. н. моделью латентных черт (latent trait model, LTM), когда латентная переменная предполагается непрерывной (эта терминология устоялась в литературе. Так, две известные книги о латентных структурах используют термины «класс» и «черта» в своих названиях [Heinen, 1996; Langeheine and Rost, 1988]). H. В, Генри в названной выше интернетовской статье уделяет большое внимание соответствующим модельным предположениям, отмечая при этом, что аргументация того, с какой моделью — дискретной или непрерывной — мы имеем дело в каждом конкретном случае, обсуждение вопроса о том, можно ли эмпирически дать ответ на этот вопрос, составляет существенную часть 50-летней истории ЛСА.

Введем обозначения, говорящие о том, как модели ЛСА, опирающиеся на предположения, соответственно, о дискретности или непрерывности латентной переменной, можно соотнести друг с другом.

Пусть х — действительное число, значение нашей латентной переменной; Ф(х) — плотность распределения латентной переменной, рассматриваемой как случайная величина (напомним, что случайная величина по определению характеризуется заданием функции распределения или плотности распределения); /{(х) — т. н. график i-го вопроса, показывающий вероятность положительного ответа на этот вопрос для респондента, имеющего значение х латентной переменной.

Нетрудно понять, что между этими и введенными ранее обозначениями можно установить следующее соответствие (о нем можно прочитать, например, в [Моделирование социальных..., 1993]) (табл. П2.1).

Коротко рассмотрим историю споров о характере латентной переменой.

Таблица П2.1

Связь между дискретным и непрерывным вариантами ЛСА Обозначения для дискретного случая (два латентных класса) Обозначения для непрерывного случая Vі, V2 4-,

І Ф(х)сіх, где (dk. d ) произвольный dk

отрезок числовой оси Vі + V2 +-J,

J Ф(х)(1х РЇ>Р! /Xх) Vі ? + Vі- /?.2 \fi(x)- Ф(х)(іх Интеллект обычно ассоциируется с непрерывной числовой переменной (это предположение первым выдвинул Спирмен), и поэтому почти все психометристы в течение долгого времени определяли свои концепты в соответствии с этим предположением и, соответственно, пользовались факторным анализом. Целью изучения устанрвок в 1940-х годах было их измерение, и установки концептуализировались как числовые переменные. Исследования середины века были более психологическими, чем социологическими. Они характеризовались как «шкальный анализ», и упомянутая предпосылка принималась без доказательства. Это видно из работ Л. Гуттмана и К. Кумбса [Coombs, 1964].

Возможна и другая позиция, постулирующая существование относительно небольших гомогенных групп людей, или латентных классов. Каждый человек характеризуется своим членством в некотором классе, и вероятности тех или иных ответов связываются с таким членством. Каждый набор ответов имеет определенную вероятность быть порожденным включенностью респондента в класс с определенным номером, и номера классов могут использоваться для шкалирования наборов ответов. Однако упомянутые вероятности не являются внутренними свойствами людей. Они просто выражают неопределенные ощущения исследователя относительно истинной принадлежности респондента классу (значит, речь идет о модельных предположениях).

Во многих работах говорится о том, что указанные модели имеют разнос происхождение: латентно-классовый анализ развивается в основном в социальных и политических науках, модели же латентных черт имеют явное психометрическое обоснование (см., например, введение к работе [Ileinen, 1996, p. ix]).

Генри возражает против такого категорического, опирающегося ни генезис моделей, деления последних на «дискретные» и «непрерывные». Соратник Лазарсфельда говорит о том, что определение вида модели должно исходить из взглядов исследователя, но ігри этом надо избегать зашорен ноет и его сознания. Так, популярность Л КА среди исследователей США он объясняет тем, что американские социологи были «загипнотизированы» с самого начала идеей социальных классов. Лазарсфсльдовский ЛКА рассматривался сторонниками классов как метод, позволяющий дать научную оценку того, в какой класс входит человек. Дебаты о том, определяется ли социальный статус членством в некотором классе или же он должен быть концептуализирован как непрерывная переменная, продолжались несколько десятилетий.

Выступая против категорического сопряжения выбора модели с характером решаемых задач, Генри отметил, в частности, курьезность того факта, что исследователи, придерживающиеся соответствующего взгляда, не чувствуют того, почему в работах Лазарсфельда 1940-х, 1950-х и 1960-х годов обе модели встречаются одновременно. Первая модель Лазарсфельда, описанная в [Lazarsfeld, 1950а], была моделью с непрерывной латентной переменной (latent trait model). Это предположение проявлялось в том, что автор говорил о непрерывном распределении вероятностей положительного ответа на каждый вопрос при том или ином значении латентной переменной. Это — так называемый график вопроса (traceline function, f.(x)) (например, такой график у Лазарсфельда задавал вероятность положительного ответа на тот или иной вопрос для американских солдат, имеющих рассматриваемое значение этноцентризма, при этом предполагалось, что это значение изменяется вдоль континуума). Но затем автор все же предусматривал возможность ситуации, когда допускалось, что указанное распределение концентрируется в различных точках континуума [Lazarsfeld, 1950а, р. 376). Как отмечает Генри, существование континуума принималось Лазарсфельдом без доказательств, что, по мнению его соавтора, послужило причиной многих недоразумений в будущем. И в то же время Генри полагает, что такое предположение вполне естественно для тех социальных психологов, которые являются последователями идей Терстоуна и Спирмена.

Лазарсфельдовская амбивалентная позиция между социологическими и психологическими дисциплинами проявилась и в его публикации [Lazarsfeld, 1959]. Там латентно-структурный подход к анализу дихотомических данных снова объясняется в терминах графиков вопросов и латентного континуума (возможно, многомерногої). Однако, когда возникает необходимость объяснить, что такое локальная независимость, автор приводит пример трех латентных классов. И поступает так всегда при разъяснении сути соответствующей аксиомы. Оказывается, легче показать, как три частотные таблицы размером 2x2, удовлетворяющие свойству статистической независимости, будучи сложенными вместе, дают таблицу, в которой имеется связь, чем демонстрировать аналогичные соображения для непрерывных переменных (пример с двумя частотными таблицами подробно описан в [Типология и классификация..., 1982, с.

100-103]).

То, что Лазарсфельд по существу не выбирает твердо одной позиции, проявляется также и в том, что, говоря о графиках вопросов для непрерывной латентной переменной, он для поиска вида этих графиков использует полиномы. Полиномиальные графики использовались именно из-за их связи с латентно-классовой моделью. Два момента определяли это: если график вопроса — полином степени т, то т + 1 точка будут определять этот полином. Он доказал, что двухклассовая модель неотличима от линейной модели графика вопроса. Трехклассовая модель неотличима от квадратичного графика вопроса и т. д. Поясним, какого рода модельные предположения лежат в основе такой точки зрения. Предположим, что наш график — линейный (т. е. представляет из себя прямую линию; см. рис. 112.1).

Мы можем считать, что вся наша информация отвечает двум точкам, обозначенным нами на рисунке звездочками. Получим картину, отвечающую ЛКА. Но можем по этим двум точкам построить прямую линию (как известно, через две различные точки можно провести одну и только одну прямую). Это будет означать, что мы выбрали непрерывную (latent trace) модель и полагаем, что на отрезке [А, В] нашего латентного континуума вероятность постепенно растет от 0,2 до 0,4. Естественно, это только наше модельное предположение, но такое, в соответствии с которым дискретная переменная — это лишь некое огрубление непрерывной.

Рис. П2.1. График /-го вопроса f([x)

«Непрерывные» (полиномиальные) графики вопросов обладают еще одним неприятным свойством: отвечающее им значение вероятности может иногда быть больше 1 или меньше 0. По замечанию Генри, перед 1959 годом ученые, занимающиеся моделированием дискретных явлений, искусственно выбирали такие функции, которые были заключены строго между 0 и 1. Отметим в этой связи, что одним из способов «вталкивания» вероятности в интервал от 0 до 1 был переход к т. н. логит-моделям, в которых вместо вероятности ответа брался логарифм отношения преобладания для ответа (определение отношения преобладания можно найти, например, в [Rudas, 1998]; см. также [Толстова, 2000]).

Последнее обстоятельство нам хотелось бы подчеркнуть особо, поскольку здесь «светится» связь между ЛСА и логлинейными моделями. Мы не будем об этом говорить подробно, отметив лишь то, что сам Лазарсфельд сетовал по поводу отсутствия у его современников интереса к дискретным переменным и назвал только двух ученых, занимавшихся соответствующими проблемами: Л. А. Ж. Кетле и Дж. Ю. Юла. Генри же специально подчеркивает, что положение изменилось с появлением в 1973-1975 годах серии статей Л. Гудмана (в том числе [Goodman, 1974а, Ь; 1996]). В этих статьях Гудман показывает, каким образом латентно-классовые модели могут быть интерпретированы как логлинейиые. С 1978 года, благодаря Гудману, термин «логлинейная модель» становится широко известным как среди социологов, так и среди математических статистиков. Статьи Гудмана, а также работа [Bishop, Fienberg, Holland, 1975] ставят ЛСА в центр внимания математических статистиков. Традиционные статистические оценки, разработанные для лої линейных моделей, адаптируются для ЛСА [Haberman, 1978-1979]'.

Итак, Лазарсфельд с одинаковым вниманием относился и к дискретным, и к непрерывным моделям латентной переменной. Для дискретной модели алгоритмы более «прозрачны». Наиболее известный алгоритм Лазарсфельда (тот, который мы описали в п. 7.6) отвечает именно такой модели. Но непрерывная модель больше соответствует представлениям психологов о характеристиках сознания человека. Исторические экскурсы самого Лазарсфельда говорят о том, что он понимал, что социологу все же больше нужны дискретные модели. И это показала дальнейшая история: примерно в то же время, как рождались модели Гудмана, разрабатывались и другие алгоритмы поиска сочетаний значений признаков, определяющих те или иные интересующие исследователя явления (мы имеем в виду алгоритмы поиска взаимодействий типа AID и другие; более подробно мы говорили об этом, предложив классификацию соответствующих подходов в [Толстова, 2000]). Решение соответствующих задач позволяет выйти на такое представление об измерении, которое принципиально «уходит» от связывания этой процедуры с числовым континуумом (подробнее см. там же).

Развивались и те модели ЛСА, которые связывались с предположением о непрерывности латентной переменной. Описание таких моделей можно найти в русскоязычных работах [Типология и классификация..., 1982, с. 109-110; Моделирование социальных..., 1993].

Большое внимание уделялось виду графиков вопросов (функциям /;(х)). Рассматривались разные случаи. Примеры различных графиков вопросов приведены в [Типология и классификация..., 1982, с. 111]. Выделим наиболее часто использующуюся в тестовых опросах функцию — т. н. функцию Рэша:

j.(x) = сх/ (1 + сх).

Специфика этой функции определяет специфику поиска значения латентной переменной для каждого респондента. Соответствующая техника становится не очень похожей на традиционную технику ЛСА и ЛКА. При ее применении говорят об использовании модели Рэша.

' Обратим внимание читателя на различие смысла словосочетаний * Analysis of qualitative data* и <*Qualitative data analysis*. Первое выражение означает анализ т.н. категориальных данных, т.е. таких, которые получены по номинальной или интервальной шкале. А второе — качественный анализ, который противопоставляется количественному.

Описание модели Рэша можно найти в работах [Рэск, 1973; Типология и классификация..., 1982, с. 284-290]. В отечественной литературе в последние годы нашли отражение работы группы исследователей по использованию модели Рэша для совершенствования процесса тестирования в педагогической практике, о чем пойдет речь в п. «Связь JICA с теорией тестов».

Сравнение моделей ЛСА и факторного анализа

В работе [Anderson, 1959] было показано, что факторный анализ является частным случаем общей модели латентно-структурного анализа с несколькими латентными непрерывными переменными. Здесь имеет смысл отметить, что многие авторы полагают, что имеет место противоположное соотношение: ЛСА — метод, решающий для порядковых и номинальных данных те же задачи, что решает для интервальных данных факторный анализ; см., например, [Dayton, 1998]. Более топкий анализ соотношения между факторным и латентно-структурным анализом осуществлен, например, в [Гибсон, 1973]. В этой работе после краткого описания развития факторного анализа и латентно-структурных моделей показывается, как последние могут быть обобщены для исследования соотношений между количественными измерениями таким способом, чтобы избежать некоторых трудных проблем факторного анализа. Возникающая в результате модель латентного профиля применяется затем к эмпирическим данным с целью демонстрации эффекта се использования.

Ниже речь пойдет о соображениях, предложенных в работах [Goodman, 1974а, 1974b, 1975] (коротко о соответствующих моделях говорится в [Дегтярев, 1981]). Можно сказать, что именно в этих публикациях Гудманом был заложен целый ряд направлений модификации лазарсфельдовских представлений.

<< | >>

↑

Источник: Толстова Ю. Н.. Измерение в социологии : учебное пособие / Ю. Н. Толстова. — М.: КДУ. — 288 с.. 2007

Еще по теме Проблема выбора: дискретна или непрерывна латентная переменная?:

- Cоциология семьи - Антропология. Этнография - Гендерная социология - Демография - Домоведение - История социологии - Методы сбора и анализа социологических данных - Общая социология - Первоисточники по социологии - Политическая социология - Социальная безопасность - Социальная работа - Социальная структура и стратификация - Социально-территориальные общности - Социоинженерная деятельность - Социологические работы - Социология культуры - Социология личности - Социология общественного мнения - Социология права - Экономическая социология - Этносоциология -