МЕРЫ СВЯЗИ: ОСНОВАННЫЕ НА МОДЕЛИ ПРОГНОЗА И РАНГОВЫЕ
Вначале мы приведем примеры коэффициентов связи для признаков, имеющих по-прежнему номинальный уровень измерения.
Прежде всего рассмотрим меры, основанные на так называемой модели прогноза. Это уже как бы другой «язык» анализа таблиц сопряженности. Для социолога понятие «прогноз» носит не только многозначный характер, но к этому понятию отношение очень осторожное и трепетное. Если на основе эмпирических данных и можно что-то прогнозировать, предсказывать, то в достаточно узком смысле понимания прогноза. При этом ход рассуждений примерно такой. Если ничего не изменится, то может быть то-то и то-то. Социологи-математики (такие тоже есть) термин «прогноз, предсказание» употребляют в еще более узком смысле, но очень часто [4, 5]. Мы также будем пользоваться понятием «прогноз» в очень узком смысле. Попробуем коротко и грубо прояснить, в каком смысле.
У нас с вами есть одномерное распределение какого-то признака. Напоминаем, что под признаком понимаем как отдельно взятый эмпирический индикатор (наблюдаемый признак), так и производный от эмпирических индикаторов показатель. Пусть таковым признаком будет удовлетворенность учебой (У). Распределение этого признака можем интерпретировать следующим образом. Есть значения признака (различные степени удовлетворенности учебой), и есть вероятности этих значений (относительные частоты в долях или частости). А, точнее, оценки вероятности, полученные по выборке. Все, что рассчитывается по выборочной совокупности, называется оценками истинных (существующих для изучаемой генеральной совокупности) значений. Разумеется, социолог может опускать термин «оценка», если понимает, о чем идет речь. Для простоты мы будем поступать так же.
Итак, наши вероятности P0j равны маргинальным частотам по столбцам (именно они соответствуют признаку (У) — удовлетворенность учебой), деленным на общее число опрошенных студентов-гуманитариев
no-
(n00). В виде формулы это выглядит так: Р0. = —^. Тогда, по приведенной
n00
ниже таблице 3.5.1 (это та же таблица сопряженности, с которой мы постоянно работаем), вероятности пяти степеней удовлетворенности учебой равны:
Эти вероятности можно интерпретировать как вероятности статистического предсказания (У). Мы же их получили по «хорошей» выборке. Поэтому если из нашей изучаемой генеральной совокупности студентов-гуманитариев случайно выберем некоторого студента, то вероятность того, что у этого случайного студента окажется максимальная удовлетворенность учебой, очень мала. Это потому, что по выборке она была равна всего лишь 0,05. Вероятность «отгадать» все остальные варианты удовлетворенности учебой тоже невелика ибо они, как видите, не больше, чем 0,3. При этом само понятие «вероятность» можно трактовать на уровне обыденного сознания. Только в повседневной жизни вам обычно говорят, например, «вероятность того, что у меня завтра будет плохое настроение для прогулки, равна 90%» или «вероятность того, что я завтра приду к тебе в гости, меньше 50%» или «вероятность нашей возможной встречи «фифти - фифти» (50 на 50)». И вы всегда понимаете, что сие означает. При этом такие суждения вы интерпретируете не столько количественно, сколько качественно. А в математических формулах пользуются не процентами для оценки вероятности, а долями — частостями —
и, соответственно, вероятность принимает вполне конкретное значение из интервала от 0 до 1.
Теперь вполне правомерно поставить вопрос: Как изменятся
рассчитанные нами вероятности иметь ту или иную степень удовлетворенности учебой, если привлечь к анализу второй признак
(будущую профессию студента)? Можно вопрос поставить и по-другому: Насколько знание будущей профессии прибавит знания об удовлетворенности учебой? Или: Насколько информация о будущей профессии изменит информацию об удовлетворенности учебой? Поиск ответа на последний вопрос порождает меры связи, основанные на понятии энтропии (мы касались этого понятия при введении качественных коэффициентов вариации). Такого рода меры мы не будем рассматривать. Вы можете с ними познакомиться в работах [3, 8, 11].
Первый наш вопрос можно поставить и так: Как и насколько изменятся вероятности предсказания удовлетворенности учебой, если учесть будущую профессию? Как вы уже догадываетесь, по сути речь идет
о знании условных распределений нашего признака (У) или условных частот, или условных вероятностей, т. е. вероятностей, которые логично обозначить как Р.... Индекс первый (j) относится к столбцам, т. е. к удовлетворенности учебой (признак У), второй (i) относится к строкам, т. е. к будущей профессии (признак X), а косая черта подчеркивает, что признак (X) является условием.
Существуют всевозможные коэффициенты, помогающие найти ответ на подобные вопросы. Как видно из наших рассуждений, они должны быть направленными и носить, так же как и меры, основанные на хи-квадрат, характер «глобальный», т. е. давать оценку связи в целом для всей таблицы сопряженности в отличие от локальных мер (связь отдельных свойств).
Если для кого-то термин «предсказание» остался пока непонятым, то при описании предлагаемых ниже мер как можно реже будем пользоваться этим термином.
Меры X (лямбда) Л. Гуттмана (L. Guttmann)
Таких мер три, две из них направленные, а одна представляет собой усреднение первых двух. Мы приведем только одну Ху/х. Эта мера, этот коэффициент характеризует в случае нашей задачи влияние будущей профессии (X) на удовлетворенность учебой (У). Отвечает на вопрос, насколько изменяется предсказание (У) при знании (X). Ниже приводится формула, в которой используются известные вам обозначения, за исключением:
пішах — максимальная частота в i-й строке:
потах — максимальная частота среди маргинальных частот по столбцам.
П nimax — n0max
X/ x =-i —
n00 n0max
Эта формула была бы понятнее, если вместо частот использовать частости (доли), интерпретируемые как вероятности [11, с. 126]. Такую формулу мы не будем приводить, чтобы не пугать излишними формулами. Отметим лишь, что в литературе приводится как формула, записанная через абсолютные частоты, так и через частости. Кроме того, фамилия Гуттмана тоже приводится по-разному. Например, Гудман в работе 8, с. 131. Это не так уж важно.
Для того чтобы пояснить содержательный смысл этой меры, этого коэффициента, ниже приводится та же таблица сопряженности, с которой мы постоянно работаем для изучения взаимосвязи между «будущей профессией студента» (признак X) и «удовлетворенностью учебой» (признак У). Таблица 3.5.1 содержит те же частоты, что и таблица 3.3.1, за исключением обозначений самих частот. В нее добавлен новый столбец — последний с максимальными частотами по всем строкам, включая строку с маргинальными частотами по столбцам. Они нам необходимы для вычисления коэффициента Аух Гуттмана.
Таблица 3.5.1 Таблица сопряженности двух признаков (У) и (X). : Будущая профессия
студента (X) Степени удовлетворенности учебой (У) Маргинальные частоты по строкам Но Максимальные частоты по строкам Iі-1 ьш 1 2 3 4 5 1 .Политолог 14 20 31 30 5 100 0| ш =3! 2.Соииолог 30 40 60 60 10 200 Н’ та* =60 3.Культуролог 90 90 60 45 15 300 Пітлі =90 4.Филолог 31 30 19 15 5 100 І"1-) гаж =31 5-Психолог К 10 15 15 2 50 ^5 лых — 1 ^ б.Историк 27 110 15 85 13 150 %п,ж =чо Маргинала ные частоты по столбцам iV)i 200 300 200 250 50 ц*> =1000 Пощдх — 300 Чему же равен коэффициент в нашем случае? Он рассчитывается очень просто.
. (31 + 60 + 90 + 31 +15 +110)-300 ппс
Ау, х = = 0,05
у / х 1000 - 300
Даже по тому, как вычисляется коэффициент, видно, что он позволяет определять, существуют ли в строках модальные группы, т. е. есть ли в каждой профессиональной группе ярко выраженная, часто встречаемая «степень удовлетворенности учебой». Судя по нашей таблице, таких групп практически нет, что и подтверждается маленьким значением коэффициента. Какими же свойствами обладает этот коэффициент? 1.
Он изменяется от нуля до единицы. 2.
Он равен единице только в одном случае, когда в каждой профессиональной группе все студенты имеют одинаковую степень удовлетворенности учебой и при этом в каждой отличную от другой. Если бы наша таблица сопряженности при тех же маргинальных частотах имела бы такой вид, как это представлено в таблице .3.5.2, коэффициент был бы равен 0,86.
л (100 + 200 + 300 + 100 + 50 + 150)- 300 900-300
1000-300 " 700 ~ ‘
Таблица 3.5.2
Таблица сопряженности двух признаков (для X у/х =0,86) Будущая
профессия
(X) Степени удовлетворенности
(У) Маргинальные частоты по строкам Максимальные частоты по строкам
МАХ 1 2 3 4 5 П< п 1 .Политолог 0 0 100 0 0 ИЮ Tl| max =1 00 2.Социолог 200 0 0 0 0 200 mwi =200 3.Культуролог 0 300 0 0 0 300 Щ пик =300 4.Филолог 0 0 0 100 0 100 Щ тм. =100 5-Психолог 0 0 0 0 50 50 П5 та* -50 б.Исгорнк 0 0 100 150 0 250 П& max “150 Маргинал ьные частоты по столбцам
П0І 200 300 200 250 50 rifjri “? 1000 »() nw =300 Итак, визуально мы наблюдаем наличие модальных групп в строках, кроме последней. Если бы в нашей таблице число строк равнялось числу столбцов, например, не было бы историков, то коэффициент был бы равен 1, а таблицу можно было бы перестановкой столбцов превратить в такую, в которой только диагональные элементы отличались бы от нуля. Таким образом, по значению коэффициента можно судить о степени отличия реальной таблицы от диагональной. В случае, когда значение коэффициента равно 1, вероятность статистического предсказания (У) по X максимальная. Такой случай практически в социологических исследованиях не встречается. 3.
Значение коэффициента равно нулю в нескольких случаях. Первый —
все частоты сосредоточены только в одной строке. На самом деле знание признака X нечего не дает для увеличения знания об У. Второй случай — отсутствие феномена модальности, т. е., условно говоря, полная «размытость» данных в таблице. По таблице 3.5.1 мы получили значение, близкое к нулю и равное 0,05. Практически модальность не наблюдается. И наконец, третий случай, когда все частоты сосредоточены только в одном столбце.
Этот случай заслуживает особого внимания, ибо противоречит основному содержанию коэффициента. Если данные сосредоточены в одном столбце, то естественно модальные классы существуют. Тогда и вероятность предсказания значения У по значению X должна быть равна единице. А наш коэффициент равен нулю. Здесь мы наблюдаем ситуацию, когда коэффициент плохо ведет себя в нуле. Запомните эту фразу. Вы будете встречаться с подобными фразами и в случае других коэффициентов. Чтобы исключить неверную интерпретацию нулевого значения, необходимо по одномерному распределению уточнить, не сосредоточены ли данные только в одном столбце. Такой случай также не встречается в социологической практике.
Представляется важным отметить, что в реальных исследованиях значения коэффициента Гуттмана очень малы и использовать их нужно так же, как и многие другие коэффициенты в сравнительном контексте, например, для ранжирования как бы независимых между собой признаков по степени их влияния на некоторый особенно важный для исследователя признак, обозначаемый как целевой, зависимый. Если такого нет, то направленные коэффициенты «лямбда» использовать не имеет особого смысла.
Меры т(тау) Л. Гудмена и Е. Краскала (L. Goodman, Е. Kruskal)
Эти меры, на мой взгляд, интересны социологу, ибо с ними можно работать в сравнительном контексте, не обращая особого внимания на всякие значимости. Таких мер вообще-то три, как и в случае мер Гуттмана. Первые две из них направленные, а третья как бы усредняет первые два. Мы рассмотрим только одну из них. Для этого опять обратимся к нашей таблице сопряженности 3.5.1. При этом вспомним и рис. 3.3.1. На этом рисунке были изображены эмпирические кривые распределения удовлетворенности учебой в каждой профессиональной группе — будущие профессии студентов-гуманитариев (мы уже обозначили эти признаки через У и X). Визуально мы с вами наблюдали наличие трех типологических синдромов по характеру распределения признака У. Другими словами, три типа структуры удовлетворенности учебой.
Ни один коэффициент глобального характера не позволит определить, сколько типов структур наблюдается. Если социолога интересуют такие группы, то до применения всяких коэффициентов представляется целесообразным хотя бы визуально на компьютере просмотреть графики такого вида, которые изображены на рис. 3.3.1 и рис. 3.3.2. Тот же коэффициент, который мы рассмотрим, позволяет в целом определить степень отличия условных распределений У от безусловного. Ниже приведем формулу. В ней будем использовать обозначения вероятностей (условных и безусловных), введенных в начале этого раздела. В этот раз формулу запишем не на языке абсолютных частот, а на языке вероятности —
доли, частости. В литературе она приводится обычно через абсолютные частоты [1, с. 36, 3, с. 36].
Две первые формулы служат для вычисления безусловных вероятностей. Их значения приведены соответственно в последней строке таблицы 3.5.3 и в последнем столбце. Третья формула — для вычисления
Если вы подставите в эту формулу вместо вероятности (точнее оценок вероятности) частоты, то получите формулу, приводимую в литературе, т. е.:
Один из грех коэффициентов т (may) Гудмена и Краскала выглядит следующим образом.
Г
условной вероятности. Значения такой вероятности приведены в ячейка таблицы 3.5.3. Они аналогичны данным таблицы 3.3.2 (верхнее левое значение в ячейках).
Таблищ 3.5.3
Таблица сопряженности (условные и безусловные вероятности) Будущая профессия студента Степень удовлетворенностью учебой Безусловные вероятности
К 1 2 3 4 5 1. Политолог 0,14 0.20 0,51 0,30 0,05 0.10 2. Социолог 0,15 0,20 Q.3Q 0,05 0.20 3. КУЛЬТУООЛОГ о,?о 0,30 <>,20 М5 0.Q5 0.30 4. Филолог 0,31 0,30 0,19 0,15 (Ш 0.10 5. Психолог 0,16 0,20 0,30 0,30 0,04 0.05 6. Историк 0,11 0,44 0.06 0,34 0.05 0,25 Безусловные вероятности Р_ 0,20 0,30 0,20 0,25 0.05 N = 1000 Коэффициент «т» чем-то напоминает и «хи-квадрат», и X Гуттмана. Однако он не такой «прозрачный» для объяснения, как эти коэффициенты. Вообще- то говоря, если все можно было бы описывать и объяснять в социологии вербально, то, может, язык математики был бы и не нужен. И что совершенно очевидно, чем ближе язык математики к языку социолога, тем он сложнее. Все таки попытаемся прояснить содержательный смысл приведенного коэффициента.
Прежде всего необходимо пояснить, зачем при сравнении распределений всякие квадраты. В числителе квадрат по аналогии с формулой дисперсии. Для того чтобы учесть отклонение условной частоты от безусловной в одну и другую сторону. В знаменателе сумма квадратов безусловных вероятностей.
Коэффициент т (may) Гудмена и Краскала обладает следующими свойствами: 1.
Принимает значение от нуля до единицы. 2.
Равен нулю, если структура распределения по строкам одинакова и такая, как структура распределения маргинальных (по столбцам) частот. В этом случае наблюдается статистическая независимост У от X. Будущая профессия не влияет на удовлетворенность учебой. 3.
Равен единице, если будущая профессия студента полностью детерминирует его удовлетворенность учебой. Каждой профессии соответствует своя собственная степень удовлетворенности учебой. Чисто формально это означает, что таблицу сопряженности можно привести к диагональному виду. В самом деле, для таблицы 3.5.2 значение коэффициента равно т у/х = 0,83
Вычислим значение коэффициента для нашей таблицы 3.5.3. Чтобы вычислить числитель, нужно сложить 6 (для всех строк таблицы) величин. Каждая такая величина равна
0,1{(0,14—0,20)J+{0,20-0,30)-+(0,31—0,20)г+{0,30-0,23)5+ Для остальных строк эта величина соответственно равна 0,0045; 0,
006; 0,0022; 0,00121; 0,01385. Таким образом, значение числителя
Тогда значение коэффициента будет равно ту/х = 0,03. Такое небольшое значение коэффициента говорит об отсутствии влияния будущей профессии на структуру удовлетворенностью учебой. Вероятность предсказания удовлетворенности учебой практически не изменится, если учитывать будущую профессию.
До сих пор мы с вами рассматривали только меры связи для номинальных признаков, ибо они чаще других встречаются в социологических данных. При этом, анализируя данные нашей таблицы сопряженности, мы не обращали внимания на то, что один из признаков имел порядковый уровень измерения. Не использовать информацию об упорядоченности — значит намеренно отказаться от ценной информации. Разумеется, существуют коэффициенты, позволяющие учесть то, что один из сопрягаемых признаков измерен по порядковой шкале.
Существует так называемый ранговый бисериальный коэффициент для случая изучения связи между дихотомическим (поэтому коэффициент называется бисериальным) номинальным признаком и ранговым [2, с, 165— 167, 8, с. 139, 11, с, 121], При этом для случая несвязанных рангов, Напомним, что с ситуацией связанных рангов мы встречаемся, если в ранжированном ряду есть одинаковые ранги, Также существует точечный бисериальный коэффициент для случая изучения связи между дихотомическим номинальным признаком и «метрическим»,
Ранговые коэффициенты связи
Ранговыми коэффициентами связи называются меры связи, позволяющие вычислять степень согласованности в ранжировании одних и тех же объектов по двум различным основаниям или по двум различным признакам. Мы неоднократно ссылались на необходимость для социолога такого рода коэффициентов. Например, при построении шкалы суммарны оценок появлялась необходимость в проверке согласованности результатов, полученных по итоговой шкале, с данными по исходным шкалам (суждениям).
Коэффициентов ранговой корреляции много. Для того чтобы понять их схожесть и различие, необходимо вначале несколько отойти от таблиц сопряженности и нашей задачи. А вам придется вернуться к разделу книги, посвященному процедуре ранжирования. Как было отмечено, такая процедура возникает у социолога как на этапе измерения, так и на этапе анализа данных. В любом случае возникает задача определения степени согласованности двух ранжированных рядов. Представим себе, что для одной и той же совокупности объектов получили два ранжированных ряда. Например, по тем же будущим профессиям студента. Значит, объектов у нас всего шесть по числу профессий. Пусть первый ряд получен по степени уменьшения индекса удовлетворенности учебой. Второй ряд — по степени уменьшения индекса уверенности в трудоустройстве по профессии после окончания вуза. Далее будем коротко называть эти признаки — «удовлетворенность» и «уверенность».
В данном контексте мы не будем обсуждать вопрос, каким образом измерены эти признаки как характеристики группы. Заметим лишь, что они могли быть получены с помощью шкалы суммарных оценок или как групповые индексы, примеры которых были приведены в «Лекциях».
В случае полной (максимальной) согласованности ранжирования по этим двум признакам естественно предположить наличие тесной (сильной) связи между признаками «удовлетворенность» и «уверенность». Такая связь может быть и прямой (чем больше удовлетворенность, тем больше уверенность), и обратной (чем больше удовлетворенность, тем меньше уверенность). Из этого проистекает, что логично изменяться значениям коэффициента ранговой корреляции от -1 до +1. Этим свойством обладают все приведенные ниже коэффициенты.
Приведем примеры нескольких коэффициентов, а затем поясним их содержательный смысл.
Мера у (гамма) Л. Гудмена и Е. Краскала (L. Goodman, E.Kraskal) S-D Г~S + D '
Мера *? (may) М. Дж, Кендалла (M.KendaU)
2 {S-D)
Tk~\j(S + D + Ty){S + D + Tx)’ .
Меры d P. Сомерса (R.Comeis)
S-D
d^ = 5+z>+7;- .
Первая из этих мер в работе [8, с. 135], обозначена как «у Гудмана». Эти меры удачно описаны в работе [1, с. 37—40]. Вы, конечно, обратили внимание, что у всех приведенных мер один и тот же числитель, а знаменатели различны. Прежде всего рассмотрим числитель, ибо он несет в себе основное содержание коэффициентов, В таблице 3.5.4 представлены два ранжированны ряда. Объекты ранжирования — будущие профессии. Они приведены в таблице для удобства в том порядке, в котором их ранги во втором ряду возрастают, т. е. в порядке убывания степени уверенности. Число рангов равно числу объектов, связанных рангов (одинаковых) в наших рядах не наблюдается.
Таблица 3.5.4 Примеры двух ранжированных рядов Г] (тъмгты пян*иплп;11- ІИН Признаки социо
логи психо
логи полито
логи культу
рологи1 истори
ки фило
логи х Удовлетво- рснность 3 4 2 6 1 5 у Уверен Н ОСТ! 1 2 3 4 5 6 Из этой таблицы видим, что политологи в первом ряду имеют ранг 2, а
во втором — ранг 3, а историки в первом ряду — ранг 1, во втором — ранг 5.
Для того чтобы оценить степень согласованности наших, грубо говоря,
«ранжировок», можно применить тот же прием, который был применен при
вычислении меры качественной вариации. Образуем из наших шести
объектов различные пары. Таких пар будет 6x5/2=15. Возьмем отдельную
пару объектов. Ранги, соответствующие первому объекту, обозначим (i1, j1),
а второму — (i2, j2). Эти ранги могут находиться в различных отношениях.
Возможна одна из двух ситуаций, каждая из которых включает два
возможных соотношения между рангами (1а, 16, 2а, 26).
Первая ситуация: или соотношение Вторая ситуация: или соотношение
В первой ситуации ранги как бы согласованы, а во втором не согласованы. Подсчитаем, для скольких пар из 15-ти наблюдается согласованность, и обозначим число таких пар через S. Затем подсчитаем, для скольких пар наблюдается несогласованность, и обозначим число таких пар через D. В числителе всех приведенных выше мер стоит как раз разница между числом согласованных и несогласованных пар объектов. Для примера наших ранжированных рядов величина (S-D) равна:
S-D = (3-2) + (2-2) + (2-1) + (0-2) + (1-0) = 1.
Здесь первая скобка — результат анализа согласованности / несогласованности рангов в парах, образованных первым объектом с остальными пятью, т. е. в парах (1 и 2), (1 и З), (1 и 4), (1 и 5), (1 и 6). Среди них согласованность (случай 1а) — в трех парах, а несогласованность (случай 26) — в двух парах. Вторая скобка — результат анализа пар, образованных вторым объектом, т. е. пар (2 и 3), (2 и 4), (2 и 5), (2 и 6). Среди них в двух парах согласованность, а в двух — несогласованность. Последняя скобка — результат анализа пары (5 и 6).
Мы рассматривали случай отсутствия связанны рангов, поэтому для определения степени согласованности можно использовать первый из трех коэффициентов, приведенных выше. Знаменатель для его вычисления равен: S+D = (3+2) + (2+2) + (2+1) + (0+2) + (1+0) = 15 или просто числу различных возможных пар, т. е. 6x5/2=15 Тогда у ~ 0,07. В самом деле степень согласованности в наших ранжированных рядах очень мала. Второй из трех коэффициентов учитывает наличие связанных рангов. Кроме соотношений (1а; 16;
2а; 26) при анализе пар могут встретиться и другие соотношения (в случае связанных рангов): '
Третья ситуация:
За. і,> і3и j.-jj или ЛЇ. І, < ци
Четвертая ситуация: •
4а. і, = і, и |, < jj иди
46- »1 = ЬИ І, >|2.
Число пар, соответствующих третьей ситуации (есть связанные ранги во втором ряду ), обозначим через Ту. Число пар, соответствующих четвертой ситуации (есть связанные ранга в первом ряду), обозначим через Тх. Второй коэффициент учитывает число связанных рангов в том и другом ранжированных рядах.
И наконец, обратите внимание на коэффициент dy/x, Мер Сомерса всего три по аналогии с мерами «лямбда» Гуттмана и «гамма» Гудмена и Краскала, т. е. ранговые коэффициенты связи бывают и направленные. Мы привели только одну из трех мер Сомерса. В случае ее использования вопрос о степени согласованности в ранжированных рядах звучит несколько иначе, а именно: влияет ли «уверенность» на «удовлетворенность» и, наоборот, влияет ли ранжирование по «удовлетворенности» на ранжирование по «уверенности». Разумеется, только в смысле того, что ранжирование объектов по степени убывания «удовлетворенности» (признак У) зависит от ранжирования по степени убывания «уверенности» (признак X). Поэтому в знаменателе учитываются связанные ранги только для признака У.
А теперь представим себе, что речь идет об анализе связи по таблице сопряженности (корреляционная таблица) двух признаков, имеющих порядковый уровень измерения. Допустим, что у каждого нашего студента- гуманитария есть оценка не только удовлетворенности учебой, но и удовлетворенности собой. Оба признака имеют порядковый уровень измерения. Для изучения связи между ними используются те же ранговые меры связи. Их значения рассчитываются по тем же формулам, ибо можно всех наших студентов (объекты ранжирования) упорядочить и получить два ранжированных ряда. Первый — по степени убывания (возрастания) удовлетворенности учебой, а второй — по убыванию (возрастанию) удовлетворенности собой. Естественно, у нас будут сплошь связанные ранги. Напомним, что число рангов равно числу объектов, т. е. 1000. Реально никто такое ранжирование не проводит, а просто вычисляются по таблице сопряженности число согласованных пар, число несогласованных и число связанных рангов. Существуют коэффициенты ранговой корреляции для быстрого счета (коэффициент Спирмена), но в век компьютеров они уже утратили свою актуальность.
Мы рассмотрели все коэффициенты, необходимые для
первоначального понимания того, что они из себя представляют, и почему их так много. В завершение этого раздела книги несколько слов о том, что все эти коэффициенты являются статистиками, т.е. для них можно построить доверительный интервал. Тот интервал, в котором находится истинное значение коэффициента, т. е. для изучаемой генеральной совокупности. Доверительные интервалы есть для «лямбда» [1, с. 34], «may» [1, с. 36], для коэффициентов ранговой корреляции [9, с. 185—187].
В рамках книги не ставилась цель привести все меры или дать их классификацию, ибо для этого необходимы серьезные знания в области науки под названием теория вероятности и математическая статистика. Более того, мы намеренно не рассматривали меры для изучения связи между признаками, измеренными по «метрическим» шкалам (по всем, по которым уровень измерения выше порядкового). Такая позиция обусловлена сочетанием двух факторов процесса обучения студентов. Во-первых, в эмпирической социологии такого рода шкалы встречаются реже других. Во- вторых , в читаемом студентам курсе «Теория вероятности и математическая статистика» понятие «связь» вводится именно с такого рода мер связи.
Задание на семинар или для самостоятельного выполнения
Задание выполняется индивидуально. Каждый студент работает с той же матрицей данных (см. первое задание в начале этой главы), с той же таблицей сопряженности. 1.
Вычислить значения направленных мер связи Гуттмана, т. е. вычислить два значения. Сравнить результаты с аналогичными результатами других студентов. 2.
Вычислить значения двух направленных коэффициентов Гудмена и Краскала. Сравнить со значениями, полученными в предыдущем задании. 3.
Получить два ранжированных ряда. Объектами ранжирования будут группы, полученные при различных значениях первого признака (номинальный уровень измерения). В каждой группе подсчитать среднее арифметическое значение третьего признака (метрический уровень измерения) и упорядочить эти группы в порядке убывания / возрастания этих значений. Тем самым получается первый ряд. Для получения второго ряда в тех же группах подсчитать групповой индекс (см. раздел «Логические и аналитические индексы») по второму признаку. По значениям этого индекса получить второй ранжированный ряд. 4.
Подсчитать необходимый для вашего случая коэффициент ранговой корреляции. Обосновать, почему выбран именно такой, а не другой коэффициент. Проанализировать полученное значение коэффициента.
Выводы из главы 3 1.
Начало начал анализа данных — это процессе планирования исследования, этап разработки программы исследования, разработки концептуальной схемы исследования. 2.
В процессе построения модели изучения свойства социального объекта продумывается логика поиска простых эмпирических закономерностей. В целом «язык» анализа данных в предполагаемом исследовании определяется только после осмысления логики интерпретации эмпирических закономерностей, т. е. ответа на вопрос: Что и как будем делать, если получим то-то и то-то? 3.
Независимо от выбора стратегии анализа (восходящей или нисходящей) социологу необходимы умения первичного анализа, первичной обработки данных. Одномерные распределения, таблицы сопряженности только просты по виду. Социолог может использовать множество «языков» анализа данных при работе с ними. 4.
Меры центральной тенденции различны для разных типов шкал. Средняя арифметическая без дисперсии, медиана без квартального размаха, мода без коэффициента качественной вариации для социолога не имеют содержательного смысла. 5.
В зависимости от того, с какими из относительных частот работает социолог, он решает разные типы содержательных задач. 6.
Изучение связи между признаками (эмпирическими индикаторами или производными от них показателями) — одна из целей анализа. Связь, взаимосвязь трактуются, понимаются по-разному. Потому так много мер (коэффициентов) связи. 7.
В таблице сопряженности находится вся информация о взаимосвязи двух признаков. 8.
Изучение взаимосвязей невозможно без понимания таких пар понятий: «функциональная — корреляционная связь», «локальные меры связи — глобальные», «сильная связь — слабая», «ложное значение коэффициента — истинное», «направленная связь — ненаправленная», «статистическая зависимость — независимость» и т. д. 9.
Меры связи различаются для различных типов шкал и для разного понимания связи. 10.
Коэффициенты парной связи целесообразно использовать только в сравнительном контексте в рамках одного и того же исследования. Эффективными являются две стратегии Их использования: поиск факторной структуры совокупности признаков; поиск признаков, детерминирующих целевой признак.
Еще по теме МЕРЫ СВЯЗИ: ОСНОВАННЫЕ НА МОДЕЛИ ПРОГНОЗА И РАНГОВЫЕ:
- МЕРЫ СВЯЗИ, ОСНОВАННЫЕ НА ПОНЯТИЯХ «СТАТИСТИЧЕСКАЯ ЗАВИСИМОСТЬ» И «ДЕТЕРМИНАЦИЯ»
- Глава 11. Типология, основанная на процедурах опроса и моделях восприятия
- Модель «серендипити», или «нежданно-негаданно» (Непредвиденный, аномальный и стратегический исходный факт заставляет основать теорию)
- 42. Меры пресечения и предупредительные меры в административном принуждении.
- Кархалев Д.Н.. Гражданско-правовые меры защиты и меры ответственности: Учебное пособие. - Уфа: РИО БашГУ, - 148с., 2004
- § 68. Глобальный научный прогноз
- § 2. Первопорядковая семантика (теория моделей)Определение 1 (модели)
- ПРОШЛЫЕ ПРОГНОЗЫ
- 21.1. Экологический прогноз и прогнозирование
- 3.1. Система «человек — машина», информационная модель, концептуальная модель