<<
>>

АНАЛИЗ ХАРАКТЕРА «ПОВЕДЕНИЯ» ПРИЗНАКА

Эмпирическая кривая распределения. Показатели средней тенденции для различных типов шкал. Дескриптивная статистика. Мода. Медиана. Среднее арифметическое значение, взвешенное среднее. Меры рассеяния вокруг средних. Дисперсия. Коэффициент вариации как мера однородности. Квартильный размах. Меры качественной вариации. Коэффициент качественной вариации. Среднее геометрическое. Энтропия.

Регулярно на экране телевизора вы видите визуально представленные распределения какого-нибудь признака (столбики с обозначением процентов).

Например, результаты изучения общественного мнения по претендентам на президентский пост или место в парламенте. Эти картинки называются гистограммами — графическое изображение или визуализация распределений. Они строятся по определенным правилам и в основном нужны не столько самому социологу, сколько заказчику социологического исследования (красиво и наглядно). Социологу они нужны лишь на предварительном этапе работы с эмпирией для того, чтобы на компьютере быстро просмотреть характер распределений. Существует множество способов визуализации. Например, в работе [2] приводится 15 способов визуального изображения (графики, диаграммы) одних и тех же данных — одномерного распределения признака.

На рис. 3.2.1 изображена гистограмма, соответствующая

распределению студентов по будущим профессиям. На горизонтальной оси, начиная с любой точки, откладываются на равном расстоянии восемь (см. таблицу 3.1.1) профессий. Над каждой «профессией» воздвигается столбик высотой равный относительной частоте этой профессии. Столбики могут отстоять друг от друга и на каком-то расстоянии. В нашем случае они примыкают друг к другу. Гистограмму можно строить по частостям или по процентам. Они совпадут при соответствующем выборе масштаба. Для этого на вертикальной оси одна и та же точка должна соответствовать либо единице, либо ста процентам.

Сумма площадей всех прямоугольников равна единице, если она построена по частостям и равна ста, если гистограмма построена по процентам. Вертикальная ось служит только для задания масштаба, поэтому гистограмму начинают строить с любой позиции по горизонтали. Ломаная линия (обозначенная на рис. 3.2.1 пунктиром) называется эмпирической кривой распределения, или полигоном. Она соединяет середины верхней стороны прямоугольников. Эта кривая и ее характеристики говорят социологу о «поведении» признака. Второй из этих терминов мало

употребляется на практике.

Процент/частость/

Рис. 3.2.1 Гистограмма и эмпирическая кривая распределения студентов по профессиональным группам

30- 25 20 / \ 10..- \ю 5.* . ft ? * . в. . ? ? —W 1 2 3 4 5 6 7 8

(будущая профессия студентов)

Аналогичным образом строится гистограмма и эмпирическая кривая распределения для второго признака, т. е. для распределения студентов по степени их удовлетворенности учебой. Они изображены на рис. 3.2.2. Если для номинальных и порядковых шкал гистограммы эмпирическая кривая распределения служит только для визуализации, то для метрических они имеют особый смысл.

Процент/частость А 30 , 25 т-у' Ч 20 .. ? * ' / .. а * ш С —^ > (степени удовлетворенности учебой студентов)

Рис. 3.2.2 Гистограмма и эмпирическая кривая распределения по степени удовлетворенности учебой

Построим гистограмму и эмпирическую кривую распределения для признака «продолжительность затрат времени на учебу».

В этом случае гистограмма строится несколько иначе. Как вы заметили, каждый столбик гистограммы по площади был равен числу респондентов. Визуально передается не высота столбика, а его площадь. Ширина столбика равнялась единице и для номинального, и для порядкового признаков. В данном случае ширину нельзя выбрать одинаковой, так как наши интервалы разные. Поэтому гистограмма строится по плотности распределения. Плотность в интервале -это число респондентов, приходящихся на единицу интервала. Обозначим плотность в наших шести интервалах через

Ръ Р2, Рз, Р4, P5, Рб

Тогда Р1 = 27/1 = 27; Р2= 75/1,5 = 50; Рз = 150/1,5 = 100;

Р 4 = 348/3 = 116; Р5 = 250/1 = 250; Ре = 150/1 = 150

ПЛОТНОСТЬ

. п

О 1 2,5 4 7 8 9 (часы)

Рис. 3.2.3 Гистограмма по продолжительности затрат времени на учебу

В данном случае эмпирическая кривая распределения не имеет содержательного смысла, ибо не передает характера распределения. Поэтому такую кривую строят при делении на равные интервалы. Число интервалов при этом определяется уже исходя из формальных критериев. Для порядковой и метрической шкалы гистограмму и эмпирическую кривую распределения можно построить и по накопленной частоте. Только в этом случае для эмпирической кривой распределения существует специфическое название. Она называется кумулята, а накопленную частоту называют кумулятивной. Построим ее по данным, представленным в таблице 3.2.1.

Таблица 3,2,1

Распределение по продолжительности учебы (равные интервалы) Продолжительность учебы Показатели 0-1 1-2 2-3 3-4 4-5 5-6 6-7 7-8 8-9 Итого Абсолютная

частота 27 50 75 100 48 100 200 250 150 1000 Относительная частота в процентах. 2,7 5,0 7,5 10 4,8 10 го 25 15 100 Накопленная частота 2,7 7,7 15,2 25,2 50 40 60 85 100 На рис. 3.2.4 изображены гистограмма и кумулята по

продолжительности затрат времени на учебу (интервалы равные, их девять). Кумулята — это всегда возрастающая кривая. Пока на пунктирные линии не обращайте внимания.

Г рафическое изображение распределений в виде эмпирических кривых распределения (полигоны и кумуляты) нужны социологу в зависимости от типа шкал для разных целей. Для номинальной шкалы мы можем упорядочить (провести ранжирование) различные профессиональные группы по и представительности (объему) в наши данны и соответственно выделить модал ные (самые большие по объему) группы. Для порядковой шкалы, кроме этого, определяется и степень единодушия студентов в оценке своей удовлетворенности учебой. Вспоминаем шкалу Терстоуна, для Построения которой посредством медианы и квартал ного размаха оценивалась степень единодушия экспертов. Самую важную роль

играют эмпирические кривые распределения для метрически признаков. Но эта роль связана не с первичным анализом и не с изучением поведения эмпирически индикаторов, а с анализом поведения

показателей/коэффициентов/ индексов. 7- у У / . -1 І г .. 1 2 3 Q| 4 5 М, е 7Q3 g д

Рис. -?.24К.умулята по продолжительности затрат времен» на учебу

При статистическом подходе к анализу распределений каждый такой показатель теоретически может иметь закон распределения с определенными параметрами и по эмпирической кривой распределения можно судить о том, каков этот закон. Знание законов дает возможность применения к анализу эмпирии всего богатства средств, накопленных в математической статистике. Законов очень много, и отсюда названия: нормальный закон распределения (рис. 3.2.5), логарифмический закон распределения (рис.

3.2.6), линейный закон распределения (рис. 3.2.7) и т.д. Законы вы проходили и в школе. Уравнение прямой, параболы, гиперболы интерпретируются как математические законы, связывающие две величины X и Y. Некоторые законы нельзя записать в явном виде, т. е. в виде математической формулы.

Что касается самого факта существования закона распределения какого-то показателя, то это требует доказательства. Например, в виде проверки статистических гипотез. Эту тему относим к последующим этапам в вашем образовании.

Мода

Наиболее часто встречающееся значение признака называется модой. Таких значений может быть и несколько. В нашем случае третья профессия

Перейдем к рассмотрению характеристик, описывающих (отсюда название дескриптивная статистика) «поведение» признака в целом, в виде некоторой эмпирической тенденции. Потому они и называются мерами центральной тенденции.

является модальной. Социолог никогда не работает с одной единственной модой, а употребляет понятие «модальные значения». Для нашего примера профессии 3 и 8 являются модальными. Аналогична ситуация в случае порядковых шкал. Мода равна 2 (наиболее часто встречаются студенты, степень удовлетворенности учебой которых равен двум). В качестве модальных значений имеет смысл рассматривать все же два значения, 2 и 4, т. е. наиболее распространены две группы по степени удовлетворенности. И это несмотря на то, что по объему они различны. Однако по сравнению с другими группами они достаточно большие. Можно считать, что наличие таких модальных групп специфично, характерно, типично для изучаемой совокупности студентов-гуманитариев. Это самая простая эмпирическая закономерность.

Нахождение модального значения в случае метрической шкалы невозможно по рис. 3.2.3, ибо ширина интервалов различна и это модальное значение может находиться в любом интервале. Поэтому прежде всего возникает задача определения модального интервала — интервала, содержащего моду. Для этого необходимо перейти от деления на интервалы, основанного на содержательных критериях, к делению на интервалы по формальным критериям. При этом интервалы должны иметь равную длину и их число должно зависеть от степени изменчивости признака. Чем больше степень изменчивости, тем больше нужно интервалов для определения модального. На рис. 3.2.8 приведена гистограмма, построенная для случая деления «продолжительности» на девять равных интервалов. Абсолютные частоты в этих интервалах были приведены выше в таблице 3.2.1. Плотность в каждом интервале пропорциональна этим абсолютным частотам. Ширина интервала равна 1. Эмпирическая кривая распределения в этом случае называется эмпирической функцией распределения плотности.

Существует математическая формула для вычисления моды, но мы приведем лишь геометрический способ нахождения моды в модальном интервале. Модальным интервалом является интервал в 7—8 часов. Значение моды вычисляется геометрически (пересечение пунктирных линий на рис. 3.2.8) и примерно равно 7,3 часа (см. стрелочку на том же рисунке). Является логичным, что мода должна находиться ближе к тому концу модального интервала, который примыкает к интервалу с большим числом объектов. Возникает вопрос, как подсчитать значение моды, если модальный интервал первый или последний по счету. Тогда за моду принимается середина этих интервалов.

Модальные значения определенным образом говорят о характере поведения признака и в основном о числе «горбов». Например, вспоминаем задачу ранжирования по предпочтениям различны сортов пива. С какими ситуациями мы сталкивались? С достаточным единодушием (один горбик, одна мода), с двумя противоположными тенденциями (два горбика, две моды) и с полным разнообразием (практически равномерное распределение —

моды нет). Чтобы как-то продвинуться в анализе предпочтений, мы использовали еще одну характеристику — медиану, к рассмотрению которой и переходим.

Медиана

Эта мера центральной тенденции, или характеристика распределения, имеет смысл только для порядковых и метрических шкал. С медианой мы сталкивались при построении шкалы Терстоуна и опять же в процедуре ранжирования. В общем случае медиана — значение признака, соответствующее середине упорядоченного ряда. Например, пусть у нас есть данные по каждой области — доли голосов в %, отданных избирателями на выборах господину Икс. Тогда значение медианы, равное 15%, интерпретируется следующим образом. В половине областей отдано за господина Икс больше 15% голосов, а в половине — меньше 15%. Не правда ли, это очень важная характеристика для интерпретации результатов выборов?

Для вычисления медианы в этом случае мы должны были упорядочить все области в порядке возрастания или убывания числа голосов. Если число областей нечетное, то в середине ряда — одна единственная область. Медиана тогда равна числу голосов, отданных господину Икс в этой области. Если число областей четное, то середину ряда составляют две области и медиана вычисляется как среднее значение по этим двум областям.

В случае нашего примера метрической шкалы — продолжительность затрат времени на учебу — медиана может быть вычислена таким же образом. Для этого проведем упорядочение студентов по возрастанию/убыванию этих затрат и найдем середину аналогичным образом. Медиану можно вычислить и по кумуляте (см. шкалу Терстроуна).

Для порядковы и метрически шкал необ одимым является понятие медианного интервала, т.е. интервала содержащего медиану. Как правило, вы не любите формулы, поэтому приведем вербальное описание формулы для вычисления медианы в медианном интервале. Это делается по двум соображениям. Первое — показать, что математическая формула всегда отражает содержание. Второе — математической формулой иногда пользоваться удобнее для избежания очень длинны описаний. Итак, медиана в медианном интервале вычисляется по формуле: г нижняя ширина 1 1

полотна частота \ чаептта > \ Me = граница мешанного от числа накопленная медианном медианного интервала X объектов до интервале интервала медаяшого интервала J і і 1 < і І (х) (h L (п/2) (Р) - (Р) Эту формулу можно записать очень просто с использованием обозначений, приведенных внизу:

n - P

2

Me = x +1-

P

Чем выше уровень измерения, тем богаче возможности описания «поведения» признака. Если признак измерен по метрической шкале, то кроме моды и медианы для описания поведения признака используется известная всем мера центральной тенденции — средняя арифметическая.

Среднее арифметическое

Для любой совокупности значений признака это сумма всех значений, деленная на их число. Вернемся к примеру признака — продолжительность затрат времени на учебу. Обозначим число студентов-гуманитариев через n (для нашего случая n=1000), а через X — значение этой продолжительности для i-го студента. Тогда средняя арифметическая продолжительности будет равна: —

1 n X

= - ? X,

П i=1

Таким образом можно определить среднею продолжительность затрат времени на учебу в группа студентов с любой «будущей профессией», с любой степенью удовлетворенности учебой и т. д.

Социолог часто встречается с ситуацией, когда конкретные значения признака по отдельным объектам неизвестны. Исходно имеются только интервалы изменения признака и частота (абсолютная или относительная) встречаемости объектов в этих интервалах. Например, та же продолжительность может быть задана в виде интервалов и частоты в них. Это может быть в двух случаях. Первый — данные о продолжительности получены с помощью прямого вопроса анкеты: «Сколько времени Вы в среднем в неделю тратите на занятия, связанные с учебой?». При этом предлагаются заданные заранее интервалы. По сути, мы имеем дело с порядковой шкалой. В этом случае также можно вычислить среднее значение продолжительности для некоторой группы студентов. Только она называется средняя взвешенная и вычисляется несколько по-другому.

Второй случай, когда у социолога отсутствуют конкретные значения по каждому объекту в ситуации вторичного анализа. Вторичным анализом социолог называет анализ «чужих» данных для решения своих собственных, новых задач. Тогда часто приходится работать уже с вычисленными до него средними арифметическими. Например, результаты исследования бюджетов времени обычно публикуются в виде средних затрат времени с указанием объема группы, для которой они получены. В процессе вторичного анализа возникает необходимость объединения каких-то групп и, соответственно, в подсчете общей средней. В этой ситуации также необходима средняя взвешенная для вычисления «средней средних».

Вычислим среднюю продолжительность затрат времени на учебу студентами-гуманитариями по данным таблицы 3.1.3. Для этого предполагается, что продолжительность для каждого респондента, отнесенного к интервалу, равна середине интервала. Для наших шести интервалов их середины соответственно равны:

Х1 = 0,5; X2 = 1,75; X3 = 3,25; X4 = 5,5; X5 = 7,5; X6 = 8,5.

Нам известно число студентов в каждом интервале:

n1 = 27; n2 = 75; n3 = 150; n4 = 348; n5 = 250; n6 = 150.

Тогда продолжительность затрат времени на учебу в среднем на студента или средняя взвешенная продолжительность равна: 1

= (0,5х27+1,75х75+3,25х150+5,5х348+7,5х250Н-8,5х150)/1000=5,7 Формула для вычисления средней взвешенной выглядит для к интервалов следующим образом:

к

? njxj X=,

? nj j=1

где Xj — середина j-го интервала.

Аналогично вычисляется «средняя средни ». Допустим, перед социологом стоит задача вычисления средней продолжительности жизни мужчин в России по данным отдельных областей. Эти данные представляют собой среднюю продолжительность жизни мужчин по каждой области. Естественно, «среднюю средних» вычисляем с весами, равными

численности мужчин в каждой области.

Все рассмотренные характеристики: мода, медиана, средняя

арифметическая, среднее взвешенное — являются средними. Они характеризуют центральные тенденции одномерного распределения. Есть и другие средние, но они в социологии применяются редко. Поэтому среднюю арифметическую называют просто средней, а мода и медиана сохраняют свои названия. Без процедуры усреднения социолог-эмпирик существовать не может. Другое дело, с помощью каких средних он проводит эту процедуру.

Сами по себе значения «средних» мало о чем говорят, если социолог не видит эмпирическую кривую распределения, например, на экране компьютера. В ситуации «невидения» ему помогают интерпретировать любые средние так называемые меры вариации, меры рассеяния объектов вокруг этих средних. Сначала мы рассмотрим меру вариации для случая метрической шкалы, а затем для порядковой и номинальной.

Прежде чем перейти к этой проблеме, заметим, что любая средняя характеризует центральную тенденцию распределения только тогда, когда объекты в основном сосредоточены вокруг этих средних, т,е, изучаемая совокупность объектов однородна относительно признака, Однородность — это очень важное понятие для всех, кто работает с эмпирией, Социолог сталкивается с проблемой однородности в разных контекстах, Как раз вот здесь пара понятий «качество — количество» очень важна, Разделение понятий качественная однородность и количественная однородность имеет огромный смысл, Например, разве есть смысл в среднем доходе или в среднем возрасте россиянина? Конечно же, нет, И в то же время есть смысл в средней заработной плате сельских врачей или в среднем возрасте мужчин-пенсионеров, Необходима качественная однородность для того, чтобы начать анализ количественных характеристик распределения признака,

Сами количественные характеристики могут указывать/показывать на отсутствие количественной однородности по анализируемому признаку. Это в свою очередь будет говорить о наличии качественной неоднородности.

Дисперсия

Рассмотрим меру вариации/рассеяния/разброса/изменчивости для метрической шкалы. По эмпирической кривой распределения или гистограмме на рис. 3.2.3 видим, что совокупность студентов неоднородна по продолжительности затрат времени на учебу. С одной стороны, очевидно, что средняя продолжительность учебы как характеристика имеет смысл, поскольку вполне правомерно сравнение средней продолжительности учебы для выделенных нами групп студентов: социологов, политологов,

культурологов и т. д. С другой стороны, в ситуации неоднородности такое сравнение содержательно ни о чем не говорит.

Какова может быть мера неоднородности/однородности по

продолжительности? Об этом можно судить по степени отклонения продолжительности затрат времени на учебу отдельного студента от средней продолжительности, которая в нашем случае равна 5,7 (в часах). Индивидуальные отклонения (X, - X ) нельзя просто суммировать, чтобы

судить об общем отклонении. Отклонения в одну сторону будут погашаться отклонениями в другую. Чтобы этого не было, индивидуальные отклонения возводятся в квадрат, а затем складываются. Эта сумма делится на число респондентов, и получается характеристика, называемая дисперсией (а2). Это мера вариации значений признака в среднем и вокруг средней арифметической.

(Х, - X)

?

i=1

Следует заметить, что при небольшом числе объектов делить нужно не на n, а на (n —1). Для социолога это не принципиально, так как он работает обычно с достаточно большим числом объектов.

Корень квадратный из дисперсии называется среднеквадратическим отклонением (а — сигма). По ней можно сравнивать меры рассеяния разных признаков, одного признака для различных совокупностей. Прямое сравнение дисперсий, среднеквадратических отклонений мало что дает. Рассмотрим пример из нашего исследования. Вычислим среднее арифметическое и среднеквадратическое отклонение продолжительности затрат времени на учебу для нескольких групп студентов. Допустим, что для

социологов ( X = 6, а = 4), психологов (X = 5,4, а =3,5), политологов (X = 4,5, а = 3,5), историков (X = 6, а = 2). Какие выводы можно сделать по этим данным?

Социологи и историки затрачивают на учебу в среднем одинаковое время, но совокупность социологов менее однородна, потому что среднеквадратическое отклонение больше. Психологи затрачивают на учебу в среднем больше времени, чем политологи, и они более однородны, чем группа политологов. Дисперсия одинакова в этих группах, относительно разных по значению средних. Когда средние и дисперсии в сравниваемых группах различны, на помощь приходит коэффициент вариации.

Коэффициент вариации

Этот коэффициент при наших обозначениях равен V = = * 100

X

Он представляет собой долю вариации в процентах (%), приходящуюся на единицу средней. В нашем случае соответственно четырем группам: V1 = 66,7% (для социологов), V2 = 64,8% (для психологов), V3 = 77,8% (для политологов), V4 = 33,3% (для историков). Таким образом, группа историков более однородна по продолжительности затрат времени на учебу, чем все остальные группы. Самая неоднородная группа — политологи. Это означает, что среди них оказались и очень много, и очень мало занимающиеся.

Среднее арифметическое и дисперсия интерпретируются всегда вместе. Например, существует так называемое правило «трех сигм», очень важное при работе с эмпирией. Оно означает, что если все значения признака находятся в интервале от -За до +3а, то считается, что закон распределения признака нормальный, т. е., как минимум, эмпирическая кривая имеет унимодальный характер (одна мода, один горб). На рис. 3.2.5 изображен идеальный нормальный закон распределения. Запомните его, ибо математический аппарат для анализа нормальных распределений очень богат. Для идеально нормального распределения мода, медиана и среднее арифметическое равны.

Если для анализа распределений использовать «язык» статистического анализа, то сами рассмотренные характеристики, например X, являются величинами, имеющими свой собственный закон распределения, Представим себе, что каждый из вас для одного и того же исследования сформировал выборочную совокупность, Пусть у каждого будет самая из самых «хорошая» (репрезентативная) выборка, Если подсчитать, к примеру, средний возраст опрошенных по этим выборкам, то значения будут различны, Среднее этих значений и будет истинным значением среднего возраста в генеральной совокупности, Аналогичны рассуждения и в случае средней продолжительности затрат времени на учебу,

Отклонение средних от «истинной средней» будет носить случайный характер. Оказывается, эту случайность можно оценить. На этом основан подсчет так называемых доверительных интервалов, т. е. интервалов, в которых находится истинное (для генеральной совокупности) значение признака. Но это только для тех величин (характеристик), для которых известен закон распределения. Они называются статистиками. Среднее арифметическое и является статистикой с нормальным законом распределения. Для нее легко определяется доверительный интервал.

Другие меры вариации

Рассмотрим меру вариации, меру отклонения, меру рассеяния значений признака вокруг медианы. Такой мерой является квартильный размах, с которым мы встречались при построении шкалы Л. Терстоуна. Вспомним, что содержательно это интервал, в котором вокруг медианы сосредоточилось 50% экспертов. Это единственная мера вариации для порядковых шкал. На рис. 3.2.4 три пунктирные линии проведены для определения медианы и соответствующего ей квартильного размаха {он равен (Q3 - Q1)/2 }, Без сравнительного контекста трудно сказать, мало это или много. Для социолога познавательная возможность любого математического конструкта, а это пока простейшие формулы на уровне обыденного понимания, определяются только в сравнительном контексте, т. е. при сравнении значений, полученных в разных условиях.

Перейдем к самым трудным для понимания мерам — мерам качественной вариации, т. е. мерам вариации для признаков, измеренных по номинальным шкалам. Самое главное, что любая такая мера характеризует степень отклонения распределения признака от равномерного, т. е. когда каждой градации признака соответствует одно и то же число объектов. Максимальное значение меры обычно соответствует ситуации равномерного распределения, а минимальное — ситуации, когда все объекты сосредоточены в одной градации.

Как мы знаем, любой номинальный признак сводится к совокупности бинарных, дихотомических, т. е. принимающих значения 0 или 1. В этом случае столбец нашей исходной матрицы данных «объект-признак», соответствующий одному признаку, превращается как бы в несколько столбцов, каждый из которых соответствует отдельному свойству (быть социологом, быть политологом и т. д.). Анализировать мы должны теперь поведение «свойства», а не признака. По всем объектам это совокупность из нулей и единиц.

0000 1 1 1 1 1 1 ...00 1 1 1

Предположим, что этот ряд получен по свойству — быть в будущем социологом. Если i-й студент — социолог, то ему соответствует хі=1 , а если он не социолог, то хі = 0. Оказывается, для такого вида данных имеет смысл среднее арифметическое. Она равна X = k/n, где k — число будущих социологов, a n — число всех студентов-гуманитариев.

Почему имеет смысл средняя арифметическая для дихотомической шкалы? Потому что она содержательно интерпретируется. Если X = 0, то это означает, что все студенты-гуманитарии в нашей выборке не социологи. Если X = 1, то все студенты — социологи. Если X = 0,5, то половина студентов X будущие социологи, а половина — не социологи. Продолжая наши рассуждения, можно сделать вывод и для случаев,_когда 0 < X < 0,5 и 0,

5 < X <1. Первый из них означает, что в совокупности меньше 50% студентов социологи. Второй — в совокупности больше 50% социологов.

Таким образом, как это ни парадоксально, можно вычислять среднее арифметическое по признаку «пол». Только важно правильно интерпретировать полученный результат, исходя из того, каким образом закодирован этот признак. Разумеется, социологу нет никакого смысла в использовании такого рода средней, отражающей «центральную тенденцию». Он прекрасно работает с относительными частотами в %. Приведенная средняя интересна не для целей первичного анализа, а для анализа с применением сложных математических методов. К примеру, для такой средней можно подсчитать дисперсию. Если для дихотомических признаков имеет смысл использование характеристик метрической шкалы, значит, возможно использование и математических методов, работающих с метрическими данными. Дисперсия в данном случае равна:

Эта дисперсия и является мерой вариации для бинарного (дихотомического) признака. При этом она равна нулю, если все объекты либо обладают, либо не обладают анализируемым свойством. Что естественно, так как в этих случаях разброса в данных не наблюдается. Максимальное значение этой дисперсии достигается в случае равномерного распределения (k = n/2), и оно равно 1/4. При этом X = 1/2, а = 1/2, V=100%.

Напомню вам одно правило из школьной арифметики. Если есть два целых числа, то среднее геометрическое этих чисел всегда меньше или равно среднему арифметическому. Равенство достигается, когда числа равны.

Jab < (а + b) /2

Этим соотношением и воспользуемся для введения коэффициента качественной вариации. Вначале предположим, что номинальный признак имеет только две градации, причем в первую градацию попало Ni объектов, а во вторую —N2 объектов {число всех объектов равно n = Ni + N2,). И если теперь в соотношение между средней арифметической и средней геометрической подставить

а = N12; b = Nт получим N1 • N2 < (n12 + N2)/ 2 Максимальное значение N, • N2 будет только в случае N1 = N2 , и оно будет равно п2 / 4. А это ведь случай равномерного распределения. Коэффициентом качественной вариации и будет отношение реального значения произведения ( N, • N2) к максимальному его значению, равному п / 4 .

Коэффициент равен нулю, если все объекты в одной градации, и единице, если распределение равномерное. Коэффициент легко обобщается на случай, когда число градаций равно k. Представим себе, что из всей

совокупности объектов мы образовали всевозможные пары. Вспомним

метод парных сравнений Терстоуна и вычисление числа всевозможных пар

для сравнения объектов. Здесь ситуация аналогичная. Пары не повторяются,

объект сам с собой пару не образует. В случае двух градаций произведение

(N1 • N2) есть не что иное, как число пар, различных между собой.

Если градаций три и по ним частоты равны (N1, N2, N3), то число

различных пар будет равно (NrN + NrN + N2-N3). Число членов в этой

сумме вычисляется как число парных сочетаний из трех элементов по два.

Вспоминаем, что это число равно k(k-l)/2, когда число элементов равно к.

Тогда коэффициент вариации вычисляется как отношение:

€ реального числа различных пар, равного (N1-N2 + N1-N3 + N2-N3);

€ к максимальному (случай равномерного распределения), равному

{(n2 / 9)(3 • 2 / 2)}. В первых круглых скобках — то, во что превращается

каждый член суммы, а во вторых — число членов в этой сумме.

В общем случае для к градаций реальное число пар равно

Пк-1 к П г т

?? ? NiNj о а максимальное - {(n2/к2)(к(к -1)/2)}. Таким образом,

? i =1 j=2 ?

формула для вычисления коэффициента качественной вариации приведена по частям, т. е. отдельно числитель (реальное) и отдельно знаменатель (максимальное).

Коэффициентом вариации (R) может служить и величина, равная среднему геометрическому из относительных частот в долях (частости) умноженному на число градаций, т. е.

Для вычисления этой величины необходимо избавиться от пустых градаций, иначе она обратится в нуль. R=l при равномерном распределении.

Приведем еще один пример вычисления меры качественной вариации. В качестве такой меры служит энтропия, о которой мы упоминали в контексте «языка» анализа распределений, опирающегося на информационный подход. Энтропия — это основное понятие так называемой теории информации. Распределение признака интерпретируется как некое сообщение, несущее определенный объем информации. Этот объем можно оценить энтропией как мерой

«определенности»/«неопределенности». Ее трудно объяснить и трудно понять без знания логарифмов и логарифмических законов распределения. Более того, замечательные свойства этой меры могут быть оценены только при многомерном анализе. Пока вам придется просто этому поверить. Итак, энтропия Н(х) при числе градаций равном к и при обозначении i-й частости (доли) через р; равна:

Н(х) = -? Pi log Pi

i=1

Логарифм может быть взят по любому основанию, ибо нетрудно перейти от одного основания к другому. Напомним, что есть натуральный логарифм (по основанию «е»), десятичный (по основанию «10»), двоичный (по основанию «2»).

Энтропия — положительная величина, несмотря на то, что перед суммой стоит минус. Он погашается другим минусом, появляющимся за счет того, что логарифм берется от правильной дроби (это вам известно из школьной математики). Значение энтропии равно нулю, если все объекты сосредоточены в одной градации (но чтобы это показать, нужны знания о «пределах» — lim). В самом деле, тогда мера неопределенности минимальная. Энтропия равна log k, если распределение равномерное, т. е. в этом случае максимальная неопределенность. Чтобы значение меры не зависело от числа градаций, можно использовать в качестве меры качественной вариации нормированную величину энтропии.

Термин нормировка будет дальше встречаться часто. Это процедура преобразования некоторой величины в необходимый для исследователя вид. Она нужна для того, чтобы какие-то показатели/коэффициенты/ индексы изменялись либо от 0 до 1, либо от -1 до +1. Тогда делается возможным сравнение их значений, полученных при разных условиях, например, для различных совокупностей объектов.

На практике пользуются в сравнительном контексте только одной мерой качественной вариации, ибо каждая мера отражает свое собственное понимание вариации. Потому значения, полученные по разным мерам, не имеет смысла сравнивать.

Анализ «поведения» динамических рядов

Коротко остановимся на анализе динамических рядов. Эмпирическая кривая распределения в этом случае строится по конкретным значениям признака. На рис. 3.2.9 изображен динамический ряд — изменение коэффициента рождаемости за сто лет в некоторой стране X. По горизонтали обозначены 10 точек, каждая из которых соответствует пятилетнему интервалу. По вертикали отложены значения коэффициента рождаемости в среднем за соответствующую пятилетку. Пример модельный. Мы не знаем, какая это страна и какое это столетие.

0.5 0

2

1,5

Рис. 3.2.9 Динамический ряд изменения рождаемости

2,5

Все рассмотренные выше меры центральной тенденции могут использоваться и для анализа временных рядов. Если изменения значения признака наблюдаются (как в нашем случае), то основным вопросом при анализе временных рядов является его «выравнивание» и определение «тренда», т. е. кривой, характеризующей общую тенденцию изменения признака, т. е. закон поведения коэффициента рождаемости. Другими словами, появляется необходимость в описании эмпирической кривой с помощью математической функции или определение теоретического закона распределения, максимально приближенного к эмпирической кривой. Только после определения тренда можно предсказать значение признака в следующих временных точках. Кстати сказать, найти закон не всегда удается. Тогда анализ проводится по отдельным частям эмпирической кривой распределения.

Если на эмпирической кривой распределения наблюдаются цикличности, то выравнивание заменяется сглаживанием «скользящей средней» из значений, число которых охватывает цикл. Можно изучать и «лаги». «Лаг» — показатель опережения или отставания одного явления (в нашем случае коэффициента рождаемости) от другого. Например, от мероприятий, принятых для повышения рождаемости.

Существует целая область науки, которая занимается проблемами анализа динамических рядов. В социологии такие ряды встречаются при работе с первым из пяти выделенных нами типов информации, а именно с государственной статистикой. В основном с временными рядами работают специалисты в области анализа социальных систем и социальной демографии.

Задание на семинар или для самостоятельного выполнения

Задание выполняется индивидуально и состоит из следующих этапов: 1.

По данным первых двух таблиц, полученных каждым студентом в

рамках предыдущего задания, необходимо построить гистограммы. Убедиться в том, что гистограммы построенные для признака по

абсолютным частотам, долям и процентам, будут совпадать при выборе определенного масштаба. 2.

Подсчитать для третьего признака плотность в каждом интервале. Построить гистограмму по плотности. 3.

Изобразить на гистограммах эмпирическую кривую распределения. 4.

Построить по накопленной частоте гистограмму для порядковой шкалы и изобразить кумуляту и геометрически определить медиану в медианном интервале. Г еометрически определить квартальный размах. 5.

Разбить метрическую шкалу на равные интервалы (порядка 15-ти

интервалов). Вычислить плотность в каждом интервале и построить,

гистограмму. Обозначить модальный интервал и в нем геометрически

определить значение моды. 6.

Подсчитать по метрической шкале среднее арифметическое

значение и среднее взвешенное по распределению. Сравнить их значения. 7.

Вычислить дисперсию и среднеквадратическое отклонение третьего признака для групп, выделенных при разных значениях первого признака. 8.

Сравнить степень однородности этих групп (п. 7) по значениям коэффициента вариации. 9.

Подсчитать энтропию первого признака для двух групп, выбранных по различным значениям второго признака. 10.

Вычислить для этих же групп (п. 9) значение коэффициента качественной вариации. Провести сравнительный анализ. 3.

<< | >>
Источник: Г. Г. Татарова. Методология анализа данных в социологии (введение). 1999

Еще по теме АНАЛИЗ ХАРАКТЕРА «ПОВЕДЕНИЯ» ПРИЗНАКА:

  1. АНАЛИЗ ВЗАИМОСВЯЗИ ПРИЗНАКОВ
  2. Анализ стратегического поведения
  3. АНАЛИЗ ПАТОМОРФОЛОГИЧЕСКИХ ПРИЗНАКОВ В ИССЛЕДУЕМЫХ ГРУППАХ
  4. Характер и предмет теории органических сущностных признаков
  5. КАКОВ ОТЛИЧИТЕЛЬНЫЙ ПРИЗНАК УЧИТЕЛЯ, ВОЗБУЖДАЮЩЕГО ДУХОВНЫЕ СИЛЫ УЧАЩИХСЯ И УКРЕПЛЯЮЩЕГО ИХ ХАРАКТЕР?
  6. Задание 4. Анализ поведения педагога в конфликтной ситуации
  7. I.3.6. Анализ характера обращений граждан и реализация его результатов.
  8. Поведение и деятельность как реализация форм и видов общественного сознания Социальное поведение
  9. Глава VII О ПЯТИ РАЗНОВИДНОСТЯХ ОБЩИХ ИДЕЙ: РОДАХ, ВИДАХ, ВИДОВЫХ ОТЛИЧИЯХ, СОБСТВЕННЫХ ПРИЗНАКАХ, СЛУЧАЙНЫХ ПРИЗНАКАХ
  10. § 3. Месть как цель «плохого» поведения Общая характеристика мстительного поведения.
  11. Глава 26. Поведение людей в правовой сфере. Правомерное поведение. Правонарушение
  12. Глава II О ДВУХ РАЗЛИЧНЫХ МЕТОДАХ — АНАЛИЗЕ И СИНТЕЗЕ. ПРИМЕР АНАЛИЗА
  13. биохимический анализы крови и общий анализ мочи