Определение зависимости между признаками: критерий Хи-квадрат. Условия и ограничения применения критерия хи-квадрат пирсона

Министерство образования и науки Российской Федерации

Федеральное агентство по образованию города Иркутска

Байкальский государственный университет экономики и права

Кафедра Информатики и Кибернетики

Распределение "хи-квадрат" и его применение

Колмыкова Анна Андреевна

студентка 2 курса

группы ИС-09-1

Для обработки полученных данных используем критерий хи-квадрат.

Для этого построим таблицу распределения эмпирических частот, т.е. тех частот, которые мы наблюдаем:

Теоретически, мы ожидаем, что частоты распределятся равновероятно, т.е. частота распределится пропорционально между мальчиками и девочками. Построим таблицу теоретических частот. Для этого умножим сумму по строке на сумму по столбцу и разделим получившееся число на общую сумму (s).


Итоговая таблица для вычислений будет выглядеть так:

χ2 = ∑(Э - Т)² / Т

n = (R - 1), где R – количество строк в таблице.

В нашем случае хи-квадрат = 4,21; n = 2.

По таблице критических значений критерия находим: при n = 2 и уровне ошибки 0,05 критическое значение χ2 = 5,99.

Полученное значение меньше критического, а значит принимается нулевая гипотеза.

Вывод: учителя не придают значение полу ребенка при написании ему характеристики.

Приложение

Критические точки распределения χ2

Таблица 1

Заключение

Студенты почти всех специальностей изучают в конце курса высшей математики раздел "теория вероятностей и математическая статистика", реально они знакомятся лишь с некоторыми основными понятиями и результатами, которых явно не достаточно для практической работы. С некоторыми математическими методами исследования студенты встречаются в специальных курсах (например, таких, как "Прогнозирование и технико-экономическое планирование", "Технико-экономический анализ", "Контроль качества продукции", "Маркетинг", "Контроллинг", "Математические методы прогнозирования", "Статистика" и др. – в случае студентов экономических специальностей), однако изложение в большинстве случаев носит весьма сокращенный и рецептурный характер. В результате знаний у специалистов по прикладной статистике недостаточно.

Поэтому большое значение имеет курс "Прикладная статистика" в технических вузах, а в экономических вузах – курса "Эконометрика", поскольку эконометрика – это, как известно, статистический анализ конкретных экономических данных.

Теория вероятности и математическая статистика дают фундаментальные знания для прикладной статистики и эконометрики.

Они необходимы специалистам для практической работы.

Я рассмотрела непрерывную вероятностную модель и постаралась на примерах показать ее используемость.

Список используемой литературы

1. Орлов А.И. Прикладная статистика. М.: Издательство "Экзамен", 2004.

2. Гмурман В.Е. Теория вероятностей и математическая статистика. М.: Высшая школа, 1999. – 479с.

3. Айвозян С.А. Теория вероятностей и прикладная статистика, т.1. М.: Юнити, 2001. – 656с.

4. Хамитов Г.П., Ведерникова Т.И. Вероятности и статистика. Иркутск: БГУЭП, 2006 – 272с.

5. Ежова Л.Н. Эконометрика. Иркутск: БГУЭП, 2002. – 314с.

6. Мостеллер Ф. Пятьдесят занимательных вероятностных задач с решениями. М. : Наука, 1975. – 111с.

7. Мостеллер Ф. Вероятность. М. : Мир, 1969. – 428с.

8. Яглом А.М. Вероятность и информация. М. : Наука, 1973. – 511с.

9. Чистяков В.П. Курс теории вероятностей. М.: Наука, 1982. – 256с.

10. Кремер Н.Ш. Теория вероятностей и математическая статистика. М.: ЮНИТИ, 2000. – 543с.

11. Математическая энциклопедия, т.1. М.: Советская энциклопедия, 1976. – 655с.

12. http://psystat.at.ua/ - Статистика в психологии и педагогике. Статья Критерий Хи-квадрат.

В настоящей заметке χ 2 -распределение используется для проверки согласованности набора данных с фиксированным распределением вероятностей. В критерии согласия часто ты, принадлежащие определенной категории, сравниваются с частотами, которые являются теоретически ожидаемыми, если бы данные действительно имели указанное распределение.

Проверка с помощью критерия согласия χ 2 выполняется в несколько этапов. Во-первых, определяется конкретное распределение вероятностей, которое сравнивается с исходными данными. Во-вторых, выдвигается гипотеза о параметрах выбранного распределения вероятностей (например, о ее математическом ожидании) или проводится их оценка. В-третьих, на основе теоретического распределения определяется теоретическая вероятность, соответствующая каждой категории. В заключение, для проверки согласованности данных и распределения применяется тестовая χ 2 -статистика:

где f 0 - наблюдаемая частота, f е - теоретическая, или ожидаемая частота, k - количество категорий, оставшихся после объединения, р - количество оцениваемых параметров.

Скачать заметку в формате или , примеры в формате

Использование χ 2 -критерия согласия для распределения Пуассона

Для расчета по этой формуле в Excel удобно воспользоваться функцией =СУММПРОИЗВ() (рис. 1).

Для оценки параметра λ можно воспользоваться оценкой . Теоретическую частоту X успехов (Х = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 и более), соответствующую параметру λ = 2,9 можно определить с помощью функции =ПУАССОН.РАСП(Х;;ЛОЖЬ). Умножив пуассоновскую вероятность на объем выборки n , получим теоретическую частоту f e (рис. 2).

Рис. 2. Фактические и теоретические частоты прибытий в минуту

Как следует из рис. 2, теоретическая частота девяти и более прибытий не превосходит 1,0. Для того чтобы каждая категория содержала частоту, равную 1,0 или большему числу, категорию «9 и более» следует объединить с категорией «8». То есть, остается девять категорий (0, 1, 2, 3, 4, 5, 6, 7, 8 и более). Поскольку математическое ожидание распределения Пуассона определяется на основе выборочных данных, количество степеней свободы равно k – р – 1 = 9 – 1 – 1 = 7. Используя уровень значимости, равный 0,05 находим критическое значение χ 2 -статистики, имеющей 7 степеней свободы по формуле =ХИ2.ОБР(1-0,05;7) = 14,067. Решающее правило формулируется следующим образом: гипотеза Н 0 отклоняется, если χ 2 > 14,067, в противном случае гипотеза Н 0 не отклоняется.

Для расчета χ 2 воспользуемся формулой (1) (рис. 3).

Рис. 3. Расчет χ 2 -критерия согласия для распределения Пуассона

Так как χ 2 = 2,277 < 14,067, следует, что гипотезу Н 0 отклонять нельзя. Иначе говоря, у нас нет оснований утверждать, что прибытие клиентов в банк не подчиняется распределению Пуассона.

Применение χ 2 -критерия согласия для нормального распределения

В предыдущих заметках при проверке гипотез о числовых переменных использовалось предположение о том, что исследуемая генеральная совокупность имеет нормальное распределение. Для проверки этого предположения можно применять графические средства, например, блочную диаграмму или график нормального распределения (подробнее см. ). При больших объемах выборок для проверки этих предположений можно использовать χ 2 -критерий согласия для нормального распределения.

Рассмотрим в качестве примера данные о 5-летней доходности 158 инвестиционных фондов (рис. 4). Предположим, требуется поверить, имеют ли эти данные нормальное распределение. Нулевая и альтернативная гипотезы формулируются следующим образом: Н 0 : 5-летняя доходность подчиняется нормальному распределению, Н 1 : 5-летняя доходность не подчиняется нормальному распределению. Нормальное распределение имеет два параметра - математическое ожидание μ и стандартное отклонение σ, которые можно оценить на основе выборочных данных. В данном случае = 10,149 и S = 4,773.

Рис. 4. Упорядоченный массив, содержащий данные о пятилетней среднегодовой доходности 158 фондов

Данные о доходности фондов можно сгруппировать, разбив, например на классы (интервалы) шириной 5% (рис. 5).

Рис. 5. Распределение частот для пятилетней среднегодовой доходности 158 фондов

Поскольку нормальное распределение является непрерывным, необходимо определить площадь фигур, ограниченных кривой нормального распределения и границами каждого интервала. Кроме того, поскольку нормальное распределение теоретически изменяется от –∞ до +∞, необходимо учитывать площадь фигур, выходящих за пределы классов. Итак, площадь, лежащая под нормальной кривой слева от точки –10, равна площади фигуры, лежащей под стандартизованной нормальной кривой слева от величины Z, равной

Z = (–10 – 10,149) / 4,773 = –4,22

Площадь фигуры, лежащей под стандартизованной нормальной кривой слева от величины Z = –4,22 определяется по формуле =НОРМ.РАСП(-10;10,149;4,773;ИСТИНА) и приближенно равна 0,00001. Для того чтобы вычислить площадь фигуры, лежащей под нормальной кривой между точками –10 и –5, сначала необходимо вычислить площадь фигуры, лежащей слева от точки –5: =НОРМ.РАСП(-5;10,149;4,773;ИСТИНА) = 0,00075. Итак, площадь фигуры, лежащей под нормальной кривой между точками –10 и –5, равна 0,00075 – 0,00001 = 0,00074. Аналогично можно вычислить площадь фигуры, ограниченной границами каждого класса (рис. 6).

Рис. 6. Площади и ожидаемые частоты для каждого класса 5-летней доходности

Видно, что теоретические частоты в четырех крайних классах (два минимальных и два максимальных) меньше 1, поэтому проведем объединение классов, как показано на рис 7.

Рис. 7. Вычисления, связанные с применением χ 2 -критерия согласия для нормального распределения

Используем χ 2 -критерий согласия данных с нормальным распределением с помощью формулы (1). В нашем примере после объединения остаются шесть классов. Поскольку математическое ожидание и стандартное отклонение оцениваются на основе выборочных данных, количество степеней свободы равно k p – 1 = 6 – 2 – 1 = 3. Используя уровень значимости, равный 0,05, находим, что критическое значение χ 2 -статистики, имеющее три степени свободы =ХИ2.ОБР(1-0,05;F3) = 7,815. Вычисления, связанные с применением χ 2 -критерия согласия, приведены на рис. 7.

Видно, что χ 2 -статистика = 3,964 < χ U 2 7,815, следовательно гипотезу Н 0 отклонять нельзя. Иначе говоря, у нас нет оснований утверждать, что 5-летняя доходность инвестиционных фондов, ориентированных на быстрый рост, не подчиняется нормальному распределению.

В нескольких последних заметках рассмотрены разные подходы к анализу категорийных данных. Описаны методы проверки гипотез о категорийных данных, полученных на основе анализа двух или нескольких независимых выборок. Кроме критериев «хи-квадрат», рассмотрены непараметрические процедуры. Описан ранговый критерий Уилкоксона, который используется в ситуациях, когда не выполняются условия применения t -критерия для поверки гипотезы о равенстве математических ожиданий двух независимых групп, а также критерий Крускала-Уоллиса, который является альтернативой однофакторному дисперсионному анализу (рис. 8).

Рис. 8. Структурная схема методов проверки гипотез о категорийных данных

Используются материалы книги Левин и др. Статистика для менеджеров. – М.: Вильямс, 2004. – с. 763–769

В практике биологических исследований часто бывает необ­ходимо проверить ту или иную гипотезу, т. е. выяснить, насколь­ко полученный экспериментатором фактический материал под­тверждает теоретическое предположение, насколько анализиру­емые данные совпадают с теоретически ожидаемыми. Возника­ет задача статистической оценки разницы между фактическими данными и теоретическим ожиданием, установления того, в ка­ких случаях и с какой степенью вероятности можно считать эту разницу достоверной и, наоборот, когда ее следует считать не­существенной, незначимой, находящейся в пределах случайнос­ти. В последнем случае сохраняется гипотеза, на основе кото­рой рассчитаны теоретически ожидаемые данные или показа­тели. Таким вариационно-статистическим приемом проверки гипо­тезы служит метод хи-квадрат (χ 2). Этот показатель часто на­зывают «критерием соответствия» или «критерием согласия» Пирсона. С его помощью можно с той или иной вероятностью судить о степени соответствия эмпирически полученных данных теоретически ожидаемым.

С формальных позиций сравниваются два вариационных ряда, две совокупности: одна – эмпирическое распределение, другая представляет собой выборку с теми же параметрами (n , M , S и др.), что и эмпирическая, но ее частотное распределение построено в точном соответствии с выбранным теоретическим законом (нормальным, Пуассона, биномиальным и др.), которому предположительно подчиняется поведение изучаемой случайной величины.

В общем виде формула критерия соответствия может быть записана следующим образом:

где a – фактическая частота наблюдений,

A – теоретически ожидаемая частота для данного класса.

Нулевая гипотеза предполагает, что достоверных различий между сравниваемыми распределениями нет. Для оценки существенности этих различий следует обра­титься к специальной таблице критических значений хи-квад­рат (табл. 9П ) и, сравнив вычисленную величину χ 2 с табличной, решить, достоверно или не достоверно отклоня­ется эмпирическое распределение от теоретического. Тем самым гипотеза об отсутствии этих различий будет либо опровергнута, либо оставлена в силе. Если вычисленная величина χ 2 равна или превышает табличную χ ² (α , df ) , решают, что эмпирическое распределение от теоретического отличается достоверно. Тем самым гипотеза об отсутствии этих различий будет опровергнута. Если же χ ² < χ ² (α , df ) , нулевая гипотеза остается в силе. Обычно принято считать допустимым уро­вень значимости α = 0.05, т. к. в этом случае остается только 5% шансов, что нулевая гипотеза правильна и, следовательно, есть достаточно оснований (95%), чтобы от нее отказаться.


Определенную проблему составляет правильное определение числа степеней свободы (df ), для которых из таблицы берут значения критерия. Для определения числа степеней свободы из общего числа классов k нужно вычесть число ограничений (т. е. число параметров, использованных для расчета теоретических частот).

В зависимости от типа распределения изучаемого признака формула для расчета числа степеней свободы будет меняться. Для альтернативного распределения (k = 2) в расчетах участвует только один параметр (объем выборки), следовательно, число степеней свободы составляет df = k −1=2−1=1. Для полиномиального распределения формула аналогична: df = k −1. Для проверки соответствия вариационного ряда распределению Пуассона используются уже два параметра – объем выборки и среднее значение (числен­но совпадающее с дисперсией); число степеней свободы df = k −2. При проверке соответ­ствия эмпирического распределения вариант нормальному или биномиальному закону число степеней свободы берется как число фактических классов минус три условия построения рядов – объем выборки, сред­няя и дисперсия, df = k −3. Сразу стоит отметить, что критерий χ² работает только для выборок объемом не менее 25 вариант , а частоты отдельных классов должны быть не ниже 4 .

Вначале проиллюстрируем применение критерия хи-квадрат на примере анали­за альтернативной изменчивости . В одном из опытов по изуче­нию наследственности у томатов было обнаружено 3629 крас­ных и 1176 желтых плодов. Теоретическое соотношение частот при расщеплении признаков во втором гибридном поколении должно быть 3:1 (75% к 25%). Выполняется ли оно? Иными словами, взята ли данная выборка из той генеральной совокупности, в которой соотношение частот 3:1 или 0.75:0.25?

Сформируем таблицу (табл. 4), заполнив значениями эмпирических частот и результатами расчета теоретических частот по формуле:

А = n∙p,

где p – теоретические частости (доли вариант данного типа),

n – объем выборки.

Например, A 2 = n∙p 2 = 4805∙0.25 = 1201.25 ≈ 1201.

Данный пост не отвечает, как в принципе считать критерий Хи квадрат, его цель - показать, как можно автоматизировать расчет Хи квадрат в excel , какие функции для расчета критерия Хи квадрат там есть. Ибо не всегда под рукой есть SPSS или программа R .
В каком-то смысле это напоминалка и подсказка участникам семинара Аналитика для HR , надеюсь вы используете эти методы в работе, этот пост будет еще одной подсказкой.
Я не даю файл ссылкой на скачивание, но вы вполне можете просто скопировать приведенные мной таблицы примеров и провести по приведенным мной данным и формулам

Вводная

Например, мы хотим проверить независимость (случайность / неслучайность) распределения результатов корпоративного опроса, где в строках ответы на какой либо вопрос анкеты, а в столбцах - распределение по стажу.

На вычисление Хи квадрат вы выходите через сводную таблицу, когда ваши данные сведены в таблицу сопряжения, например в таком виде
Таблица №1

менее 1 года

Сумма по строкам

Сумма по столбцам

Для вычисления Хи квадрат в excel существуют следующие формулы

ХИ2.ТЕСТ

Формула ХИ2.ТЕСТ вычисляет вероятность независимости (случайность / неслучайность) распределения

Синаксис такой

ХИ2.ТЕСТ(фактический_интервал,ожидаемый­­_интервал)

В нашем случае фактический интервал это содержимое таблицы, т.е.

Т.е. получив две таблицы - эмпирических и ожидаемых (или теоретических частот) - мы фактически снимаем с себя работу по получению разницы, возведению в квадрат и прочим вычислениям, а также сверки с таблицей критических значений.

В нашем случае ХИ2.РАСП.ПХ = 0,000466219908895455, как и в примере с ХИ2.ТЕСТ

Примечание

Эта формула вычисления Хи квадрат в excel подойдет вам для вычисления таблиц размерностью 2Х2, поскольку вы сами считаете Хиквадрат эмпирическое и можете ввести в расчеты поправку на непрерывность

Примечание 2

Есть также формула ХИ2.РАСП (вы с неизбежностью увидите ее в excel) - она считает левостороннюю вероятность (если по простому, то левосторонняя считается как 1 - правосторонняя, т.е. мы просто переворачиваем формулу, поэтому я и не даю ее в расчетах Хи квадрат, в нашем примере ХИ2.РАСП = 0,999533780091105.
Итого ХИ2.РАСП + ХИ2.РАСП.ПХ = 1.

ХИ2.ОБР.ПХ

Возвращает значение, обратное правосторонней вероятности распределения хи-квадрат (или просто значение Хи квадрат для определенного уровня вероятности и количества степеней свободы)

Синаксис

ХИ2.ОБР.ПХ(вероятность;степени_свободы)

Заключение

Честно признаюсь, не владею точной информацией, насколько полученные результаты вычисления Хи квадрат в excel отличаются от результатов вычисления Хи квадрат в SPSS. Точно понимаю. что отличаются, хотя бы потому, что при самостоятельном вычислении Хи квадрат значения округляются и теряется какое-то количество знаков после запятой. Но не думаю, что это является критичным. Рекомендую лишь страховаться в том случае, когда вероятность распределения Хи квадрат близко к порогу (p-value) 0, 05.

Не очень здорово, что не учитывается поправка на непрерывность - у нас многое вычисляется в таблицах 2Х2. Поэтому мы почти не достигаем оптимизации в случае расчета таблиц 2Х2

Ну и тем не менее, думаю, что приведенных знаний достаточно, чтобы сделать вычисление Хи квадрат в excel чуть быстрее, чтобы сэкономить время на более важные вещи

Назначение критерия χ 2 - критерия Пирсона Критерий χ 2 применяется в двух целях: 1) для сопоставления эмпирического распределения признака с теоретическим - равномерным, нормальным или каким-то иным; 2) для сопоставления двух, трех или более эмпирических распределений одного и того же признака. Описание критерия Критерий χ 2 отвечает на вопрос о том, с одинаковой ли частотой встречаются разные значения признака в эмпирическом и теоретическом распределениях или в двух и более эмпирических распределениях. Преимущество метода состоит в том, что он позволяет сопоставлять распределения признаков, представленных в любой шкале, начиная от шкалы наименований. В самом простом случае альтернативного распределения "да - нет", "допустил брак - не допустил брака", "решил задачу - не решил задачу" и т. п. мы уже можем применить критерий χ 2 . Чем больше расхождение между двумя сопоставляемыми распределениями, тем больше эмпирическое значение χ 2 . Автоматический расчет χ 2 - критерия Пирсона Чтобы произвести автоматический расчет χ 2 - критерия Пирсона, необходимо выполнить действия в два шага: Шаг 1 . Указать количество эмпирических распределений (от 1 до 10); Шаг 2 . Занести в таблицу эмпирические частоты; Шаг 3 . Получить ответ.

Достоинством критерия Пирсона является его универсальность: с его помощью можно проверять гипотезы о различных законах распределения.

1. Проверка гипотезы о нормальном распределении.

Пусть получена выборка достаточно большого объема п с большим количеством различных значений вариант. Для удобства ее обработки разделим интервал от наименьшего до наибольшего из значений вариант на s равных частей и будем считать, что значения вариант, попавших в каждый интервал, приближенно равны числу, задающему середину интервала. Подсчитав число вариант, попавших в каждый интервал, составим так называемую сгруппированную выборку:

варианты………..х 1 х 2 … х s

частоты………….п 1 п 2 … п s ,

где х i – значения середин интервалов, а п i – число вариант, попавших в i -й интервал (эмпирические частоты).



По полученным данным можно вычислить выборочное среднее и выборочное среднее квадратическое отклонение σ В . Проверим предположение, что генеральная совокупность распределена по нормальному закону с параметрами M (X ) = , D (X ) = . Тогда можно найти количество чисел из выборки объема п , которое должно оказаться в каждом интервале при этом предположении (то есть теоретические частоты). Для этого по таблице значений функции Лапласа найдем вероятность попадания в i -й интервал:

,

где а i и b i - границы i -го интервала. Умножив полученные вероятности на объем выборки п, найдем теоретические частоты: п i =n·p i .Наша цель – сравнить эмпирические и теоретические частоты, которые, конечно, отличаются друг от друга, и выяснить, являются ли эти различия несущественными, не опровергающими гипотезу о нормальном распределении исследуемой случайной величины, или они настолько велики, что противоречат этой гипотезе. Для этого используется критерий в виде случайной величины

. (20.1)

Смысл ее очевиден: суммируются части, которые квадраты отклонений эмпирических частот от теоретических составляют от соответствующих теоретических частот. Можно доказать, что вне зависимости от реального закона распределения генеральной совокупности закон распределения случайной величины (20.1) при стремится к закону распределения (см. лекцию 12) с числом степеней свободы k = s – 1 – r , где r – число параметров предполагаемого распределения, оцененных по данным выборки. Нормальное распределение характеризуется двумя параметрами, поэтому k = s – 3. Для выбранного критерия строится правосторонняя критическая область, определяемая условием

(20.2)

где α – уровень значимости. Следовательно, критическая область задается неравенством а область принятия гипотезы - .

Итак, для проверки нулевой гипотезы Н 0: генеральная совокупность распределена нормально – нужно вычислить по выборке наблюдаемое значение критерия:

, (20.1`)

а по таблице критических точек распределения χ 2 найти критическую точку , используя известные значения α и k = s – 3. Если - нулевую гипотезу принимают, при ее отвергают.

2. Проверка гипотезы о равномерном распределении.

При использовании критерия Пирсона для проверки гипотезы о равномерном распределении генеральной совокупности с предполагаемой плотностью вероятности

необходимо, вычислив по имеющейся выборке значение , оценить параметры а и b по формулам:

где а* и b* - оценки а и b . Действительно, для равномерного распределения М (Х ) = , , откуда можно получить систему для определения а* и b *: , решением которой являются выражения (20.3).

Затем, предполагая, что , можно найти теоретические частоты по формулам

Здесь s – число интервалов, на которые разбита выборка.

Наблюдаемое значение критерия Пирсона вычисляется по формуле (20.1`), а критическое – по таблице с учетом того, что число степеней свободы k = s – 3. После этого границы критической области определяются так же, как и для проверки гипотезы о нормальном распределении.

3. Проверка гипотезы о показательном распределении.

В этом случае, разбив имеющуюся выборку на равные по длине интервалы, рассмотрим последовательность вариант , равноотстоящих друг от друга (считаем, что все варианты, попавшие в i – й интервал, принимают значение, совпадающее с его серединой), и соответствующих им частот n i (число вариант выборки, попавших в i – й интервал). Вычислим по этим данным и примем в качестве оценки параметра λ величину . Тогда теоретические частоты вычисляются по формуле

Затем сравниваются наблюдаемое и критическое значение критерия Пирсона с учетом того, что число степеней свободы k = s – 2.