Таблицы непредвиденных обстоятельств¶

Рейтинг: 4.6 из 5
Автор
Вадим Соколов
Рейтинг автора
4.6

statsmodels поддерживает множество подходов к анализу таблиц непредвиденных обстоятельств, включая методы оценки независимости, симметрии, однородности и методы работы с коллекциями таблиц из стратифицированной совокупности.

Описанные здесь методы в основном предназначены для двусторонних таблиц. Многосторонние таблицы можно анализировать с помощью лог-линейных моделей. statsmodels в настоящее время не имеет специального API для логлинейного моделирования, но для этой цели можно использовать регрессию Пуассона в statsmodels.genmod.GLM.

Таблица непредвиденных обстоятельств - это многосторонняя таблица, которая описывает набор данных, в котором каждое наблюдение относится к одной категории для каждой из нескольких переменных. Например, если есть две переменные, одна с уровнями \ (r \) и одна с уровнями \ (c \), то у нас есть таблица непредвиденных обстоятельств \ (r \ times c \). Таблицу можно описать с точки зрения количества наблюдений, попадающих в данную ячейку таблицы, например \ (T_ \) - количество наблюдений, которые имеют уровень \ (i \) для первой переменной и уровень \ (j \) для второй переменной. Обратите внимание, что каждая переменная должна иметь конечное количество уровней (или категорий), которые могут быть упорядоченными или неупорядоченными. В различных контекстах переменные, определяющие оси таблицы непредвиденных обстоятельств, могут называться категориальными переменнымиили факторными переменными. Они могут быть номинальными(если их уровни неупорядочены) или порядковыми(если их уровни упорядочены).

Базовая совокупность для таблицы непредвиденных обстоятельств описываетсятаблицей распределения\ (P_ \). Элементы \ (P \) являются вероятностями, а сумма всех элементов в \ (P \) равна 1. Методы анализа таблиц непредвиденных обстоятельств используют данные в \ (T \), чтобы узнать о свойствах \ (P \) .

Statsmodels.stats.Table - это самый простой класс для работы с таблицами непредвиденных обстоятельств. Мы можем создать объект Table непосредственно из любого объекта, подобного прямоугольному массиву, содержащего количество ячеек таблицы непредвиденных обстоятельств:

В качестве альтернативы мы можем передать необработанные данные и позволить классу Table построить за нас массив подсчета ячеек:

Независимость¶

Независимость- это свойство, при котором факторы строки и столбца встречаются независимо.Ассоциация- это отсутствие независимости. Если совместное распределение является независимым, его можно записать как внешнее произведение маргинальных распределений строк и столбцов:

Мы можем получить наиболее подходящее независимое распределение для наших наблюдаемых данных, а затем просмотреть остатки, которые идентифицируют определенные клетки, которые наиболее сильно нарушают независимость:

В этом примере по сравнению с выборкой из популяции, в которой строки и столбцы независимы, у нас слишком много наблюдений в ячейках плацебо / отсутствие улучшений и лечения / отмеченных улучшений, и слишком мало наблюдений в группе плацебо / отмеченных улучшений и леченных. / без улучшения ячеек. Это отражает очевидные преимущества лечения.

Если строки и столбцы таблицы неупорядочены (т. Е. Являются номинальными факторами), то наиболее распространенным подходом для формальной оценки независимости является использование статистики Пирсона \ (\ chi ^ 2 \). Часто бывает полезно посмотреть на вклад ячеек в статистику \ (\ chi ^ 2 \), чтобы увидеть, откуда берутся доказательства зависимости.

Для таблиц с упорядоченными факторами строк и столбцов мы можем использоватьлинейныйтест налинейнуюассоциацию, чтобы получить больше возможностей против альтернативных гипотез, которые уважают порядок. Статистика теста для линейного теста на линейную ассоциацию:

где \ (r_i \) и \ (c_j \) - оценки строк и столбцов. Часто эти оценки устанавливаются в последовательности 0, 1,…. Это дает «тест тенденции Кокрана-Армитиджа».

Мы можем оценить связь в таблице \ (r \ times x \), построив серию таблиц \ (2 \ times 2 \) и вычислив их отношения шансов. Есть два способа сделать это.Местные отношения шансовконструкция \ (2 \ 2 раза \) таблицы из соседних строк и столбцов категорий.

Кумулятивные отношения шансовконструкция \ (2 \ 2 раза \) таблицы по дихотомическим строкам и столбцов коэффициентов в каждой возможной точке.

Мозаичный график - это графический подход к неформальной оценке зависимости в двусторонних таблицах.

Симметрия и однородность¶

Симметрия- это свойство \ (P_ = P_ \) для любых \ (i \) и \ (j \). Однородность- это свойство, при котором предельное распределение фактора строки и фактора столбца идентичны, что означает, что

Обратите внимание, что для применения этих свойств таблица \ (P \) (и \ (T \)) должна быть квадратной, а категории строк и столбцов должны быть идентичными и располагаться в одном порядке.

Чтобы проиллюстрировать это, мы загружаем набор данных, создаем таблицу непредвиденных обстоятельств и вычисляем поля строки и столбца. Класс Table содержит методы для анализа таблиц непредвиденных обстоятельств \ (r \ times c \). Набор данных, загруженный ниже, содержит оценки остроты зрения левого и правого глаза людей. Сначала мы загружаем данные и создаем таблицу непредвиденных обстоятельств.

Затем мы создаем объект SquareTable из таблицы непредвиденных обстоятельств.

Сводный метод распечатывает результаты процедур проверки симметрии и однородности.

Если бы у нас были записи отдельных случаев во фрейме данных, называемом data, мы также могли бы выполнить такой же анализ, передав необработанные данные с помощью метода класса SquareTable.from_data.

Одиночный стол 2х2¶

В классе sm.stats.Table2x2 предусмотрено несколько методов работы с отдельными таблицами 2x2. Метод сводки отображает несколько показателей связи между строками и столбцами таблицы.

Обратите внимание, что соотношение рисков не является симметричным, поэтому при анализе транспонированной таблицы будут получены разные результаты.

Стратифицированные таблицы 2x2¶

Стратификация происходит, когда у нас есть набор таблиц непредвиденных обстоятельств, определенных одними и теми же факторами строки и столбца. В приведенном ниже примере у нас есть набор таблиц 2x2, отражающих совместное распределение курения и рака легких в каждом из нескольких регионов Китая. Возможно, что все таблицы имеют общее отношение шансов, даже если предельные вероятности различаются между слоями. Процедура «Бреслоу-Дэй» проверяет, соответствуют ли данные общепринятому отношению шансов. Ниже он отображается как Тест постоянного ИЛИ. Процедура Mantel-Haenszel проверяет, равно ли это обычное отношение шансов единице. Он отображается ниже как Тест ИЛИ = 1. Также возможно оценить общие шансы и отношения рисков и получить для них доверительные интервалы. Сводный метод отображает все эти результаты.Индивидуальные результаты можно получить из методов и атрибутов класса.

Справочник по модулю¶

Двусторонняя таблица непредвиденных обстоятельств.

Анализы, которые могут быть выполнены на таблице непредвиденных обстоятельств 2x2.

Методы анализа квадратной таблицы непредвиденных обстоятельств.

Анализ для набора таблиц непредвиденных обстоятельств 2x2.

макнемар (таблица [, точное, исправление])

Тест однородности Макнемара.

Q-критерий Кохрана для идентичных биномиальных пропорций.

Смотрите также¶

Scipy имеет несколько функций для анализа таблиц непредвиденных обстоятельств, включая точный тест Фишера, которого в настоящее время нет в статистических моделях.

Новости спорта

Изначально сайт создавался для пользователей со всех стран мира. Международный домен ориентирован на самых разных пользователей. Страницы сайта переведены на 46 языков, среди которых есть и азербайджанский. Это выгодно выделяет платформу на фоне конкурентов, так как многие из них либо не работают на территории данной страны, либо не имеют местной локализации.

Больше новостей