Автор
Вадим Соколов
Рейтинг автора
4.6

В своем сообщении от 1 апреля Пол Эллисон указал на несколько привлекательных свойств модели логистической регрессии. Но он не учел достоинства более старого и простого подхода: просто выполнял линейную регрессию с зависимой переменной 1-0. Как в социальных, так и в медицинских науках студентов почти всегда учат, что, когда переменная результата в регрессии является дихотомической, они должны использовать логистическую вместо линейной регрессии. Тем не менее, экономисты, безусловно, осведомленные о логистической регрессии, часто используют линейную модель для моделирования дихотомических результатов.

Какая вероятностная модель лучше: линейная или логистическая? Это зависит. Хотя есть ситуации, когда линейная модель явно проблематична, есть много общих ситуаций, когда линейная модель просто прекрасна и даже имеет преимущества.

Интерпретируемость

Начнем с явного сравнения двух моделей. Если результат Y является дихотомии со значениями 1 и 0, определим р = E ( Y | X ), который является только вероятность того, что Y 1, учитывая некоторое значение регрессоров X . Тогда линейная и логистическая вероятностные модели:

Линейная модель предполагает, что вероятность p является линейной функцией регрессоров, тогда как логистическая модель предполагает, что натуральный логарифм шансов p / (1- p ) является линейной функцией регрессоров.

Главное преимущество линейной модели - ее интерпретируемость. В линейной модели, если 1 является (скажем) +0,05, что означает , что увеличение одной единицы в X 1 ассоциирована с увеличением точки на 5 процент вероятности того, что Y равен 1. Почти каждый имеет некоторое представление о том, что это будет означать увеличение на 5 процентных пунктов их вероятности, скажем, проголосовать, или умереть, или стать страдающим ожирением.

Логистическая модель менее интерпретируема. В логистической модели, если b 1 равно 0,05, это означает, что увеличение X 1 на одну единицу связано с увеличением на 0,05 логарифмических шансов того, что Y равно 1. И что это означает? Я никогда не встречал никого, кто имел бы хоть какую-то интуицию в отношении шансов бревна.

Насколько интуитивно понятны отношения шансов?

Поскольку логарифмическую шкалу шансов трудно интерпретировать, результаты логистической регрессии обычно сообщаются как отношения шансов . Для этого возведем в степень обе части уравнения логистической регрессии и получим новое уравнение, которое выглядит следующим образом:

В левой части у нас есть шансы, а в правой части у нас есть произведение, включающее отношения шансовd1 = exp ( b 1 ), d 2 = exp ( b 2 ) и т. Д.

Кажется, что отношения шансов должны быть интуитивно понятными. Если d 1 = 2, например, это означает, что увеличение X 1 на одну единицу удваивает шансы того, что Y равно 1. Это звучит как то, что мы должны понять.

Но на самом деле мы не понимаем. Мы думаем, что понимаем шансы, потому что в повседневной речи мы используем слово «шансы» неопределенно и неформально. Журналисты обычно используют слово «шансы» как синонимы с множеством других слов, таких как «шанс», «риск», «вероятность» и «вероятность», - и ученые часто столь же небрежно интерпретируют результаты. Но в статистике эти слова не синонимы. Слово «шансы» имеет очень специфическое значение - p / (1-p) - как и отношение шансов.

Все еще думаете, что у вас есть интуиция относительно отношения шансов? Позвольте мне задать вам вопрос. Предположим, кампания по привлечению голосов может удвоить ваши шансы на голосование. Если ваша вероятность голосования до кампании составляла 40%, что будет после? 80%? Нет, это 57%.

Если вы ошиблись, не расстраивайтесь. У тебя много компании. И если вы все поняли правильно, держу пари, что вам нужно было выполнить некоторые вычисления в уме [1] или даже использовать калькулятор, прежде чем отвечать. Необходимость в арифметике должна сказать вам, что отношения шансов не интуитивно понятны.

Вот таблица, которая показывает, как удвоение шансов влияет на различные начальные вероятности:

Это не просто. Ближе всего к моей интуиции относительно отношения шансов я подошел к следующему: если p близко к 0, то удвоение шансов примерно то же самое, что удвоение p . Если p близко к 1, то удвоение шансов примерно такое же, как уменьшение вдвое 1- p . Но если p находится посередине - не слишком близко к 0 или 1 - тогда у меня действительно мало интуиции, и мне приходится прибегать к арифметике.

Вот почему я не без ума от отношения шансов.

Насколько нелинейна логистическая модель?

Логистическая модель неизбежна, если она намного лучше соответствует данным, чем линейная модель. А иногда и бывает. Но во многих ситуациях линейная модель подходит так же или почти так же хорошо, как логистическая модель. Фактически, во многих ситуациях линейная и логистическая модели дают результаты, которые практически неотличимы, за исключением того, что логистические оценки труднее интерпретировать (Hellevik 2007).

Чтобы логистическая модель соответствовала лучше линейной модели, логарифмические шансы должны быть линейной функцией от X , а вероятность - нет. И для того, чтобы это было правдой, взаимосвязь между вероятностью и логарифмическими шансами должна быть нелинейной. Но насколько нелинейна связь между вероятностью и логарифмическими шансами? Если вероятность находится между 0,20 и 0,80, то логарифмические шансы являются почти линейной функцией вероятности (см. Long 1997).

Только когда у вас действительно широкий диапазон вероятностей - скажем, от 0,01 до 0,99 - линейное приближение полностью не работает.

Когда истинные вероятности являются экстремальными, линейная модель может также давать предсказанные вероятности, которые больше 1 или меньше 0. Те выходящие за пределы предсказанные вероятности являются ахиллесовой пятой линейной модели.

Правило большого пальца

Эти соображения предполагают практическое правило. Если вероятности, которые вы моделируете, экстремальны - близки к 0 или 1, то вам, вероятно, придется использовать логистическую регрессию. Но если вероятности более умеренные - скажем, от 0,20 до 0,80 или немного выше - тогда линейная и логистическая модели подходят примерно одинаково, и следует отдавать предпочтение линейной модели из-за простоты ее интерпретации.

Обе ситуации возникают с некоторой частотой. Если вы моделируете вероятность голосования или избыточного веса, то почти все смоделированные вероятности будут между 0,20 и 0,80, и линейная вероятностная модель должна хорошо подходить и предлагать прямую интерпретацию. С другой стороны, если вы моделируете вероятность того, что банковская транзакция является мошеннической - как это делал я раньше, - моделируемые вероятности обычно находятся в диапазоне от 0,000001 до 0,20. В этой ситуации линейная модель просто нежизнеспособна, и вам придется использовать логистическую модель или другую нелинейную модель (например, нейронную сеть).

Имейте в виду, что у логистической модели есть свои проблемы, когда вероятность становится экстремальной. Логарифмические шансы ln [ p / (1- p )] не определены, когда p равно 0 или 1. Когда p приближается к 0 или 1, логистическая регрессия может страдать от полного разделения, квазиполного разделения и смещения редких событий ( Кинг и Цзэн, 2001). Эти проблемы реже возникают в больших выборках, но они часто возникают в маленьких. Пользователи должны знать о доступных средствах правовой защиты. См. Сообщение Пола Эллисона по этой теме.

Расчет и оценка

Интерпретируемость - не единственное преимущество линейной вероятностной модели. Еще одно преимущество - скорость вычислений. Подбор логистической модели по своей сути медленнее, потому что модель подбирается с помощью итеративного процесса с максимальной вероятностью. Медленность логистической регрессии незаметна, если вы подгоняете простую модель к небольшому или среднему набору данных. Но если вы подбираете очень сложную модель или очень большой набор данных, логистическая регрессия может быть удручающе медленной. [2]

Линейная вероятностная модель является быстрой по сравнению, поскольку ее можно без итеративно оценить с помощью обычного метода наименьших квадратов (МНК). OLS игнорирует тот факт, что модель линейной вероятности является гетероскедастической с остаточной дисперсией p (1- p ), но гетероскедастичность незначительна, если p находится между 0,20 и 0,80, что является ситуацией, когда я рекомендую использовать модель линейной вероятности вообще. . Оценки OLS можно улучшить с помощью стандартных ошибок, согласующихся с гетероскедастичностью, или взвешенных наименьших квадратов. По моему опыту, эти улучшения мало что меняют, но они быстрые и обнадеживающие.

Пол фон Хиппель - адъюнкт-профессор Школы общественных связей LBJ при Техасском университете, Остин, по специальности социология, демографические исследования, статистика и наука о данных.

использованная литература

Hellevik, O. (2007) Линейная регрессия по сравнению с логистической, когда зависимая переменная является дихотомией. Качество и количество , 43 (1), 59–74. http://doi.org/10.1007/s11135-007-9077-3

Кинг, Г. и Цзэн, Л. (2001) Логистическая регрессия в данных о редких событиях. Политический анализ , 9 (2), 137–163. http://doi.org/10.2307/25791637

Лонг, Дж. С. (1997) Модели регрессии для категориальных и ограниченно зависимых переменных (1-е изд.). Sage Publications, Inc.

[1] Вот моя мысленная арифметика. Вероятность 40% эквивалентна коэффициенту 2/3. Удвоение этих шансов дает шансы 4/3. А шансы 4/3 эквивалентны вероятности 4/7, которая в моей голове, как я полагал, была около 56%. Однако, когда я написал эту сноску, я проверил свою арифметику в уме с помощью Excel, который показал мне, что 4/7 составляет 57%.

[2] В текущей работе мы с коллегами используем иерархическую, пространственно коррелированную модель для оценки вероятности ожирения среди 376 576 взрослых примерно в 2400 округах США. Вычислительные методы требовательны, а переход от логистической модели к линейной вероятностной сократил время выполнения с нескольких дней до менее часа.

Новости спорта

Изначально сайт создавался для пользователей со всех стран мира. Международный домен ориентирован на самых разных пользователей. Страницы сайта переведены на 46 языков, среди которых есть и азербайджанский. Это выгодно выделяет платформу на фоне конкурентов, так как многие из них либо не работают на территории данной страны, либо не имеют местной локализации.

Больше новостей