Прогнозы по гольфу: введение в модель Data Golf

Рейтинг: 4.6 из 5
Автор
Вадим Соколов
Рейтинг автора
4.6

Гольф - спорт, который сложно предсказать. Data Golf потратил годы на оттачивание модели прогнозов игры в гольф, которая использует статистическое моделирование, чтобы помочь обеспечить более точное отражение результатов игрока. Как вы можете использовать статистику для прогнозов игры в гольф? Читай дальше что бы узнать.

На первый взгляд, прогнозирование такого вида спорта, как гольф, кажется сложным: обычно от 132 до 156 игроков соревнуются на игровых полях (то есть на полях для гольфа), которые могут сильно отличаться от турнира к турниру. Если цель - эффективно предсказать исход турниров по гольфу, с чего начать?

Ответ, на наш взгляд, лежит в области статистического моделирования. Статистическая модель описывает процесс создания набора данных (например, результатов в турнире по гольфу).

В этой статье мы описываем простую модель результатов игры в гольф и анализируем ее основные последствия для интерпретации данных по гольфу.

Прогнозы по гольфу: с чего начать?

В турнирах по гольфу важен не исходный счет игрока, а его результат относительно поля. 72 в турнире, где среднее значение поля составляет 74, будет считаться результатом на 4 удара лучше, чем 72, когда среднее значение поля составляет 70. Эта корректировка проблематична, если игроки в гольф, составляющие два поля турнира, не имеют одинакового качества (это момент, который мы пока проигнорирую).

После корректировки оценок относительно поля, которое далее мы будем называть просто «оценка», следующим шагом будет описание того, как эти оценки генерируются (т. Е. Построение модели).

  • Читайте: Как превзойти букмекеров на рынке больше / меньше

Во-первых, мы делаем предположение, которое значительно упрощает проблему: предположим, что оценки разных игроков в гольф на данном поле независимы, то есть результативность одного игрока в гольф ничего не говорит нам об игре другого.

Это сводит проблему прогнозирования результатов турниров по гольфу к множеству отдельных более простых задач: а именно, прогнозирование результатов каждого отдельного игрока в гольф.

Затем давайте определим способность игрока в гольф в каждый момент времени равняться его гипотетическому среднему баллу за бесконечно повторяющийся раунд игры в гольф. Например, способность Тайгера Вудса на Genesis Open определяется как его средний балл в Riviera Country Club по бесконечно большой выборке раундов. Хотя невозможно узнать значение этой величины, она полезна в качестве концептуального инструмента.

Результаты отдельных игроков в гольф значительно меняются с течением времени. Этот вариант можно рассматривать как состоящий из двух компонентов: изменения в способностях игрока в гольф и всеобъемлющего остаточного компонента, включающего все остальное, что влияет на результаты. Последнюю можно назвать «случайной» вариацией или, в зависимости от ваших философских предпочтений, вариацией оценок из-за «ненаблюдаемых факторов».

В определенный день оценка игрока в гольф определяется как сумма его способностей и влияния этих ненаблюдаемых факторов. Например, 65 баллов Тайгера Вудса в третьем раунде Genesis Open были на шесть ударов лучше, чем в среднем по игре; В нашей модели это можно описать как сумму способности Вудса (скажем, на два удара лучше, чем среднее значение по полю) и положительного четырехтактного случайного удара.

Чтобы завершить модель, мы используем последнее упрощающее предположение: предположим, что способности игроков в гольф фиксируются с течением времени. Если способности игрока в гольф фиксированы, из этого следует, что все изменения в оценках, которые мы наблюдаем с течением времени, происходят из-за того, что мы назвали «случайными» вариациями.

Основа модели прогнозов гольфа

Это может быть неочевидно, но мы только что полностью (хотя и неофициально) определили статистическую модель, которая описывает, как генерируются результаты турниров по гольфу. Вот модель в трех утверждениях:

  1. У каждого игрока в гольф есть фиксированная способность.
  2. Оценка каждого игрока в гольф относительно поля в данный день представляет собой комбинацию их способностей и случайных вариаций (то есть мифических «ненаблюдаемых факторов»).
  3. Относительные баллы игроков в гольф не зависят друг от друга.

Все результаты турнира по гольфу (например, победа, попадание) являются детерминированной функцией результатов каждого игрока в гольф по отношению к полю; поэтому эта модель дает нам описание любого желаемого результата турнира по гольфу.

Эта базовая установка модели служит полезной основой для размышлений о результатах игры в гольф; остальная часть этой статьи исследует некоторые из ее практических последствий.

Размер выборки всегда будет важен

Первым логическим шагом к применению этой модели является попытка оценить способности игроков в гольф. Предположим, что для отдельного игрока в гольф у нас есть историческая выборка результатов. Если этот образец достаточно велик, его среднее значение будет равно способностям игрока в гольф. Какой размер выборки можно считать «достаточно большим»?

Эмпирически для результатов игрока в гольф типичное стандартное отклонение составляет около 2,75 ударов. Если предположить, что они распределены нормально, 68% оценок будут в пределах 2,75 гребков от среднего, а 95% - в пределах 5,5 гребков. Используя основную статистическую теорию, мы можем быть в некоторой степени уверены, что среднее значение выборки из 100 раундов находится в пределах 0,275 ударов от способностей игрока в гольф.

В качестве контекста рассмотрим тот факт, что средние результаты за сезон, полученные 50-м и 100-м во всем мире гольфистами, разделены менее чем половиной удара. Это подводит нас к главному практическому следствию этой модели: чтобы сделать полезные выводы о способностях игроков в гольф, вам нужно полагаться на большие выборки исторических данных.

Согласно этой модели, различия в результатах, наблюдаемые между игроками в гольф в любую неделю, месяц или даже год, в основном связаны со случайными вариациями. Чтобы различать способности двух игроков в гольф в пределах 0,5 удара друг от друга, потребуется 100 или более раундов, чтобы уверенно разделить их.

Важно отметить, что это предположение стало возможным только на основе допущений нашей модели. И, возможно, в этой модели что-то не так. Возможно, способности игрока в гольф не фиксируются с течением времени, и, если взять обычно используемый пример, возможно, они также не фиксируются на разных полях для гольфа. Поэтому то, что мы довольно лениво назвали «ненаблюдаемыми факторами», на самом деле не может быть ненаблюдаемым!

Фиксированная способность или специфическая для курса способность?

При фиксированных способностях предполагается, что различия в игре гольфиста на разных курсах являются результатом случайных изменений; но в модели со способностями, зависящими от курса, этот разрыв в производительности, по крайней мере, частично отражает различия в способностях.

Это не просто семантическая разница. Степень, в которой, по вашему мнению, различия в производительности игроков в гольф на разных курсах обусловлены реальными различиями в способностях, а не случайными колебаниями, сильно влияет на то, как вы оцениваете их способности (и, в конечном итоге, на то, как вы формируете свои прогнозы).

Чем больше роль случайной вариации, тем больший размер выборки требуется для точной оценки способностей игрока в гольф. Если способности фиксированы, все вариации в оценках гольфиста случайны, и, следовательно, требуется очень большая выборка оценок для усреднения этой дисперсии.

  • Читайте: Как превзойти букмекеров на рынке больше / меньше

Тем не менее, в мире, в котором способности конкретного поля ответственны за большую часть наблюдаемых нами вариаций, возможно, что для получения разумных оценок способностей игрока, зависящих от курса, потребуются всего несколько раундов данных на соответствующем поле.

Какая модель ближе к реальности? Без формального анализа данных, на первый взгляд следует сделать вывод, что результаты игры в гольф генерируются процессом, который ближе к модели «фиксированных способностей», чем к модели «часто меняющихся способностей».

Придерживаясь примера способностей, зависящих от поля, обратите внимание, что вариации в счете игрока в гольф в течение турнира (т.е. от раунда к раунду на одном поле) лишь немного меньше, чем в целом (т. Е. По всем сыгранным раундам курсы).

Это наглядное свидетельство того, что факторы, помимо соответствия игрока гольф-полю, по-прежнему играют доминирующую роль в определении результатов игрока в гольф; и, как и раньше, подразумевается, что для раскрытия способности конкретного курса потребуются большие размеры выборки.

Влияние предвзятости выживания в гольфе

В общем, очень трудно объяснить (в статистическом смысле) огромные различия в результатах игроков в гольф с помощью наблюдаемых факторов (наблюдаемые следует понимать как «наблюдаемые до начала турнира»).

С другой стороны, соответствует ли модель «фиксированной способности» некоторым сбивающим с толку паттернам, которые мы видим в данных? Например, Тони Финау недавно пропустил свой четвертый подряд удар на Phoenix Open в рамках PGA Tour. Является ли это окончательным доказательством того, что у Финау меньше возможностей в TPC Scottsdale, чем где-либо еще? Возможно, но такие закономерности все равно проявились бы, если бы модель «фиксированных способностей» была верной.

Логика похожа на предвзятость выживаемости среди прогнозистов ставок. Несмотря на то, что вероятность того, что игрок в гольф уровня Финау может пропустить четыре последовательных удара, составляет 1 из 500, если вы рассмотрите все возможные комбинации полей для гольфа и игроков (которых тысячи), мы должны ожидать, что 1 из 500 событий не произойдет. нечасто в течение нескольких сезонов PGA Tour. Сосредоточение внимания на одном или двух примерах, игнорируя остальные, не даст точного портрета подходящего игрока.

Разработка этой простой модели прогнозов игры в гольф

Простая модель, изложенная в этой статье, полезна для понимания различных способов анализа результатов игры в гольф. По-видимому, очень разные философии, такие как модели фиксированных способностей и моделей способностей, зависящих от курса, могут быть проанализированы с помощью аналогичной структуры, что позволит четко обозначить недостатки и преимущества.

В этом случае ключевой компромисс, который следует признать, заключается в том, что чем меньше измерений вы позволяете варьировать способностям игроков в гольф, тем больше данных вам понадобится для оценки соответствующих количеств. Например, для оценки уникальных способностей игрока в гольф на каждом поле, играемом в рамках PGA Tour, в большинстве случаев будет доступно только 5-10 раундов.

И наоборот, чтобы оценить одну фиксированную способность каждого игрока в гольф, все их данные могут быть использованы для формирования оценки. Ни одна из этих философий по своей сути не лучше другой, и модель фиксированных способностей будет работать лучше, чем большую роль будут играть случайные вариации в определении результатов игры в гольф.

Наш подход к пониманию результатов игры в гольф более тесно связан с моделью фиксированных способностей. Хотя эта модель явно «ошибочна», ее способность рационализировать (и в конечном итоге предсказать) закономерности в результатах игры в гольф впечатляет.

В будущих статьях мы предоставим доказательства, подтверждающие это утверждение, а также исследуем множество способов улучшения этой простой модели. Если вы примете модель фиксированных способностей как разумное приближение к реальности, ее главный практический урок заключается в том, что невероятно легко, заимствуя фразу, «обмануть себя случайностью» при анализе данных в гольф.

Новости спорта

Изначально сайт создавался для пользователей со всех стран мира. Международный домен ориентирован на самых разных пользователей. Страницы сайта переведены на 46 языков, среди которых есть и азербайджанский. Это выгодно выделяет платформу на фоне конкурентов, так как многие из них либо не работают на территории данной страны, либо не имеют местной локализации.

Больше новостей