Создание гистограмм с доверительными интервалами

Рейтинг: 4.6 из 5
Автор
Вадим Соколов
Рейтинг автора
4.6

Я заметил, что многие люди хотят иметь возможность рисовать гистограммы с доверительными интервалами. Эта тема часто публикуется на дискуссионном форуме SAS / GRAPH и ODS Graphics, а также в списке рассылки SAS-L. Следовательно, в этом посте описывается, как добавлять полосы ошибок на гистограмму.

Но у частот нет доверительных интервалов.

Когда я слышу слова «доверительные интервалы на гистограмме», я на мгновение теряю замешательство. Я думаю о гистограммах как о графической сводке частот (количества) для каждой из нескольких категорий. Я использую гистограммы, чтобы построить количество выборок, например, количество мужчин и женщин или процентное соотношение людей в различных политических партиях. На этих графиках нет планок погрешностей.

Но бизнес-аналитики также используют гистограммы для отображения средних величин, такие как следующий график из процедуры SGPLOT, который показывает средний пробег автомобилей, произведенных в Азии, Европе или США:

Следующие операторы создают график из данных SASHelp.Cars, которые распространяются с SAS:

Обратите внимание, что оператор VBAR создает гистограмму (с дополнительными пределами достоверности) из необработанных (не обобщенных) данных. Создать сюжет так же просто, как 1-2-3:

  1. Используйте оператор VBAR, чтобы указать категориальную переменную. (Вы также можете использовать оператор HBAR для создания горизонтальной гистограммы.) Уровни этой переменной образуют категории для столбцов. Например, переменная «Происхождение» имеет значения «Азия», «Европа» и «США».
  2. Используйте опции RESPONSE = и STAT = MEAN для определения переменной Y. Например, RESPONSE = MPG_City указывает, что ось Y будет содержать средние значения переменной MPG_City для каждой категории.
  3. Используйте параметр LIMITSTAT =, чтобы указать «полосы ошибок» для гистограммы. Например, LIMITSTAT = CLM отображает 95% доверительные интервалы для средних значений.

Гистограммы для предварительно обобщенных данных

Гистограмма - это графическое представление простой таблицы, которую можно создать с помощью PROC MEANS:

В некоторых ситуациях у вас может не быть исходных данных, а есть только обобщенные данные, например, содержащиеся в таблице. В этом случае вы можете использовать оператор SAS 9.3 VBARPARM для создания того же графика:

Оператор VBARPARM позволяет наносить на график любые количества, а не только средние значения и доверительные границы. Например, вы можете вычислить медианные значения и доверительные интервалы для медиан и построить график этих величин с помощью оператора VBARPARM.

Стоит ли вообще использовать гистограмму для отображения средних значений и КЭ?

Я показал, как можно использовать процедуру SGPLOT для создания гистограмм, отображающих средние значения и доверительные интервалы категорий. Однако это не обязательно лучший способ отображения этой информации. В большинстве случаев я предпочитаю диаграмму рассеяния с полосами ошибок (также называемую точечной диаграммой), как показано ниже:

Гистограмма всегда начинается с нуля, но если средние значения исчисляются сотнями (или миллионами!), Вы, вероятно, не захотите использовать гистограмму для отображения средних значений. Вы можете создать точечную диаграмму с помощью оператора DOT, который имеет те же параметры, что и оператор VBAR. Я использовал точечный график для отображения средних значений и доверительных интервалов задержек авиакомпаний.

Если данные суммированы, вы можете использовать оператор SCATTER с параметрами XERRORLOWER = и XERRORUPPER = для создания аналогичного графика. Это полезно, когда есть много категорий. Если категорий несколько, как в данном случае, вы также можете разместить категории на горизонтальной оси:

Об авторе

  • Интернет сайт
  • Твиттер

Рик Виклин, доктор философии, является выдающимся исследователем вычислительной статистики в SAS и основным разработчиком программного обеспечения SAS / IML. Его области знаний включают вычислительную статистику, моделирование, статистические графики и современные методы статистического анализа данных. Рик является автором книг « Статистическое программирование с помощью программного обеспечения SAS / IML» и « Моделирование данных с помощью SAS» .

12 комментариев

Гистограммы с доверительными интервалами также известны как «динамитные графики» по двум причинам: 1) они выглядят как старые динамитные штучки в мультфильмах и 2) они опасны. См. Http://biostat.mc.vanderbilt.edu/twiki/pub/Main/TatsukiRcode/Poster3.pdf для хорошего объяснения того, почему они плохие. Этот сайт предлагает либо ленточные диаграммы (если N не слишком велико), либо параллельные ящичные диаграммы; Согласен. Они предоставляют дополнительную информацию.

Для более красивого графика SAS вы также можете использовать proc gchart: http://sas-and-r.blogspot.com/2011/11/example-915-bar-chart-with-error-bars.html, где мы также покажите хороший сюжет из пакета R.

Я пытался сделать интервальный график и график попарного сравнения в книге KNNL, глава 17, и очень долго искал для этого код SAS. И ваш блог действительно очень помогает. Спасибо.

Спасибо, Рик. Могу я спросить гистограмму ошибок с 95% -ным доверительным интервалом для относительного риска или отношения шансов, которая также часто используется в исследованиях здоровья. Применяются ли в этом контексте те же коды. Фахрул

да. Вы можете использовать идеи и код из раздела для предварительно обобщенных данных. Однако я рекомендую использовать точечный график (показанный в конце сообщения) для отображения относительного риска и отношения шансов. Я также рекомендую добавить контрольную линию при RR = 1, чтобы было ясно, включает ли доверительный интервал RR 1.

Большое спасибо, Рик. Фахрул

Вы знаете, как убрать маленькую отметку в конце линии шкалы ошибок? Я думаю, что без него это выглядит намного лучше.

Я также заинтересован в добавлении меток данных к точке, если это можно сделать.

Здесь показаны три подхода. Найдите в документации инструкции VBAR, VBARPARM и DOT. Я думаю, что оператор DOT поддерживает параметр NOERRORCAPS. Да, вы можете добавлять ярлыки. Задавайте подобные вопросы в сообществе поддержки графики ODS.

Я думаю, вы ошибаетесь. Конечно, у частот есть уверенные интервалы. Частоты - это оценка вероятности появления того класса, количество появлений которого в выборке привело к вычисленной частоте. Выборка является случайной, и поэтому оценка по выборке также является случайной. Интервал Клоппера-Пирсона используется для вычисления верхней и нижней границы доверительного интервала для оцененной вероятности.

Если у вас есть дихотомическая переменная, то описательной статистикой вашей конкретной выборки является частота. Однако, если вы хотите обобщить свой результат на всю совокупность, тогда вы принимаете частоту как оценку вероятности. Это значение является случайным, и в качестве меры неопределенности следует указать доверительный интервал, который является интервалом Клоппера-Пирсона.

Если у вас есть метрическая переменная, то описательная статистика вашей конкретной выборки является средним значением. Однако, если вы хотите обобщить свой результат для всей совокупности, вы принимаете среднее значение в качестве оценки ожидаемого значения. Это значение является случайным, и в качестве меры неопределенности должен быть указан доверительный интервал. Для значений нормального распределения с неизвестной дисперсией они рассчитываются с помощью квантилей распределения Стьюдента.

Частоты, а также нижняя и верхняя границы интервала Клоппера-Пирсона всегда положительны. Поэтому имеет смысл использовать гистограмму с добавленным доверительным интервалом.

Значит, и там нижняя и верхняя границы доверительного интервала могут быть отрицательными или положительными или охватывающими ноль, там может быть лучше использовать точечный график.

Спасибо за письмо. Да, я понимаю, о чем вы говорите. Извините, если я не понял. Я думаю, что во втором абзаце я пытался передать то, что большинство людей используют гистограмму для отображения эмпирических (наблюдаемых) подсчетов. Как вы правильно заметили, CI предназначены для базового параметра совокупности, а не для выборки. Если ваша аудитория поймет разницу, вы можете использовать гистограмму для отображения ожидаемых количеств (которые часто не являются целыми числами) и CI.

Суть статьи в том, что многие люди используют гистограмму для отображения средних значений и КЭ. Вместо этого я предлагаю использовать точечный график. В дополнение к аргументам, которые я привел, Питер Флом в первом комментарии ссылается на плакат Тацуки Коямы, который содержит дополнительные причины избегать гистограммы с полосами ошибок, когда вашей целью является визуализация неопределенности в оценке среднего (или пропорция).

Новости спорта

Изначально сайт создавался для пользователей со всех стран мира. Международный домен ориентирован на самых разных пользователей. Страницы сайта переведены на 46 языков, среди которых есть и азербайджанский. Это выгодно выделяет платформу на фоне конкурентов, так как многие из них либо не работают на территории данной страны, либо не имеют местной локализации.

Больше новостей