kaipa: (Default)
kaipa ([personal profile] kaipa) wrote2012-06-08 02:11 am

Averages lie

Averages lie -- это один из лейтмотивов работы со статистическими данными. Выиграть на высококонкурентном рынке интернет рекламы можно только в том случае, если находить те ниши, где поведение рекламных кампаний отличается от среднего.

Сегодня произошел интересный разговор. Началось все с невинной картинки:


На что [livejournal.com profile] _fog вспомнил классика: "Если мой сосед бьет жену каждый день, а я никогда, то статистически мы с ним бьем своих жен в среднем каждый второй день". (Бернард Шоу)

Другой наш коллега поддержал, что, строго говоря, в среднем, Бернард Шоу был своей женой каждый второй день.

Такой неожиданный, хотя совершенно логичный, поворот с точки зрения американцев неполиткорректен, поэтому дальнейшего развития интереснейшая тема не получила. А жаль.

На самом деле все серьезно. Если даже в таких простых примерах можно довести до абсурда, то в моделях, где каждое событие имеет несколько десятков случайных параметров, тем более. Хотя это и менее очевидно.

[identity profile] fat-crocodile.livejournal.com 2012-06-07 11:28 pm (UTC)(link)
Ну так поэтому кроме среднего есть ещё какие-то показатели. Есть распределения с несколькими пиками...
Среднее работает только если нам что-то известно про распределение.

[identity profile] ushastyi.livejournal.com 2012-06-08 09:00 am (UTC)(link)
Проблема еще и в том, хотя примерами выше она и не иллюстрируется, то если распределение зависит от многих переменных, то "в общем" оно может быть и не самым плохим, предельные теоремы и закон больших чисел никто не отменял, но частичные распределения могут вести себя самым странным образом. А это совершенно не очевидно для многих.

[identity profile] imageman72.livejournal.com 2012-06-08 07:12 am (UTC)(link)
Да, усреднять просто, но не всегда хорошо.

Как раз на днях прочитал новость: "На основе одной из основных теорем теории вероятности — теоремы Байеса — ученые разработали алгоритм, который назвали HARM (Hierarchical Association Rule Model). HARM "смотрит", чем ранее болел пациент, а также сравнивает его данные с историями болезни, в которых содержатся аналогичные симптомы. После этого алгоритм предсказывает, чем заболеет пациент в будущем." Подробнее http://medportal.ru/mednovosti/news/2012/06/04/harm/

Вроде молодцы? Это хоть и "усреднение", но не простое. (Я правильно понял?)

[identity profile] ushastyi.livejournal.com 2012-06-08 07:45 am (UTC)(link)
Нет, не совсем. Не читая статью, могу предположить, что суть в том, что есть так называемые условные вероятности, то есть вероятность события А, при условии, что произошло событие Б. Зная историю болезни, можно с некоторой вероятностью просчитать, что произойдет дальше, на основе статистики других пациентов. Это не усреднение, это предсказание, построенное на некоторой статистической модели. Вообще говоря, теорема Байеса играет здесь примерно ту же роль, что операции сложения или умножения. Все гораздо сложнее. Но с журналистов -- что взять.

[identity profile] fat-crocodile.livejournal.com 2012-06-08 01:31 pm (UTC)(link)
там байесовская сеть, скорее всего.

[identity profile] ushastyi.livejournal.com 2012-06-08 01:41 pm (UTC)(link)
Да, очень похоже