Averages lie
Jun. 8th, 2012 02:11 am![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
Averages lie -- это один из лейтмотивов работы со статистическими данными. Выиграть на высококонкурентном рынке интернет рекламы можно только в том случае, если находить те ниши, где поведение рекламных кампаний отличается от среднего.
Сегодня произошел интересный разговор. Началось все с невинной картинки:

На что
_fog вспомнил классика: "Если мой сосед бьет жену каждый день, а я никогда, то статистически мы с ним бьем своих жен в среднем каждый второй день". (Бернард Шоу)
Другой наш коллега поддержал, что, строго говоря, в среднем, Бернард Шоу был своей женой каждый второй день.
Такой неожиданный, хотя совершенно логичный, поворот с точки зрения американцев неполиткорректен, поэтому дальнейшего развития интереснейшая тема не получила. А жаль.
На самом деле все серьезно. Если даже в таких простых примерах можно довести до абсурда, то в моделях, где каждое событие имеет несколько десятков случайных параметров, тем более. Хотя это и менее очевидно.
Сегодня произошел интересный разговор. Началось все с невинной картинки:

На что
![[livejournal.com profile]](https://www.dreamwidth.org/img/external/lj-userinfo.gif)
Другой наш коллега поддержал, что, строго говоря, в среднем, Бернард Шоу был своей женой каждый второй день.
Такой неожиданный, хотя совершенно логичный, поворот с точки зрения американцев неполиткорректен, поэтому дальнейшего развития интереснейшая тема не получила. А жаль.
На самом деле все серьезно. Если даже в таких простых примерах можно довести до абсурда, то в моделях, где каждое событие имеет несколько десятков случайных параметров, тем более. Хотя это и менее очевидно.
no subject
Date: 2012-06-07 11:28 pm (UTC)Среднее работает только если нам что-то известно про распределение.
no subject
Date: 2012-06-08 09:00 am (UTC)no subject
Date: 2012-06-08 07:12 am (UTC)Как раз на днях прочитал новость: "На основе одной из основных теорем теории вероятности — теоремы Байеса — ученые разработали алгоритм, который назвали HARM (Hierarchical Association Rule Model). HARM "смотрит", чем ранее болел пациент, а также сравнивает его данные с историями болезни, в которых содержатся аналогичные симптомы. После этого алгоритм предсказывает, чем заболеет пациент в будущем." Подробнее http://medportal.ru/mednovosti/news/2012/06/04/harm/
Вроде молодцы? Это хоть и "усреднение", но не простое. (Я правильно понял?)
no subject
Date: 2012-06-08 07:45 am (UTC)no subject
Date: 2012-06-08 01:31 pm (UTC)no subject
Date: 2012-06-08 01:41 pm (UTC)