kaipa: (Default)
kaipa ([personal profile] kaipa) wrote2012-06-08 02:11 am

Averages lie

Averages lie -- это один из лейтмотивов работы со статистическими данными. Выиграть на высококонкурентном рынке интернет рекламы можно только в том случае, если находить те ниши, где поведение рекламных кампаний отличается от среднего.

Сегодня произошел интересный разговор. Началось все с невинной картинки:


На что [livejournal.com profile] _fog вспомнил классика: "Если мой сосед бьет жену каждый день, а я никогда, то статистически мы с ним бьем своих жен в среднем каждый второй день". (Бернард Шоу)

Другой наш коллега поддержал, что, строго говоря, в среднем, Бернард Шоу был своей женой каждый второй день.

Такой неожиданный, хотя совершенно логичный, поворот с точки зрения американцев неполиткорректен, поэтому дальнейшего развития интереснейшая тема не получила. А жаль.

На самом деле все серьезно. Если даже в таких простых примерах можно довести до абсурда, то в моделях, где каждое событие имеет несколько десятков случайных параметров, тем более. Хотя это и менее очевидно.

[identity profile] fat-crocodile.livejournal.com 2012-06-07 11:28 pm (UTC)(link)
Ну так поэтому кроме среднего есть ещё какие-то показатели. Есть распределения с несколькими пиками...
Среднее работает только если нам что-то известно про распределение.

[identity profile] ushastyi.livejournal.com 2012-06-08 09:00 am (UTC)(link)
Проблема еще и в том, хотя примерами выше она и не иллюстрируется, то если распределение зависит от многих переменных, то "в общем" оно может быть и не самым плохим, предельные теоремы и закон больших чисел никто не отменял, но частичные распределения могут вести себя самым странным образом. А это совершенно не очевидно для многих.