kaipa: (Default)
[personal profile] kaipa
Averages lie -- это один из лейтмотивов работы со статистическими данными. Выиграть на высококонкурентном рынке интернет рекламы можно только в том случае, если находить те ниши, где поведение рекламных кампаний отличается от среднего.

Сегодня произошел интересный разговор. Началось все с невинной картинки:


На что [livejournal.com profile] _fog вспомнил классика: "Если мой сосед бьет жену каждый день, а я никогда, то статистически мы с ним бьем своих жен в среднем каждый второй день". (Бернард Шоу)

Другой наш коллега поддержал, что, строго говоря, в среднем, Бернард Шоу был своей женой каждый второй день.

Такой неожиданный, хотя совершенно логичный, поворот с точки зрения американцев неполиткорректен, поэтому дальнейшего развития интереснейшая тема не получила. А жаль.

На самом деле все серьезно. Если даже в таких простых примерах можно довести до абсурда, то в моделях, где каждое событие имеет несколько десятков случайных параметров, тем более. Хотя это и менее очевидно.

Date: 2012-06-07 11:28 pm (UTC)
From: [identity profile] fat-crocodile.livejournal.com
Ну так поэтому кроме среднего есть ещё какие-то показатели. Есть распределения с несколькими пиками...
Среднее работает только если нам что-то известно про распределение.

Date: 2012-06-08 09:00 am (UTC)
From: [identity profile] ushastyi.livejournal.com
Проблема еще и в том, хотя примерами выше она и не иллюстрируется, то если распределение зависит от многих переменных, то "в общем" оно может быть и не самым плохим, предельные теоремы и закон больших чисел никто не отменял, но частичные распределения могут вести себя самым странным образом. А это совершенно не очевидно для многих.

Date: 2012-06-08 07:12 am (UTC)
From: [identity profile] imageman72.livejournal.com
Да, усреднять просто, но не всегда хорошо.

Как раз на днях прочитал новость: "На основе одной из основных теорем теории вероятности — теоремы Байеса — ученые разработали алгоритм, который назвали HARM (Hierarchical Association Rule Model). HARM "смотрит", чем ранее болел пациент, а также сравнивает его данные с историями болезни, в которых содержатся аналогичные симптомы. После этого алгоритм предсказывает, чем заболеет пациент в будущем." Подробнее http://medportal.ru/mednovosti/news/2012/06/04/harm/

Вроде молодцы? Это хоть и "усреднение", но не простое. (Я правильно понял?)

Date: 2012-06-08 07:45 am (UTC)
From: [identity profile] ushastyi.livejournal.com
Нет, не совсем. Не читая статью, могу предположить, что суть в том, что есть так называемые условные вероятности, то есть вероятность события А, при условии, что произошло событие Б. Зная историю болезни, можно с некоторой вероятностью просчитать, что произойдет дальше, на основе статистики других пациентов. Это не усреднение, это предсказание, построенное на некоторой статистической модели. Вообще говоря, теорема Байеса играет здесь примерно ту же роль, что операции сложения или умножения. Все гораздо сложнее. Но с журналистов -- что взять.

Date: 2012-06-08 01:31 pm (UTC)
From: [identity profile] fat-crocodile.livejournal.com
там байесовская сеть, скорее всего.

Date: 2012-06-08 01:41 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Да, очень похоже

Profile

kaipa: (Default)
kaipa

April 2017

S M T W T F S
       1
2345678
9101112131415
16171819202122
23242526272829
30      

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 14th, 2025 11:25 am
Powered by Dreamwidth Studios