О важности моделей и методологии
Dec. 11th, 2011 12:32 amЛюди, далекие от математики, охотно верят в статистический анализ, показывающий фальсификацию выборов. В ЖЖ много постов на эту тему, и даже более значительные издания, например, Газета.ру отметилась материалом на эту тему.
Но многие забывают или не знают, что статистические выводы очень сильно зависят от методологии или статистической модели, которая берется за основу. Например, обычно считают, что процент голосов и явка некоррелированы. Хотя никаких причин так думать нет. Есть и другие нюансы. Особенно нюансы важны, если пытаться оценить объем вбросов, так как в данном случае делается предположение о статистики в рамках "правильной" модели, на основе испорченных данных, где способ их "порчи" тоже является всего лишь гипотезой.
Еще один важный момент, о котором никто никогда не говорит, это то, что результат статистического анализа -- это не факт, а гипотеза, которая утверждается с той или иной мерой надежности. И эта надежность зависит и от данных и от методологии, и она далека от 100%.
Я не буду вдаваться в детали, но вот вам анализ тех же данных ЦИК, но проведенных по другой методологии. Он тоже показывает, что были нарушения, и оценивает их объем в 5-7% при самой экстремальной поправке. Что в 2-3 раза ниже других подобных анализов.
Так что методология имеет значение.
В заключение напомню, что социология тоже важна. И некоторые статистические аномалии имеют вполне разумное социологическое объяснение, например явка и результаты Кавказских республик, высокая явка на закрытых участках воинских частей и т.п.
Но многие забывают или не знают, что статистические выводы очень сильно зависят от методологии или статистической модели, которая берется за основу. Например, обычно считают, что процент голосов и явка некоррелированы. Хотя никаких причин так думать нет. Есть и другие нюансы. Особенно нюансы важны, если пытаться оценить объем вбросов, так как в данном случае делается предположение о статистики в рамках "правильной" модели, на основе испорченных данных, где способ их "порчи" тоже является всего лишь гипотезой.
Еще один важный момент, о котором никто никогда не говорит, это то, что результат статистического анализа -- это не факт, а гипотеза, которая утверждается с той или иной мерой надежности. И эта надежность зависит и от данных и от методологии, и она далека от 100%.
Я не буду вдаваться в детали, но вот вам анализ тех же данных ЦИК, но проведенных по другой методологии. Он тоже показывает, что были нарушения, и оценивает их объем в 5-7% при самой экстремальной поправке. Что в 2-3 раза ниже других подобных анализов.
Так что методология имеет значение.
В заключение напомню, что социология тоже важна. И некоторые статистические аномалии имеют вполне разумное социологическое объяснение, например явка и результаты Кавказских республик, высокая явка на закрытых участках воинских частей и т.п.