kaipa: (Default)
[personal profile] kaipa
Либителям data science и алгоритмов кластеризации есть шанс попробовать себя в по-настоящему практической задаче: поиске бозона Хиггса на основе статистического анализа реальных данных по столкновению частиц.

Чуть более подробно на русском -- на "Элементах"

Мне кажется, это замечательная идея авторов проекта. На табло текущих результатов показаны результаты в том числе и стандартных коробочных алгоритмов. Было бы интересно еще рисовать график лучшего результата (1й строчки), как он растет со временем. Может, где-то и есть, но я не нашел.

Никто не хочет поучаствовать? В отличие от конкурсов типа ICFP времени тут гораздо больше, в том числе и на подумать, почитать умные книжки и т.д.

Date: 2014-06-06 10:07 am (UTC)
From: [identity profile] vincentfischer.livejournal.com
> А почему ты уверен, что это Монте-Карло? ... выборка из реальных данных

1. в реальных данных бозон Хиггса не помечен, к сожалению, будет совершенно непонятно, кто победил
2. там у них на лицевой странице это написано :)

> Тем более, что сама задача кластеризации -- вполне себе стандартная

ну только не кластеризации, а классификации, наверное

> мы однажды в моей компании проводили чем-то похожий эксперимент

вот-вот :) в бытность пхд студентом я тоже проделал подобное упражнение, нашел дополнительные события, но в рабочий анализ ничего не пошло - они лежали в довольно грязных кусках фазового пространства, совершенно не факт, что выигрыш в стат. точности компенсировал бы привнесенную неопределенность в систематике.

Date: 2014-06-06 02:53 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
> 1. в реальных данных бозон Хиггса не помечен, к сожалению, будет совершенно непонятно, кто победил

А! Я тормоз, да :)

Кстати, можно было бы дать реальные данные по какой-нибудь другой не слишком распространенной частице. Было бы честнее.

> ну только не кластеризации, а классификации, наверное

Мне всегда казалось, что это почти одно и то же. Классификация -- это отнесение события к какому-то кластеру (классу).

Date: 2014-06-06 06:48 pm (UTC)
From: [identity profile] vincentfischer.livejournal.com
> можно было бы дать реальные данные по какой-нибудь другой не слишком распространенной частице.

ну дык любая частица будет страдать от тех же проблем :) у нас есть надежные измерения некоторых выбранных свойств некоторых частиц (типа массы или сечения как фукнции чего-нибудь), но полного, идеального описания кинематики (и тем более детекторных эффектов, по которым эта частица будет регистрироваться) нету.
давай еще раз попробую сформулировать, что эти ребята хотят найти в результате конкурса (как я это понимаю). вот, например, зэд бозон, пусть его исследуют в моде распада на электрон и позитрон. первая попытка такая: называем событиями с зэд бозоном все события, которые содержат два "электрона" (два электромагнитных кандидата с треком) с поперечным импульсом больше 20 ГэВ и инвариантной массой пары в диапазоне 70-110 ГэВ. в этом образце действительно почти все будет будет распадами этого зед бозона. следующая попытка такая: потребуем дополнительно, чтобы заряды кандидатов были разными (ну то есть один электрон и один позитрон); в этом образце фон будет подавлен ещё больше (и при условии, что определение заряда нормально работает, хорошие, сигнальные события почти не выпадут). следующая попытка: вспомним, что из-за электрослабого нарушения симметрии зед бозон распадается так, что позитрон (или электрон, не помню) чаще летит в ту же полусферу, что и исходный бозон, поэтому если мы отберём кинематику, в которой это выполняется, то ещё сильнее обогатим образец зед бозонов (в реальной жизни этот эффект мал и вообще так делать не надо, но для примера сгодится). ну и так далее. теперь всем желающим для каждого события даются измеренные свойства электронов-позитронов и прочее, и надо догадаться до этих шагов (до первых двух, третий не надо, он всё испортит :)
в случае их распада хиггса они предполагают (я так понимаю), что нашли ещё не все корреляции, по которым фон и сигнал сильно бы различались, и предлагают их поискать всем желающим

> Мне всегда казалось, что это почти одно и то же. Классификация -- это отнесение события к какому-то кластеру (классу).

да, наверное. я просто наивно привык думать "классификация - есть пять коробочек, надо по ним разложить", "кластеризация - есть куча точек и расстояние, надо по этому расстоянию сгруппировать точки так, чтобы внутри каждого кластера они были "близко", а сами кластеры были друг от друга "далеко". разумеется, тут всё будет весьма условно - известный популярный алгоритм кластеризации заранее просит число кластеров :)

Date: 2014-06-06 07:55 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
> в случае их распада хиггса они предполагают (я так понимаю), что нашли ещё не все корреляции, по которым фон и сигнал сильно бы различались, и предлагают их поискать всем желающим

Именно так! При этом, если физики предполагают, что некоторая корреляция должна быть из физических соображений (как ты описал выше) и потом пытаются статистически это учесть, то не-физики, как я уже говорил, свободны от этих условностей и будут "просто искать" корреляции. Шанс, что найдут, не велик, но он есть. И совершенно бесплатно :)

Date: 2014-06-07 07:44 pm (UTC)
From: [identity profile] vincentfischer.livejournal.com
короче, Том Сойер умер, но дело его живет :)
Edited Date: 2014-06-07 07:45 pm (UTC)

Profile

kaipa: (Default)
kaipa

April 2017

S M T W T F S
       1
2345678
9101112131415
16171819202122
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 24th, 2026 01:20 pm
Powered by Dreamwidth Studios