Охота на бозонов
Jun. 5th, 2014 05:32 amЛибителям data science и алгоритмов кластеризации есть шанс попробовать себя в по-настоящему практической задаче: поиске бозона Хиггса на основе статистического анализа реальных данных по столкновению частиц.
Чуть более подробно на русском -- на "Элементах"
Мне кажется, это замечательная идея авторов проекта. На табло текущих результатов показаны результаты в том числе и стандартных коробочных алгоритмов. Было бы интересно еще рисовать график лучшего результата (1й строчки), как он растет со временем. Может, где-то и есть, но я не нашел.
Никто не хочет поучаствовать? В отличие от конкурсов типа ICFP времени тут гораздо больше, в том числе и на подумать, почитать умные книжки и т.д.
Чуть более подробно на русском -- на "Элементах"
Мне кажется, это замечательная идея авторов проекта. На табло текущих результатов показаны результаты в том числе и стандартных коробочных алгоритмов. Было бы интересно еще рисовать график лучшего результата (1й строчки), как он растет со временем. Может, где-то и есть, но я не нашел.
Никто не хочет поучаствовать? В отличие от конкурсов типа ICFP времени тут гораздо больше, в том числе и на подумать, почитать умные книжки и т.д.
no subject
Date: 2014-06-05 10:58 am (UTC)no subject
Date: 2014-06-05 02:18 pm (UTC)no subject
Date: 2014-06-05 03:56 pm (UTC)0. общее замечание к такого рода анализам заключается в том, что все методы в виде черной коробки вызывают обоснованные подозрения и часто приводят к неприятным неожиданностям. в реальной жизни тот же самый алгоритм, которые они натаскают сейчас на этом конкретном монте-карло, должен будет применяться к другим монте-карло (с другими, иногда сильно другими распределениями по вторым-третьим струям, например), с другими фонами, в другом фазовом пространстве (например, захотят с помощью этого алгоритма сделать анализ как функцию какого-нибудь поперечного импульса). как поведет себя алгоритм в таком случае заранее непонятно. потом, и это самое неприятное во всей истории, надо будет оценить погрешность измерения, как это делать в случае сильной нелинейности черной коробки не всегда понятно. ну то есть это вообще-то большая задача для рабочей группы - показать, что данный черный ящик находится под контролем более-менее не завися от допустимых вариаций входа. сейчас выдадут какой-то алгоритм, а потом физическая группа будет (должна!) сидеть и разбираться, почему появились эти странные пики посреди нигде и как так вышло, что их не видно в данных; а окажется, что монте-карло плохо описывало угол между а и б, поэтому там, где этот угол мал или велик, черный ящик нелинейно поднакачал откровенного мусора (привет Игорю и слепому анализу, кстати).
1. ставить задачу без подробных объяснений и рассказа, что уже сделано и почему, - это бросать четверокурсников грудью на амбразуру :) всё-таки надо обладать определенным знанием, почему и как могут отличаться сигнал и фон, ну и как векторы умножать тоже надо знать, я думаю. хотя если это из разряда "у нас кончились идеи, пусть обезьянки переберут все пространство параметров и найдут корреляции там, где мы не догадались искать", то подход годный :) только, как уже сказано, люди найдут косяки симуляции точно также, как и настоящие физические корреляции, а разбираться, почему черный ящик сработал и можно ли ему доверять - это все равно задача ответственных за анализ.
2. наконец, обычно, за самой изощренной и запутанной сетью обычно стоит относительно простое физическое явление и реальный прогресс связан именно с этим. а тут предлагается поковыряться в переменных, над которыми люди уже думали не раз, специально их отобрали. не вижу среди параметров "качества" сборки тау-лептонов, например, а было бы интересно подумать над правилом "если тау-лептон собрался плохо, и при этом много джетов, то скорее всего фон"; ну понятно, что они хотят сборку тау отфакторизовать от сборки хиггса, но тем не менее. из данных переменных не видно сразу, как смотреть на процесс из разных систем отсчета, а это тоже иногда существенно помогает. выглядит так, будто организаторы загадали какую-то сеть и хотят, чтобы читатели угадали, какую именно.
кстати, заметь, углы и вообще информация о нелидирующих струях спрятана, возможно потому, что их предсказывают не очень, технически это сложно, там можно много странного найти, чего в реальной дате нет :)
3*. если уж на то пошло, то я бы проводил конкурс на ит-помощь для коллайдера, всё-таки контекст физического измерения достаточно специфичный.
ну как-то так
no subject
Date: 2014-06-06 02:33 am (UTC)Мне кажется, что в том-то и смысл, попробовать натравить математиков и программистов на данные, а не на физическую задачу. Да, они не будут понимать, что это все означает, но, возможно, из-за этого будут менее скованы "условностями". Тем более, что сама задача кластеризации -- вполне себе стандартная.
С другой стороны, я вспоминаю, что мы однажды в моей компании проводили чем-то похожий эксперимент: наняли data science человека, выдали ему массив данных и сказали -- "ищи" :) Ну не совсем так, конечно, но примерно. Он там нашел ряд совершенно бесполезных вещей, после чего мы переформулировали задачу, потратили кучу времени, чтобы объяснить ему предметную область, и все равно результат на выходе был близок к нулю.
no subject
Date: 2014-06-06 10:07 am (UTC)1. в реальных данных бозон Хиггса не помечен, к сожалению, будет совершенно непонятно, кто победил
2. там у них на лицевой странице это написано :)
> Тем более, что сама задача кластеризации -- вполне себе стандартная
ну только не кластеризации, а классификации, наверное
> мы однажды в моей компании проводили чем-то похожий эксперимент
вот-вот :) в бытность пхд студентом я тоже проделал подобное упражнение, нашел дополнительные события, но в рабочий анализ ничего не пошло - они лежали в довольно грязных кусках фазового пространства, совершенно не факт, что выигрыш в стат. точности компенсировал бы привнесенную неопределенность в систематике.
no subject
Date: 2014-06-06 02:53 pm (UTC)А! Я тормоз, да :)
Кстати, можно было бы дать реальные данные по какой-нибудь другой не слишком распространенной частице. Было бы честнее.
> ну только не кластеризации, а классификации, наверное
Мне всегда казалось, что это почти одно и то же. Классификация -- это отнесение события к какому-то кластеру (классу).
no subject
Date: 2014-06-06 06:48 pm (UTC)ну дык любая частица будет страдать от тех же проблем :) у нас есть надежные измерения некоторых выбранных свойств некоторых частиц (типа массы или сечения как фукнции чего-нибудь), но полного, идеального описания кинематики (и тем более детекторных эффектов, по которым эта частица будет регистрироваться) нету.
давай еще раз попробую сформулировать, что эти ребята хотят найти в результате конкурса (как я это понимаю). вот, например, зэд бозон, пусть его исследуют в моде распада на электрон и позитрон. первая попытка такая: называем событиями с зэд бозоном все события, которые содержат два "электрона" (два электромагнитных кандидата с треком) с поперечным импульсом больше 20 ГэВ и инвариантной массой пары в диапазоне 70-110 ГэВ. в этом образце действительно почти все будет будет распадами этого зед бозона. следующая попытка такая: потребуем дополнительно, чтобы заряды кандидатов были разными (ну то есть один электрон и один позитрон); в этом образце фон будет подавлен ещё больше (и при условии, что определение заряда нормально работает, хорошие, сигнальные события почти не выпадут). следующая попытка: вспомним, что из-за электрослабого нарушения симметрии зед бозон распадается так, что позитрон (или электрон, не помню) чаще летит в ту же полусферу, что и исходный бозон, поэтому если мы отберём кинематику, в которой это выполняется, то ещё сильнее обогатим образец зед бозонов (в реальной жизни этот эффект мал и вообще так делать не надо, но для примера сгодится). ну и так далее. теперь всем желающим для каждого события даются измеренные свойства электронов-позитронов и прочее, и надо догадаться до этих шагов (до первых двух, третий не надо, он всё испортит :)
в случае их распада хиггса они предполагают (я так понимаю), что нашли ещё не все корреляции, по которым фон и сигнал сильно бы различались, и предлагают их поискать всем желающим
> Мне всегда казалось, что это почти одно и то же. Классификация -- это отнесение события к какому-то кластеру (классу).
да, наверное. я просто наивно привык думать "классификация - есть пять коробочек, надо по ним разложить", "кластеризация - есть куча точек и расстояние, надо по этому расстоянию сгруппировать точки так, чтобы внутри каждого кластера они были "близко", а сами кластеры были друг от друга "далеко". разумеется, тут всё будет весьма условно - известный популярный алгоритм кластеризации заранее просит число кластеров :)
no subject
Date: 2014-06-06 07:55 pm (UTC)Именно так! При этом, если физики предполагают, что некоторая корреляция должна быть из физических соображений (как ты описал выше) и потом пытаются статистически это учесть, то не-физики, как я уже говорил, свободны от этих условностей и будут "просто искать" корреляции. Шанс, что найдут, не велик, но он есть. И совершенно бесплатно :)
no subject
Date: 2014-06-07 07:44 pm (UTC)