Попытался понять, какая теория стоит за deep learning.
Вот статья с громким названием: Theoretical Motivations for Deep Learning. Конспект какой-то обзорной лекции на тему. В ней я нашел ровно три мотивации:
1. Проклятье размерностей (curse of dimensionality). Нейронные сети позволяют с этим справиться, "выиискивая" в многомерных разряженных данных многообразия меньших размерностей. Это сильная мотивация, хотя у меня есть сомнения насчет полноты и т.д. Выражаясь проще, нет способа оценить, насколько хорошо нейронная сеть это делает и не теряется ли важная информация. Нет в принципе.
2. Распределенные представления. Суть в том, что данные кластеризуются на разных уровнях общности. При обработке естественного языка или изображений это позволяет получить аналогию семантических связей и классов, разной степени близости. Более подробно тут. Это круто, это на самом деле работает, разные уровни семантики и т.д. И хотя непосредственно к нейронным сетям это не относится, но именно в нейронных сетях это получилось хорошо сделать.
3. Проблема выпуклости, как они ее назвали. Суть в том, что в отпимизационных невыпуклых задачах больших размерностей обычно очень много локальных экстремумов, и все мягкие алгоритмы, включая нейронные сети, в них с удовольствием застревают. (от себя: в традиционных алгоритмах, Монте-Карло, например, всегда можно оценить вероятность найти экстремум, и ее зависимость от объема выборки, а в мягких -- нельзя). Далее идет обсуждение, что "на самом деле" в задачах большой размерности больше сёдел, чем экстремумов, а сёдла не мешают. Но надо отдать должное, заканчивают честно: "It’s only an empirical validation and there is no proof that the results apply to optimization of neural networks. "
Вот так с нейронными сетями всегда, на уровне эмпирики вроде бы работают, а как и почему -- никто не знает. Некоторые даже "верят", что нейронные сети Тьюринг-полны, хотя строгого доказательства этого, насколько я знаю, не существует.
Все это не значит, что солидное теоретическое обоснование не появится, но пока что многообещающих практических результатов существенно больше, чем понимания, почему это работает. Удивительная ситуация для науки. Одни считают, что это состояние физики в начале XX века, когда появилось много экспериментальных результатов, а теории, их объясняющей, не было. Другие -- что откат в Древний Египет, когда практики было достаточно, а теория не была нужна.
Пока все идет к тому, что нейронные сети, как и человеческий мозг, будут давать приблизительные, но достаточно хорошие результаты для определенных классов задач. Этакий аналог интуиции, от которой требуется не точность, а скорость и глубина. Там же где нужна строгость и точность, останутся более жесткие алгоритмы. Вполне разумная перспектива.
Вот статья с громким названием: Theoretical Motivations for Deep Learning. Конспект какой-то обзорной лекции на тему. В ней я нашел ровно три мотивации:
1. Проклятье размерностей (curse of dimensionality). Нейронные сети позволяют с этим справиться, "выиискивая" в многомерных разряженных данных многообразия меньших размерностей. Это сильная мотивация, хотя у меня есть сомнения насчет полноты и т.д. Выражаясь проще, нет способа оценить, насколько хорошо нейронная сеть это делает и не теряется ли важная информация. Нет в принципе.
2. Распределенные представления. Суть в том, что данные кластеризуются на разных уровнях общности. При обработке естественного языка или изображений это позволяет получить аналогию семантических связей и классов, разной степени близости. Более подробно тут. Это круто, это на самом деле работает, разные уровни семантики и т.д. И хотя непосредственно к нейронным сетям это не относится, но именно в нейронных сетях это получилось хорошо сделать.
3. Проблема выпуклости, как они ее назвали. Суть в том, что в отпимизационных невыпуклых задачах больших размерностей обычно очень много локальных экстремумов, и все мягкие алгоритмы, включая нейронные сети, в них с удовольствием застревают. (от себя: в традиционных алгоритмах, Монте-Карло, например, всегда можно оценить вероятность найти экстремум, и ее зависимость от объема выборки, а в мягких -- нельзя). Далее идет обсуждение, что "на самом деле" в задачах большой размерности больше сёдел, чем экстремумов, а сёдла не мешают. Но надо отдать должное, заканчивают честно: "It’s only an empirical validation and there is no proof that the results apply to optimization of neural networks. "
Вот так с нейронными сетями всегда, на уровне эмпирики вроде бы работают, а как и почему -- никто не знает. Некоторые даже "верят", что нейронные сети Тьюринг-полны, хотя строгого доказательства этого, насколько я знаю, не существует.
Все это не значит, что солидное теоретическое обоснование не появится, но пока что многообещающих практических результатов существенно больше, чем понимания, почему это работает. Удивительная ситуация для науки. Одни считают, что это состояние физики в начале XX века, когда появилось много экспериментальных результатов, а теории, их объясняющей, не было. Другие -- что откат в Древний Египет, когда практики было достаточно, а теория не была нужна.
Пока все идет к тому, что нейронные сети, как и человеческий мозг, будут давать приблизительные, но достаточно хорошие результаты для определенных классов задач. Этакий аналог интуиции, от которой требуется не точность, а скорость и глубина. Там же где нужна строгость и точность, останутся более жесткие алгоритмы. Вполне разумная перспектива.
no subject
Date: 2016-01-12 10:18 am (UTC)Лучше всё-таки было бы проговаривать основные выводы в общем контексте задач машинного обучения, а вот этот самый Deep Learning засунуть куда поглубже и не ковырять. Уж больно сомнительная это тема, и, скажем так, в максимально сдержанной форме, кое-кто из авторитетов относится к ней крайне раздражённо.
Тем более, ведь сами знаете, что общий контекст машинного обучения занимается реаспознаванием всего на свете, а диплёрнинг - только чего-то там на изображениях, а к другим задачам как его причаливать - дело тёмное. (Да и с пониманием того, как это работает в общем контексте тоже не очень понятно, почему оно работает, но всё равно хоть немножко попонятнее...)
А в целом - ну да, такая есть алтернатива, совершенно вне зависимости от того, как относиться к диплёрнингу.
no subject
Date: 2016-01-12 10:42 am (UTC)Диплернинг не только изображениями занимается, но и обработкой естественного языка, например (и по текстам, и по аудио), вон уже переводчики стали делать http://www.iamili.com). Принципы уменьшения размерности и распределенных представлений -- они более-менее универсальны.
Хотя, мне кажется, что так как вокруг этого термина сейчас маркетинговый бум, то диплернингом стали называть даже то, что им не является. Зато звучит.
no subject
Date: 2016-01-12 11:02 am (UTC)ПС. При этом надо понимать, что аналогия между принципом организации нейронных сетей и работой головного мозга - очень и очень условная. Пиарная, я бы сказал...
no subject
Date: 2016-01-12 11:16 am (UTC)Ну да, аналогии там почти никакой, но это и не очень важно. Нет задачи построить так же, как в мозгу, есть задача решать те же задачи, что и решает мозг. Вот в HTM аналогия есть, но толку пока нет.
no subject
Date: 2016-01-14 07:42 pm (UTC)no subject
Date: 2016-01-19 07:52 pm (UTC)no subject
Date: 2016-01-19 07:55 pm (UTC)Кажется, пока что всё строгое и точное просто дохнетъ, и скоро останется только вотъ это вотъ.
no subject
Date: 2016-01-19 09:10 pm (UTC)Скорее всего, переводить он будет весьма посредственно, но достаточно, чтобы объясниться и понять собеседника. Целевая аудитория -- туристы, замена разговорника.
no subject
Date: 2016-01-19 09:16 pm (UTC)no subject
Date: 2016-01-20 04:36 pm (UTC)(Но спасибо за ссылки!)
no subject
Date: 2016-01-20 04:50 pm (UTC)