kaipa: (Default)
[personal profile] kaipa
Технический айтишный пост.

Коллега опубликовала статью на Хабре о Snowflake. Snowflake (снежинка, намек на тип схемы для DWH) -- это эластичное хранилище данных (data warehouse) на Амазоновской облачной инфраструктуре. И хотя наш вердикт о готовности решения к реальным сценариям был отрицательным, сама идея очень здравая.

Если очень вкратце, то:
- данные хранятся в S3 -- то есть надежно, неограничено и т.д.
- данные обрабатываются произвольным количеством compute nodes -- инстансы EC2

Эти два момента сразу позволяют догадаться о сильных и слабых сторонах. Понятно, что с надежностью и масштабируемостью все должно быть замечательно. А вот скорость загрузки и доступа к данным при прочих равных ограничена скоростью S3, что существенно хуже хорошо настроенной дисковой системы. Кеш может улучшить ситуацию, но кеш плохо работает, когда данные загружаются часто.

К чести разработчиков они уделили пристальное внимание "прочим равным" и сделали первую настоящую колоночную базу данных на EC2/S3. То есть ограничения S3 частично компенсируется правильной организацией данных. Вряд ли они сходу сделали это так же хорошо, как это вылизывалось годами в Вертике, но судя по результатам -- как минимум неплохо. Я думаю, что в течение года-двух Snowflake вылечит детские болезни и станет более чем приемлимым вариантом облачного хранилища. Особенно, если ваши данные уже на Амазоне.

P.S. Уже после окончания нашего проекта я узнал, что ключевой разработчик Snowflake -- Вадим Антонов -- один из основателей русского интернета, с которым мне довелось некоторое время работать в одной команде в начале 2000х.

P.P.S. А Вертика на днях выпустила версию 7.2, где, о чудо, в числе прочего ответила на многолетние стоны клиентов по поводу ряда раздражающих мелочей (у каждого свой, поэтому приводить не буду). С каждой версией они убирают ограничения, которые, как казалось (и как они объясняли) были естественными следствиями колоночной структуры данных. Молодцы.

Date: 2015-11-05 05:14 am (UTC)
From: [identity profile] levgem.livejournal.com
оно же всё безумно дорогое и медленное! Это я про Амазон

Date: 2015-11-05 07:47 am (UTC)
From: [identity profile] ushastyi.livejournal.com
Вопрос цены -- это другой разговор. Ключевая фича Амазона -- элластичность. И я могу представить ситуации, когда за это не жалко заплатить. Например, когда у нас начинает не справляться основной кластер фронтэндов, мы начинаем поднимать амазон. Да, там сервера в два раза хуже и дороже, но 1) заказ физического сервера занимает время 2) часто перегрузка основных серверов связана с какими-то временными явлениями, и через сутки дополнительные мощности уже будут не нужны.

В случае c Snowflake, стабильно платится только на место на S3, а вычислительные ноды подниимаются и опускаются при необходимости. Скажем, если аналитики тыкают в данные палочкой только с 9 до 18, то можно по ночам почти все выключать.

Profile

kaipa: (Default)
kaipa

April 2017

S M T W T F S
       1
2345678
9101112131415
16171819202122
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 24th, 2026 05:35 pm
Powered by Dreamwidth Studios