kaipa: (Default)
[personal profile] kaipa
Что такой йотабайт? Это 1 000 000 000 000 000 000 000 000 байт. Йотабайт больше привычного большинству терабайта во столько же раз, во столько терабайт больше байта. Кому может понадобиться столько данных? Объем всего интернета пока еще измеряется эксабайтами, и самые большие данные измерялись всего лишь сотнями петабайт. Но американское правительство смотрит дальше, и строит датацентр колоссальной мощности и емкости. Зачем? А потому что ради национальной безопасности приходится обрабатывать десятки петабайт спутниковых снимков в день, десятки петабайт емейлов в день, записывать все звонки внутри США, которые "укладываются" примерно в 20 терабайт в минуту, то есть порядка 30 петабайт в день А еще нужно слушать и записывать радио-эфир и сотовые телефоны вне США, писать трафик на гигабитных роутерах, и уметь подбирать ключи к AES в тех редких случаях, когда пользователи вдруг заходят зашифровать свои емейлы. И все это на самом деле и особо не скрывается. Уже.

Некоторые факты и анализ:

http://www.dbms2.com/2013/06/10/where-things-stand-in-us-government-surveillance

http://www.wired.com/threatlevel/2012/03/ff_nsadatacenter/all/

И напомню презентацию ЦРУ:

http://ushastyi.livejournal.com/166615.html

P.S. В интересное время живем.

Date: 2013-06-11 03:29 pm (UTC)
From: [identity profile] antilamer.livejournal.com
Насчёт десятков петабайт емейлов в день: если ты про PRISM и про якобы полный доступ правительства США к серверам крупных интернет-компаний, то слухи про всеохватывающую природу PRISM так и не подтвердились ничем, кроме изначальной презентации непонятного происхождения (это не тянет на extraordinary evidence to support extraordinary claims), а Washington Post отказалась от своих слов на эту тему, тихонько отредактировав статью: http://www.zdnet.com/the-real-story-in-the-nsa-scandal-is-the-collapse-of-journalism-7000016570/

Date: 2013-06-11 03:53 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Десятки петабайт -- это грубая оценка объема. Можно, кстати, и не иметь непосредственного доступа к провайдерам, а сливать с крупных раутеров. Это сложнее, но их не так много и не на виду.

Сам факт редактирования статьи ни о чем хорошем не говорит. Впрочем, Курт Монаш приводит ссылку на статью в Гардиан, а не в WP, что, впрочем почти одно и то же: http://www.guardian.co.uk/world/2013/jun/06/us-tech-giants-nsa-data

В любом случае, для каких целей строится датацентр в Юте не скрывается. В статье с wired много интересных деталей.

Date: 2013-06-12 06:52 am (UTC)
From: [identity profile] antilamer.livejournal.com
Для того, чтобы сливать данные с крупных раутеров, нужно заодно расшифровывать весь SSL-трафик. В принципе я допускаю, что это возможно - хотя и с трудом представляю, как это можно делать за $20млн в год, и почему при этом отдельные компании нужно "подключать" отдельно (казалось бы, уж умеешь расшифровывать - так расшифровывай всё сразу?) - но, насколько я понимаю, и сами компании не дремлют и повышают секьюрность SSL и способности по детектированию и предотвращению MITM атак даже в случае кражи сертификатов.

Мне кажется, интерпретировать редактирование статьи как "ага, значит, им угрожали, значит, сначало было правда" - это очень скользкая дорожка. Я допускаю, что глобальные программы по перехвату SSL-трафика существуют, но я не могу принять в качестве доказательства этого - статью, которая через несколько часов после выпуска перестала делать такое заявление. Тем более что даже изначальный текст статьи имел одну из возможных интерпретаций - просто существование портала, через который осуществляется передача данных, без blanket access (это подтверждается уточнённой версией статьи: According to a more precise description contained in a classified NSA inspector general’s report, also obtained by The Post, PRISM allows “collection managers [to send] content tasking instructions directly to equipment installed at company-controlled locations,” rather than directly to company servers).
Это и представляется мне самым вероятным вариантом, хотя и он мне тоже не нравится.

Date: 2013-06-12 01:58 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Мне кажется, что необязательно расшифровывать весь SSL-трафик. Достаточно его записывать, и расшифровывать потом, если понадобится. Какой процент трафика идет через SSL? Рискну предположить, что не более 1%, в основном финансовые транзакции. Причем, даже без расшифровки сам факт SSL-соединения с каким-нибудь сайтом уже дает информацию. Расшифровка -- дело дорогое. Если можно получить доступ без расшифровки -- то почему бы не сделать.

Собственно, я не понимаю, что ты возражаешь, если даже сенаторы подтверждают, что это правда, как минимум в отношении глобальной прослушки. “It’s called protecting America.”
http://www.politico.com/story/2013/06/dianne-feinstein-on-nsa-its-called-protecting-america-92340.html

Date: 2013-06-12 03:07 pm (UTC)
From: [identity profile] antilamer.livejournal.com
Про расшифровку - я ж говорю, компании не дремлют: http://googleonlinesecurity.blogspot.com/2011/11/protecting-data-for-long-term-with.html

Про прослушку я ничего не говорил, и допускаю, что она есть; я говорю именно про интернет-компании.

Date: 2013-06-11 05:57 pm (UTC)
From: [identity profile] levgem.livejournal.com
это уже какой-то йопта-байт, самый настоящий. Как искать по этому объёму?

Date: 2013-06-11 08:21 pm (UTC)
From: [identity profile] ushastyi.livejournal.com
Тут два соображения.

Во-первых, если не хранить, то искать нельзя вообще. Поэтому лучше сначала начать сохранять, а уже потом придумать, что с этим делать. Ты же знаешь, что если есть проблема в софте, то логов много не бывает. Обычно они не нужны, но если надо найти поведение одной транзакции или айпишника или сервиса -- то очень даже. А если что-то не логгировать, то потом локти кусаешь. Все эти разговоры и емейлы -- это логи сложной системы "государство" или "мир".

Во-вторых, технологии data mining постоянно совершенствуются, особенно в части predictive learning. Когда я искал реальные применения технологий HTM -- то в основном мне попадались статьи из домена .mil. А для такого рода алгоритмов 1) много данных не бывает; 2) они работают на потоке данных.

То есть, как мне кажется, этот массив данных можно использовать, если нужно узнать что-то о конкретном человеке, и там в статьях есть ссылки на статистику PRISM -- 77 тысяч случаев использования информации из этой системы. Либо же для выявление трендов, аномалий и т.п.

Date: 2013-06-12 12:29 am (UTC)
From: [identity profile] ingenieurin.livejournal.com
Жутко, да. Утешает только то, что все это будет очень нескоро. Пока что тут грабят магазин среди бела дня и как-то так получается, что никто ничего не видел и камер почему-то не оказалось.

Date: 2013-06-12 05:09 am (UTC)
From: [identity profile] fregimus.livejournal.com
Это все происходит, как проболталась сентатор Фейнштейн, уже 7 лет. С пробужденьицем!

Profile

kaipa: (Default)
kaipa

April 2017

S M T W T F S
       1
2345678
9101112131415
16171819202122
23242526272829
30      

Style Credit

Expand Cut Tags

No cut tags
Page generated Mar. 24th, 2026 10:39 am
Powered by Dreamwidth Studios