Рубрики
it-новости

[«Облака» и «потоки»] Другой путь. Смена направления потоков данных

Мы не можем обойтись без постоянного притока свежей информации. Но получить её недостаточно: необходимо обработать и проанализировать в максимально короткие сроки. Информация, как вода, должна постоянно перетекать от источников на периферию и в локал…

Мы не можем обойтись без постоянного притока свежей информации. Но получить её недостаточно: необходимо обработать и проанализировать в максимально короткие сроки. Информация, как вода, должна постоянно перетекать от источников на периферию и в локальные дата-центры, а затем в облако, иногда возвращаясь обратно.

Что изменилось в потоках данных?

Предприятия регулярно переносят данные между разными пунктами хранения, но их объемы растут намного быстрее емкости сети, и привычный способ перемещения информации по сетевым каналам становится все менее эффективным. На это, в частности, указывает недавно вышедший отчет Mass Data on the Go от компании Seagate.

Для иллюстрации все более колоссальных объемов корпоративных данных там приводится пример активных систем содействия водителю (ADAS). На начальном этапе развития ADAS их возможности ограничивались предотвращения блокировки тормозов и регулировки тягового усилия для противодействия пробуксовке. Уже сейчас эти системы в состоянии самостоятельно парковаться и предотвращать столкновения с использованием радара, но для перехода к полностью автономным автомобиля потребуются многие годы и бесчисленные петабайты данных.

Чем выше уровень автономии, на который нацеливаются проектировщики, тем больше информации им требуется. Для полной автономии может понадобиться до 20 ТБ в час в расчете на автомобиль, используемый для записи данных ИИ. А общий объем набора обучающих данных, полученных от группы таких автомобилей, составит не меньше 20 ПБ в час. Обработка всей этой информации происходит в гипермасштабных дата-центрах, но как перенести в них нужную информацию? На пересылку всего 1,5 ПБ данных, созданных 10-20 исследовательскими автомобилями, по гигабитному соединению корпоративного класса понадобится более 150 суток. За это время информация полностью потеряет свою актуальность и станет практически бесполезной.

Но это лишь один, самый яркий пример проблемы. Помимо него с аналогичными проблемами сталкивается приложения для мультимедиа и развлечений, обработки данных систем видеонаблюдения, здравоохранения и умного производства. Специалисты Cisco считают главной движущей силой нынешнего роста объема данных системы межмашинной связи (M2M), а в IDC прогнозируют резкий рост общемирового объема созданных данных: если в 2020 году он составил 64 ЗБ, то в 2025-м достигнет уже 180 ЗБ. Главным же «виновником» этого, по словам аналитиков, станет интернет вещей, особенно камеры и автоматизированные M2M-взаимодействия с участием цифровых приборов учета потребления коммунальных услуг, систем управления медицинским оборудованием и т.д.

Почему без периферии не обойтись

Десять лет назад перед предприятиями стоял простой выбор — хранить данные в публичном или частном облаке. Но сегодня этот выбор заметно расширился, а для оптимизации доступа к данным, их размещения, распределения и использования, организации все чаще прибегают к мультиоблачной и гибридной моделям. Аналитики IDC Storage Systems Infrastructure Trends Survey выяснили, что в настоящее время централизованную архитектуру облачного хранилища использует 47% предприятий, но уже через два года их доля упадет до 22%. Напротив, доля гибридной архитектуры хранилища из централизованных и периферийных систем пока не так велико — 25%, однако через те же два года эта цифра вырастет до 47%.

Как видно из отчета IDC, непрерывный рост корпоративных данных приводит к постепенному смещению акцентов в сторону облачного ядра и периферии, и если в 2015 году там хранилось только 30% данных, то в 2020 году их доля увеличилась до 50%, а в 2025-м, согласно прогнозу, достигнет уже 70%.

Ограниченных возможностей сетевых каналов уже недостаточно для оперативного перемещения растущих массивов данных. Но помимо ограничений, связанных с сетевыми характеристиками и задержкой, есть еще несколько барьеров, осложняющих доступ к данным и их перемещение — нехватка волоконно-оптических каналов и совокупная стоимость таких услуг. Причем, как показывают опросы, наибольшее влияние на выбор решения для транспортировки или миграции данных предприятия оказывает именно последний фактор. Ну а выбор в пользу физических средств миграции данных в 78% случаев объясняется недостаточными характеристиками сети для передачи требуемых объемов информации.

Активнее всего данные создаются на периферии, ну а периферийные системы все чаще становятся важнейшим участком маршрута данных и ключевым элементом стратегии в области хранения. Они могут работать на периферии любой сети и, по сути, делятся на три уровня. Микропериферия расположена ближе всего к внешней границе сети и конечным точкам. На этом уровне происходит сбор наибольшего количества данных, а задержка не превышает 5 мс. Устройства сбора данных микропериферии — это обычно внешние накопители, соединенные с периферийными серверами либо по беспроводной связи.

Городская периферия работает уже на уровне города. Время отклика в такой системе заметно выше — 5-10 мс, намного выше и емкость ее хранилищ. Объектом сетевой периферии может быть небольшой центр обработки данных в здании головного офиса компании или какое-то количество стоек в коммерческом центре колокации. Ее близость к источникам данных и большая емкость делают такую систему хорошим выбором для транзакционные СУБД, систем поточной передачи мультимедиа и других приложений. Наконец, третий уровень периферии — макропериферия. Это крупномасштабные объекты со временем отклика 10-20 мс, обслуживающие до десяти арендаторов и расположенные на расстоянии 10-150 км от конечных точек. Как правило, это центры колокации или полноценные дата-центры с резервными магистральными каналами, которые всего на ступень ниже сетевого ядра.

На рост периферии оказывают влияние те же движущие силы, которые отвечают за рост данных. В первую очередь, это развитие технологий искусственного интеллекта, набирающие популярность Интернет вещей и 5G-сети. Кроме того, далеко не последнюю роль в этом играет конвергенция ИТ и операционных технологий в производстве, а необходимость дополнения облачных мощностей периферийными привела к появлению периферийных ЦОДов.

«Центр тяжести» данных теперь меняется

Бурное развитие систем периферийных вычислений приводит к сдвигу в сфере хранения данных, которые все больше распределяются между различными облачными и периферийными ресурсами. Данные в экосистеме «конечная точка — ядро» перемещаются по большему количеству маршрутов, чем раньше, а это значит, что их можно размещать вблизи приложений, чтобы обеспечивать максимальную производительность последних.

По мере накопления данных они приобретают собственную силу притяжения, действующую на приложения, сервисы и новые данные. Причем чем больше объем (или так называемая масса) данных, тем больше сила притяжения. На определенном этапе данные могут достичь критической массы, превратившись в своеобразную «черную дыру», затягивающую в себя приложения, сервисы и данные. Для того чтобы избежать этого, специалисты IDC рекомендуют размещать данные вместе с соответствующими приложениями, независимо от их местонахождения.

Одним из самых эффективных средств преодоления этого гравитационного колодца может стать корпоративный автомобиль или защищенный грузовик специальной службы, перевозящий петабайты данных. Они позволяют выполнять миграцию больших объемов данных гораздо быстрее, чем глобальная сеть. Однако здесь нужно понимать необходимость принятия строгих мер безопасности. Перевозимая информация должна быть зашифрованной на всех этапах транспортировки, а организациям в обязательном порядке необходимо учитывать требования регуляторов и законы о суверенитете данных.

(https://habr.com/ru/compa…)