Применение технологии Data Lake как способ повышения эффективности деятельности промышленных предприятий
Дробкова О.С.1, Мирохина Д.М.1
1 Московский государственный технический университет им. Н.Э. Баумана
Статья в журнале
Вопросы инновационной экономики (РИНЦ, ВАК)
опубликовать статью | оформить подписку
Том 14, Номер 4 (Октябрь-декабрь 2024)
Аннотация:
Статья посвящена анализу применения технологии Data Lake (озеро данных) в деятельности современных промышленных предприятий. Изложены сущность и особенности применения Data Lake, а также основные преимущества и проблемы внедрения. Проведено сравнение двух наиболее популярных технологий: озеро данных и хранилище данных. Указаны основные цели и эффекты от внедрения технологии Data Lake. Представлен успешный опыт реализации Data Lake в зарубежных компаниях. Приведена практика применения Data Lake на промышленных предприятиях в России на примере АО «ОХК «Уралхим», ПАО «Газпром нефть», ПАО «Северсталь», ПАО «РусГидро».
Ключевые слова: Data Lake, озеро данных, Data Warehouse, хранилище данных, большие данные, IIoT (Industrial Internet of Things), промышленный интернет вещей, аналитика данных, промышленное предприятие
JEL-классификация: С80, L86, L50
Введение
В настоящее время данные играют ключевую роль в развитии бизнеса, увеличении возможностей для аналитики и прогнозирования. Особую актуальность задача организации и обработки больших данных приобретает на промышленных предприятиях. Для реализации этих запросов появилась технология Data Lake (озеро данных). Поскольку архитектура Data Warehouse (хранилище данных) не позволяла решить проблему хранения больших наборов неструктурированных данных, компаниям потребовалось новое технологическое решение – озеро данных, которое является экономически более эффективным для предоставления доступа к данным и удовлетворения различных требований аналитики. Озеро данных также может стать одним из инструментов для мультимодальной аналитики – перспективного направления бизнес-аналитики, позволяющее выявить скрытые взаимосвязи организационно-экономических явлений и получать точные комплексные оценки для поддержки принятия управленческих решений [1].
Рост числа устройств IIoT (Industrial Internet of Things – Промышленный Интернет вещей), применяемых на производстве, также способствовал появлению технологии Data Lake. По итогам 2023 года количество устройств IoT в глобальном масштабе превысило 1 млрд, а основной сферой их применения являются системы дистанционного мониторинга [2].
Одной из ветвей развития IoT является его промышленное направление (IIoT) – интернет вещей отраслевого применения, который представляет собой систему взаимосвязанных датчиков, приборов, устройств и объединенных компьютерных сетей. Промышленный интернет вещей позволяет осуществлять сбор и обмен данными, а также предоставляет возможность удаленного мониторинга и управления с целью автоматизации процессов на предприятии.
Только за 2023 год рынок использования устройств промышленного интернета вещей вырос на 5% по сравнению с 2022 годом и достиг отметки в 144,4 млрд рублей. Эти данные приводит издание «Коммерсантъ» с ссылкой на аналитиков [3]. К 2026 году аналитики прогнозируют объем рынка IIoT порядка 189 млрд рублей. В связи с уходом зарубежных поставщиков с российского рынка также ожидается рост спроса на устройства и системы российского производства. Кроме того, рост количества устройств IIoT на российском рынке, по сообщению «Коммерсантъ», может быть также обеспечен государственными инициативами, связанными со стимулированием спроса на устройства интернета вещей в государственном секторе – до 2030 года планируются инвестиции в размерах до 90 млрд рублей [3]. На рисунке 1 представлено прогнозируемое количество устройств интернета вещей (IoT) в различных регионах к 2030 г.
Рисунок 1 – Прогнозируемое количество устройств интернета вещей (IoT) в различных регионах к 2030 г. [4]
Согласно «Концепции технологического развития до 2030 года», утвержденной правительством РФ, необходимо достигнуть технологического суверенитета, перейти к инновационно ориентированному экономическому росту, а также создать условия для устойчивого развития производственных систем. Главными драйверами этого процесса выступают сквозные и критические технологии [5]. Большие данные (Big Data), интернет вещей (IoT) входят в перечень сквозных технологий (перспективные технологии межотраслевого назначения на ближайшие 10-15 лет, оказывающие существенное влияние на развитие экономики, радикально меняя существующие рынки и (или) способствуя формированию новых рынков) [5]. Рост объема больших данных ведет к необходимости изменения подходов, методов, инструментов работы с ними – сбору, хранению и анализу. Одной из лидирующих технологий в данной области стала технология Data Lake (озеро данных) – инновационное хранилище данных различных форматов, а также набор инструментов для их обработки. Отличительной особенностью является сбор информации без конкретной изначальной цели, но с возможностью последующего анализа для любого направления – от построения бизнес-моделей, прогнозирования до имитационного моделирования. Используя Data Lake предприятие всегда имеет большой набор разнообразных данных, которыми можно воспользоваться при принятии управленческого решения в любой момент времени.
Также следует отметить, что 16 марта 2023 года был проведен съезд Российского союза промышленников и предпринимателей (РСПП), на котором президент РФ В.В. Путин выступил с призывом к повсеместному развитию цифровых платформ и технологий управления на основе Big Data [6]. Промышленные предприятия, следуя тенденциям развития рынка, внедряют все большее количество источников генерации данных, которые в свою очередь требуют новых методов эффективной работы с ними в рамках деятельности предприятия.
Целью работы является расширение представления о технологии Data Lake, анализ существующей российской и зарубежной практики ее применения, а также выявление потенциала и преимуществ, позволяющих повысить эффективность деятельности промышленных предприятий в условиях цифровой трансформации бизнеса. Для написания статьи был использован метод анализа публикаций, метод сравнения, графический метод, а также критический анализ полученных результатов.
Сущность и особенности применения технологии Data Lake
Data Lake (Озеро данных) представляет собой централизованный репозиторий, который позволяет пользователям собирать и хранить необработанные данные в неструктурированном, полуструктурированном или структурированном формате из различных источников в любом масштабе длительный срок до момента востребования в будущем. Возможность производить обработку выборочного числа данных из потоков позволяет экономить ресурсы компаний. Внедрение технологий Data Lake охватывает все большее количество отраслей: телекоммуникации, медицина, нефтегазовая и нефтехимическая промышленность, торговля, а также финансовый сектор. Глобальной целью применения озера данных является создание сильной аналитической системы для непрерывной обработки данных и проведения обширных исследований. Типы данных, используемых в Data Lake представлены на рисунке 2.
Рисунок 2 – Типы данных в Data Lake
Источник: составлено авторами на основе [7-9]
Основными преимуществами применения Data Lake являются [8-10]:
- сокращение ресурсов на обработку за счет хранения данных в изначальном виде;
- хранение разнообразных типов данных;
- потоковый прием и передача данных;
- повышение качества загрузки и минимизация возможности потери данных при ETL-процессах;
- быстрый доступ к исходным данным;
- возможности гибкого масштабирования под потребности бизнеса.
Важно отметить, что при работе с озерами данных на этапе выполнения процессов ETL (Extract, Transform, Load – извлечение, преобразование, загрузк) пункт T (transform) выполняется после остальных, то есть процесс становиться ELT. При попадании данных в озеро им присваиваются метаданные, которые позволяют быстро в них ориентироваться, а также производить контроль за их поступлением. Это требуется для минимизации возникновения «болота данных» – ситуации заполнения озера беспорядочным и неуправляемым набором данных, который не подлежит дальнейшей аналитике.
В научной литературе часто сравнивают хранилище данных и озеро данных, выявляя преимущества каждого. По сути, озеро данных является следующим этапом в развитии технологий хранения и извлечения данных.
Развитие аналитики на предприятии тесно связано с применяемыми технологиями. На рисунке 3 представлено развитие работы с данными.
Чем выше уровень сложности реализации технологии, тем большую ценность она представляет для промышленного предприятия. Как видно из рисунка 3, следующим этапом развития стала технология Data Lakehouse (дом озера данных) – гибридное решение, сочетающее лучшие свойства хранилищ данных и озера данных.
Рисунок 3 – Развитие технологий сбора, хранения и извлечения данных
Источник: составлено авторами на основе [9-10]
Далее в таблице 1 приведено сравнение озера данных с хранилищем данных.
Таблица 1 – Сравнение озера данных и хранилища данных
Характеристика
|
Озеро данных
|
Хранилище данных
|
Цель
|
аналитика больших данных в реальном времени, прогнозная
аналитика
|
анализ данных для бизнес-аналитики и отчетности
|
Реализация
|
совместная работа с данными
|
поиск данных для бизнес-аналитики и отчетности
|
Пользователи
|
специалисты и инженеры по работе с данными,
бизнес-аналитики
|
бизнес-аналитики
|
Данные
|
данные любой структуры из любых источников
|
упорядоченные данные единого вида
|
Тип данных
|
неструктурированные, полуструктурированные,
структурированные
|
структурированные, в основном в табличной форме
|
Обработка данных
|
после сбора
|
перед сбором
|
Контроль данных
|
обеспечивает меньший контроль
|
четкая согласованность и контроль данных
|
Инструменты
|
инструменты с открытым исходным кодом
|
коммерческие инструменты
|
Принцип работы
|
ELT (Extract, Load Transform)
|
ETL (Extract, Transform, Load)
|
Схема работы
|
схема при чтении (без предопределенных схем)
|
схема при записи
|
Гибкость
|
высокая, хранение в исходном виде, структуризация
при необходимости
|
низкая, имеет фиксированную конфигурацию, необходима
предварительная структуризация
|
Экономичность хранения
|
высокая
|
низкая
|
Поддержка принятия решений
|
для анализа в реальном времени и приложений
машинного обучения и искусственного интеллекта
|
для сложных запросов и анализа на всех уровнях
организации
|
Как видно из таблицы, озеро данных и хранилище данных имеют значительные отличия, связанные с целями их внедрения, а также с исходными данными, принципами работы с ними.
Кроме существующих преимуществ имеется также ряд проблем, которые необходимо учитывать при работе с озером данных [9, 10, 13]:
- увеличение объемов собираемых данных в озере повышает риски утечки конфиденциальной информации и нарушения прав доступа, что требует дополнительных усилий по обеспечению безопасности данных;
- жесткие требования по непрерывному контролю качества поступающей информации: требуется следить за поступающими потоками и фильтровать лишние или испорченные записи, недостаточный контроль способен привести к появлению вышеупомянутого «болота данных»;
- управление метаданными: ограниченные метаданные затрудняют отслеживание происхождения и преобразований, примененных к данным;
- организация наборов данных: без определенных правил хранения и управления приводит к нерегулируемому потоку данных;
- сложности с обновлением и поддержкой инфраструктуры – рост объема и сложности данных в озере требует постоянного обновления и поддержки инфраструктуры;
- сложности в интеграции с существующими системами: переход с хранилищ данных на озеро данных может сопровождаться проблемами интеграции и взаимодействия с уже существующими системами предприятия, что усложняет передачу и обмен данных между различными платформами.
Данные недостатки озер данных необходимо учитывать при разработке стратегии внедрения и использования этой технологии.
Основной проблемой озера данных является сложность обеспечения высокого качества данных. Практически все информационные системы в мире страдают от проблем с качеством данных, таких как ошибки, неполнота, несогласованность и дублирование. По некоторым оценкам, от 1% до 5% хранимых компаниями данных имеют эти недостатки, поэтому обеспечение качества данных является одним из главных требований бизнеса [13]. Данные из внешних источников, которые помещаются в озеро данных, по своей природе гетерогенны и зашумлены, что усложняет процесс очистки и дедубликации, так называемые «зонные» архитектуры сортируют данные по различным «зонам» в зависимости от степени их детализации. Примером такой зонной архитектуры является структура данных Zaloni, состоящая из шести зон [8]:
- зона временной загрузки, в которой осуществляется базовая проверка качества данных при их загрузке;
- зона необработанных данных обрабатывает данные в их исходном формате, полученные из зоны временной загрузки;
- доверенная зона для передачи данных после их стандартизации и очищения;
- зона исследовательской песочницы для доступа к данным специалистов по анализу данных;
- зона потребления для бизнес-пользователей, которые могут использовать инструменты создания дашбордов;
- зона управления для управления метаданными, каталогами данных и вопросами безопасности.
Однако это всего лишь один из многих вариантов «зонной» архитектуры, которые могут значительно различаться по количеству и функциям зон. Некоторые архитектуры включают временную зону, другие – нет. Особого внимания заслуживает архитектура лямбда с двумя зонами обработки данных: одна – для пакетной обработки больших объемов данных и другая – для обработки данных в режиме реального времени, что обеспечивает эффективное управление обоими типами данных.
В целом, архитектура озера данных описывает структуру и компоненты системы. В литературе представлены три типа архитектуры Data Lake [10]. Первый тип подразумевает архитектуру пруда данных, в которой данные распределяются в соответствии с их сущностью (эксплуатационные данные, бизнес-данные и т. д.). Второй тип подразумевает архитектуру жизненного цикла данных (данные распределяются в соответствии со временем их существования). Наиболее часто используемая в промышленности архитектура – это зональная архитектура. Чаще всего работу озера данных представляют в следующем виде (Рисунок 4):
Рисунок 4 – Особенности работы озера данных
Источник: составлено авторами на основе [9, 10]
Для оптимизации работы с озером данных используется подразделение озера на зоны, которые обеспечивают более быстрое обнаружение данных и экономят время.
Data Lake как способ повышения эффективности деятельности промышленных предприятий
Возможность анализа огромных объемов и типов данных, генерируемых на промышленных предприятиях, может обеспечить эффективное прогнозирование технического обслуживания, улучшение прогнозирования спроса, управление парком устройств, понимание производственных проблем на всех уровнях и многое другое. Однако разрозненность данных затрудняет использование передовой аналитики в режиме реального времени и прогнозирования, а также применение искусственного интеллекта и машинного обучения для определения оптимальных действий по улучшению производства.
Датчики, устройства, оборудование и другие объекты, используемые в промышленных предприятиях, генерируют массив разнородных данных для отслеживания производительности в режиме реального времени. Например:
- морская нефтяная платформа оснащена примерно 80 тыс. IoT-датчиков, которые генерируют около 0,75 петабайт данных в год [14];
- производственные компании генерируют значительно более 1800 петабайт данных в год, что в два раза больше, чем в ближайших отраслях [15];
- лазерный дефектоскоп делает 86 000 записей событий в день при ежесекундной проверке, что в месяц составляет несколько гигабайтов [16];
- среднестатистическая организация имеет дело с 31 уникальным источником данных, которые могут использоваться в ее аналитических системах.
По состоянию на конец 2023 года объем мирового рынка IoT составил около 406 млрд долларов, из которых 375 млрд долларов приходится на IIoT. По прогнозным данным к 2030 году глобальный рынок IIoT достигнет более 1,5 трлн долларов. Аналитики предполагают, что ежегодный рост составит порядка 17%. В России в конце 2023 года объем рынка IoT составил 170 млрд рублей, а IIoT — 144,5 млрд рублей с тенденцией к росту [17].
Аналитики компании IDC при поддержке производителя жестких дисков Seagate подготовили отчет «Эпоха данных — 2025» (The Data Age 2025), в котором прогнозируют к 2025 году общемировой рост объема данных в 10 раз, причем большую часть будут генерировать предприятия, а не потребители [18].
Специалисты по обработке данных тратят 80% своего времени на подготовку данных для анализа, вместо того чтобы анализировать их, разрозненность данных увеличивает этот показатель и может негативно сказаться на аналитических инициативах [19].
Приведенные статистические результаты подчеркивают сложность использования всех данных, которые собирают промышленные предприятия. Большая часть информации недоступна для общего пользования, поскольку хранится в закрытых базах данных, системах автоматизации и локальном хранилище.
Согласно отчету исследовательской компании Aberdeen Group, организации, эффективно внедрившие технологию озера данных, в два раза чаще отмечают высокие скорость и эффективность сбора данных, чем компании, которые этого не сделали [20]. Эти организации также сообщают, что на 43% повышается операционная эффективность, на 32% снижаются транзакционные издержки, повышается удовлетворенность точностью данных [20], а узнаваемость бренда повышается до 20% [21]. Предприятия, использующие технологию озера данных, также могут обеспечить соблюдение политик безопасности данных в различных службах и средах.
Озеро данных (Data Lake) как способ повышения эффективности деятельности промышленных предприятий применяется для следующих целей:
- предиктивное обслуживание оборудования;
- улучшение качества продукции;
- прогнозирование инновационных продуктов;
- повышения качества управления активами.
Когда данные об оборудовании, активах и продуктах легко доступны, появляется возможность устранять неисправности до того, как они приведут к реальным проблемам. Компания Vantage Power Ltd, которая разрабатывает технологии для подключения и электрификации силовых агрегатов большегрузных автомобилей, использует платформу, созданную на базе озера данных Amazon Web Services (AWS), для получения информации и моделей предиктивной аналитики. Они используют данные и модели для принятия превентивных мер в режиме реального времени.
Возможность анализировать данные, хранящиеся в одном месте, независимо от их формата, позволяет промышленным компаниям использовать полученные сведения для ускоренной разработки инновационных продуктов. Производитель шарикоподшипников AB SKF использует свое озеро данных для хранения метрик о производительности продукции, собираемых в режиме реального времени, которые используются для разработки новых конструкций следующего поколения шарикоподшипников и смазочных материалов.
Озеро данных облегчает промышленным предприятиям совершенствование и реинжиниринг их продукции. Компания Astera Labs разрабатывает специализированные решения на основе полупроводников для облачной инфраструктуры и искусственного интеллекта, на которых параллельно выполняется несколько симуляций для повышения качества проектирования микросхем.
Озеро данных на базе Amazon Simple Storage Service (S3) помогло компании Georgia-Pacific LLC повысить эффективность использования активов и избежать потери прибыли от незапланированных остановок производства. Теперь Georgia-Pacific LLC может предсказать выход оборудования из строя на 60-90 дней вперед, что позволяет сократить незапланированные простои.
Промышленные предприятия, используя технологию Data Lake, могут повысить эффективность своей деятельности и достичь следующих эффектов (Рисунок 5).
Рисунок 5 – Эффекты от внедрения Data Lake (озера данных)
Источник: составлено авторами на основе [9, 22]
Таким образом, внедрение Data Lake позволит не только повысить эффективность деятельности, но и достичь стратегической цели – повышение стоимости и ценности промышленного предприятия на рынке, что особенно актуально в текущей экономической ситуации.
Также в качестве важных показателей эффективности внедрения Data Lake приводят следующие: масштабируемость, гибкость и производительность запросов.
Обзор применения Data Lake в зарубежных промышленных компаниях
Применение Data Lake позволяет раскрыть весь потенциал наборов данных для повышения эффективности деятельности промышленных предприятий.
Международная компания INVISTA по производству химикатов и волокон, создала свое озеро данных на базе Amazon Simple Storage Service (Amazon S3) и использует его для прогнозирования процессов и оптимизации запасов. Используя AWS для получения шаблонов заказов и других данных из системы SAP ERP, INVISTA создала замкнутый, полностью автоматизированный процесс складирования быстрореализуемых запасных частей, который показал значительную рентабельность инвестиций. По данным компании внедрение озера данных позволило экономить порядка двух млн долларов в год [23].
Еще в 2014 году компания General Electric (GE) создала новаторскую на тот момент систему озера данных промышленного масштаба, которая позволила изменить способы хранения, управления и сбора аналитической информации на основе анализа Big Data крупных промышленных предприятий. Программное обеспечение Data Lake являлось результатом совместной инициативы General Electric и Pivotal по созданию новой архитектуры, которая удовлетворяла особые потребности по работе с промышленными данными [24]. Промышленное озеро данных тех лет интегрировало промышленную программную платформу конгломерата Predix с программным обеспечением Pivotal. Система позволяла в режиме реального времени собирать большие данные, генерируемые такими системами, как самолеты, и анализировать их для получения значимой информации.
В 2024 году компания продолжает активно использовать озера данных в различных отраслях ведения бизнеса. Например, благодаря анализу данных оборудования и мониторингу его состояния GE смогла снизить частоту отказов и предотвратить нежелательные простои, что позволило сэкономить средства на ремонтах и повысить эффективность производства. В апреле 2024 года General Electric завершила разделение на три независимые компании: GE Aerospace (авиадвигатели), GE Vernova (энергетическое оборудование) и GE HealthCare (медицинское оборудование).
GE Vernova – ведущий мировой поставщик ветряных турбин, установила более 49 000 станций по всему миру. Используя сервисы AWS, компания GE Vernova создала озеро данных, в котором собирает, отслеживает и анализирует машинные данные, полученные от ветряных турбин GE по всему миру. Инженеры в каждый момент времени осведомлены о температуре, скорости ветра, выработке электроэнергии, нагрузке на компоненты и других факторах, связанных с работой турбины [25].
Еще одним успешным примером внедрения Data Lake является проект компании Procter & Gamble (P&G) на базе решений Microsoft Azure для обработки данных и искусственного интеллекта, что позволило добиться оптимизации анализа данных, создания устойчивой цепочки поставок, повышения эффективности анализа потребительского спроса, производственных операций и маркетинговых активностей [26].
В качестве успешного проекта применения данной технологии можно привести опыт компании Coca Cola Andina. Этот гигант производства напитков использует озеро данных для сбора и хранения данных от более чем 54 миллионов потребителей из Чили, Аргентины, Бразилии и Парагвая. Компания использует облачную платформу Amazon Web Services (AWS) для своего озера данных, так как она является доступной и надежной системой с неограниченной емкостью хранения и обработки.
В результате своих действий компания Coca Cola Andina получила рост производительности своей аналитической команды на 80% и объединение около 95% данных из разных сфер бизнеса, что предоставило им большие возможности для аналитики [27]. Надежные и унифицированные данные улучшили процесс принятия решений на основе подробных данных о клиентах, что позволило увеличить доходы за счет эффективных рекламных акций, сокращения дефицита запасов и повышения качества обслуживания.
Российская практика применения Data Lake на промышленных предприятиях
Внедрение технологии Data Lake на российских промышленных предприятиях также становится все более распространенным и востребованным явлением в условиях цифровой трансформации.
Российские промышленные предприятия все более осознают важность внедрения технологий Data Lake для повышения своей конкурентоспособности и адаптации к условиям цифровой экономики. В качестве российской практики можно привести успешные проекты внедрения в АО «ОХК «Уралхим», ПАО «Газпром нефть», ПАО «Северсталь», ПАО «РусГидро».
АО «ОХК «УРАЛХИМ» является мировым лидером по производству минеральных удобрений и химической продукции. Перед компанией стояла задача создания единого информационного пространства для работы с датчиками оборудования, интеграции с BI-платформой и мониторинга отклонений в режиме реального времени. В результате был реализован совместный проект с IT-компанией ЗАО «КРОК инкорпорейтед» («КРОК») по внедрению Data Lake и системы мониторинга датчиков оборудования. Также компания планирует объединить промышленные и бизнес-данные в единую управляемую среду. Согласно отчету компании результатом внедрения стали следующие эффекты: более точное прогнозирование объемов продукции, повышение ее качества, построение предиктивных моделей обслуживания оборудования, удобная реализация проверки бизнес-гипотез [28].
Специалисты «КРОК» спроектировали озеро данных с возможностью масштабирования для анализа и хранения потоковых данных о показателях с технологических установок оборудования глубиной 5 и более лет. По данным разработчиков, в будущем созданное озеро данных сможет стать основной для объединения промышленных, финансовых и других данных. Также в Data Lake специалисты «КРОК» добавили возможность разработки и внедрения предиктивного технического обслуживания и ремонта на базе машинного обучения [28].
Еще одним примером крупной российских промышленной компании, внедрившей Data Lake, является ПАО «Газпром нефть». Дирекция региональных продаж в конце 2017 года инициировала проект «Умное озеро данных» по внедрению комплексной платформы обработки и хранения данных с интегрированными компонентами Data Governance (Управление данными). Основными целями внедрения Data Lake были следующие: мониторинг состояния оборудования на месторождениях, анализ данных о добыче и прогнозирование отказов. Благодаря использованию Data Lake ПАО «Газпромнефть» смогла снизить издержки на обслуживание оборудования на 12%, увеличить надежность оборудования и уменьшить время простоя нефтедобывающих установок на 20% [29].
Для своей работы они отобрали решение Arenadata Hadoop — отечественное решение, не уступающее мировым аналогам, а в ряде задач и превосходящее их, и получили награду «Проект года» Global CIO в номинации «Аналитические решения и Big Data» за 2019 год. А в 2020 году сразу 2 проекта ПАО «Газпром нефть» заняли 1-ое место в номинации «Аналитика и Big Data»: «Внедрение корпоративной платформы управления данными» и «Сервис интеграции и анализа данных» [30].
Еще одним успешным примером внедрения является внедрение гибридного озера данных в компании ПАО «Северсталь» в рамках их стратегии по обеспечению конкурентных преимуществ. На основе собираемых в озере данных реализуются проекты по предиктивной аналитике, оптимизации качества производимой продукции, автоматизации системы управления технологическим процессом и другим направлениям.
На 2023 год компания ПАО «Северсталь» владеет более 2.1 Пб данных с репликацией в озере данных и поддержкой решений в режиме 24/7. По данным компании, использование Data Lake привело к повышению эффективности производства на 18%, сокращению количества брака на 10% и улучшению планирования производственных процессов [31, 32].
В 2023 году ПАО «РусГидро» совместно с ООО «Сатори» реализовали масштабный проект озера данных и дата каталога в рамках функционального развития Единой интеграционной платформы, что позволило повысить управляемость, снизить затраты и достичь высокой скорости обработки данных [33].
Следует отметить, что были приведены успешные примеры внедрения Data Lake в промышленные предприятиях различных отраслей экономики, что подтверждает универсальность и применимость данной технологии. Также следует отметить, важность применения Data Lake на промышленных предприятиях, поскольку внедрение данной технологии способствует достижению стратегических целей, повышению конкурентоспособности, а также оптимизации процессов и улучшению взаимодействия с важными стейкхолдерами – клиентами.
Заключение
Основой любого современного предприятия выступают данные, которые, в свою очередь, требуют тщательного контроля и умения эффективно ими распоряжаться в рамках деятельности компании. Благодаря использованию технологии Data Lake, промышленные предприятия имеют возможность оперативно извлекать необходимые данные, которые находятся в едином месте. Следует также отметить, что возможности использования данных в сочетании с возможностями IloT огромны. На основе изученных источников, можно сделать вывод, что применение технологии Data Lake повышает эффективность деятельности промышленных предприятий. Благодаря технологии Data Lake промышленные предприятия могут создавать прогнозы и модели, необходимые для постоянного повышения качества, увеличению операционной эффективности и улучшению уровня обслуживания клиентов.
Несмотря на наличие сложностей в связи с санкционными действиями со стороны вендоров, предоставляющих решения для реализации озера данных, российские компании продолжают активно применять данную технологию, переходя на отечественные разработки, о чем свидетельствуют отчеты крупных промышленных компаний. Дальнейшее развитие технологии Data Lake сопровождается усложнением архитектуры и методов работы с данными. С 2020 года появилась новая модель гибридной архитектуры данных Data Lakehouse, сочетающая в себе преимущества Data Warehouse и Data Lake, но пока не получила широкого распространения.
Источники:
2. Серебряков Е.С. IoT на промышленных предприятиях для оптимизации производства и обеспечения конфиденциальности данных // Наука молодых - будущее России: Сб. научных статей 7-й Международной научной конференции перспективных разработок молодых ученых. Юго-Западный государственный университет. Том 4. Курск, 2022. – c. 255-259.
3. Плюс индустриализация всего интернета. Официальный сайт информационного издательства «Коммерсант». [Электронный ресурс]. URL: https://www.kommersant.ru/doc/6455358?ysclid=m2253nzg7y855879121 (дата обращения: 20.10.2024).
4. How Many IoT Devices Are There (2024-2032). Demandsage. [Электронный ресурс]. URL: https://www.demandsage.com/number-of-iot-devices/ (дата обращения: 20.10.2024)).
5. Об утверждении Концепции технологического развития на период до 2030 года»: Распоряжение Правительства Российской Федерации от 20.05.2023 г. №1315-р. Официальный сайт Правительства России. [Электронный ресурс]. URL: http://government.ru/news/48570/ (дата обращения: 20.10.2024).
6. Как прошел съезд РСПП с участием Путина. Главное. Официальный сайт мультимедийного холдинга ГК «РБК». [Электронный ресурс]. URL: https://www.rbc.ru/business/16/03/2023/641334ad9a794717a8020057 (дата обращения: 20.10.2024).
7. Data Lake. Официальный сайт публичной облачной платформы Yandex Cloud. [Электронный ресурс]. URL: https://yandex.cloud/ru/docs/glossary/datalake?ysclid=m49xf4cp3j676839051 (дата обращения: 20.11.2024).
8. Sawadogo P., Darmont J. On data lake architectures and metadata management // Journal of Intelligent Information Systems. – 2021. – № 1. – p. 97-120. – doi: 10.1007/s10844-020-00608-7.
9. Nambiar A., Mundra D. An Overview of Data Warehouse and Data Lake in Modern Enterprise Data Management // Big Data Cognitive Computing. – 2022. – № 4. – p. 132. – doi: 10.3390/bdcc6040132.
10. Errami S.A., Hajji H., El Kadi K.A., Badir H. Spatial big data architecture: from datawarehouses and data lakes to the Lakehouse // Journal of Parallel and Distributed Computing. – 2023. – № 176. – p. 70-79. – doi: 10.1016/j.jpdc.2023.02.007.
11. Maharaj K., Kumar K. Enhancing Data Warehouse Efficiency by Optimizing ETL Processing in Near Real Time Data Integration Environment // International Conference on Big Data Intelligence and Computing: Singapore: Springer Nature Singapore. 2022. – p. 289-304.
12. Dibouliya A. Review on: Modern Data Warehouse & how is it accelerating digital transformation // International Journal of Advance Research, Ideas and Innovations in Technology. – 2023. – № 2. – p. 285-297.
13. Wrembel R. Still Open Problems in Data Warehouse and Data Lake Research // Eighth International Conference on Social Network Analysis, Management and Security (SNAMS): IEEE. 2021. – p. 1-3.
14. Море волнуется раз: как умнеет «морской бизнес» и где будущее уже наступило. Официальный сайт Автономной некоммерческой организации высшего образования «Университет Иннополис». [Электронный ресурс]. URL: https://hightech.fm/2018/05/11/sea-business (дата обращения: 25.11.2024).
15. Три зеттабайта: действительно так много?. Сообщество IT-специалистов Хабр. [Электронный ресурс]. URL: https://habr.com/ru/companies/seagate/articles/554028/ (дата обращения: 25.11.2024).
16. Озеро знаний: зачем НЛМК построили data lake. Официальный сайт информационного портала ComNews. [Электронный ресурс]. URL: https://www.comnews.ru/digital-economy/content/205026/2020-03-16/2020-w12/ozero-znaniy-zachem-nlmk-postroili-data-lake (дата обращения: 25.11.2024).
17. Тренды развития промышленного интернета вещей. Информационный портал РБК Тренды. [Электронный ресурс]. URL: https://trends.rbc.ru/trends/industry/66dac9389a79473cfa3eaa5a?ysclid=m3bl6x5qo4924663488 (дата обращения: 25.11.2024).
18. Будущее big data: к 2025 году 60% мировых данных будет создавать бизнес. Официальный сайт российской версии финансово-экономического журнала Forbes. [Электронный ресурс]. URL: https://www.forbes.ru/tehnologii/341869-budushchee-big-data-k-2025-godu-60-mirovyh-dannyh-budet-sozdavat-biznes?ysclid=m3ac6sl780262361889 (дата обращения: 25.11.2024).
19. Что такое Big Data?. Официальный сайт корпорации-разработчика программного обеспечения Oracle Corporation. [Электронный ресурс]. URL: https://www.oracle.com/cis/big-data/what-is-big-data/ (дата обращения: 25.11.2024)).
20. Заблуждения об озерах данных и их роли в корпоративном хранении данных. Официальный сайт российской версии финансово-экономического журнала Forbes. [Электронный ресурс]. URL: https://www.forbes.com/councils/forbestechcouncil/2018/11/28/misconceptions-about-data-lakes-and-their-role-in-enterprise-data-storage/ (дата обращения: 25.11.2024).
21. Пять примеров того, как Big Data меняет нашу жизнь к лучшему. Официальный сайт государственного информационного агентства ТАСС. [Электронный ресурс]. URL: https://tass.ru/obschestvo/16108007?ysclid=m3acxeg5ob110048373 (дата обращения: 25.11.2024).
22. Реализация прототипа Озера производственных данных на базе компонентов Платформы управления данными. Официальный сайт ООО «ТДата». [Электронный ресурс]. URL: https://data.rt.ru/projects/production-data-lake (дата обращения: 25.11.2024).
23. Cloud Solutions for Manufacturing. Amazon Web Services Experience. [Электронный ресурс]. URL: https://aws-experience.com/emea/smb/media/admin-media/32f0fd54-b986-4495-a574-9c029683c62c (дата обращения: 25.11.2024).
24. GE Announces First Data Lake Approach for Industrial Internet to Better Access, Analyze and Store Industrial-Strength Big Data. Официальный сайт информационного агентства «Ореанда». [Электронный ресурс]. URL: https://www.oreanda-news.com/en/promyshlennost/article839307/ (дата обращения: 25.11.2024).
25. Reports & Filings. Official website General Electric Vernova. [Электронный ресурс]. URL: https://www.gevernova.com/investors/reports-filings (дата обращения: 25.11.2024).
26. For Procter & Gamble, data is at the heart of digital transformation. Official website Microsoft. [Электронный ресурс]. URL: https://ms-f1-sites-03-ea.azurewebsites.net/en-us/story/1402016901008352804-procter-and-gamble-consumer-goods-azure (дата обращения: 25.11.2024).
27. 9 Essential Data Lake Use Cases You Must Know. Official website Atlan Pte Ltd. [Электронный ресурс]. URL: https://atlan.com/data-lake-use-cases/ (дата обращения: 25.11.2024).
28. «УРАЛХИМ» при поддержке КРОК запустил единую систему управления на базе Big Data. Официальный сайт компании АО «ОХК «Уралхим». [Электронный ресурс]. URL: https://www.uralchem.ru/press/news/item22370/?SECT=corporate_events (дата обращения: 28.11.2024).
29. ПАО «Газпром нефть» построило озеро данных на Arenadata Hadoop. Официальный сайт ООО «Аренадата Софтвер». [Электронный ресурс]. URL: https://arenadata.tech/projects/gazprom/ (дата обращения: 28.11.2024).
30. Новые победы вместе с Arenadata: 3 призера конкурса «Проект Года» от GlobalCIO-2020. Официальный сайт специализированного учебного центра по технологиям Big Data «Школа больших данных». [Электронный ресурс]. URL: https://bigdataschool.ru/blog/arenadata-top-projects-of-globalcio-2020.html (дата обращения: 28.11.2024).
31. Цифра и металл: зачем заводы Северстали снабдили диджитал-решениями. Официальный сайт интернет-журнала о бизнесе в России «Секрет фирмы». [Электронный ресурс]. URL: https://secretmag.ru/cifrovaya-ekonomika/cifra-i-metall-zachem-zavody-severstali-snabdili-didzhital-resheniyami-1146057.htm?ysclid=m44bvg5h1p684992160 (дата обращения: 28.11.2024).
32. Северсталь создает крупнейшее среди промышленных компаний России data lake. Официальный сайт ПАО «Северсталь». [Электронный ресурс]. URL: https://severstal.com/rus/media/archive/2017-08-02-severstal-sozdaet-krupneyshee-sredi-promyshlennykh-kompaniy-rossii-data-lake/ (дата обращения: 25.11.2024).
33. Реализация озера данных и дата каталога в рамках функционального развития Единой интеграционной платформы. Официальный сайт ООО «Сатори». [Электронный ресурс]. URL: https://satorilab.ru/projects/rgits (дата обращения: 25.11.2024).
Страница обновлена: 17.12.2024 в 00:03:16