Истина в данных: проект, который упростит жизнь аналитикам, инженерам данных и дата-сайентистам

В «Газпром нефти» создают платформу для анализа данных и разработки цифровых сервисов на основе искусственного интеллекта. Платформа поможет в разы сократить время реализации таких проектов и поставить на поток запуск решений на основе искусственного интеллекта.

Данные становятся одним из важнейших ресурсов в современных промышленных компаниях. Технологии big data и искусственного интеллекта позволяют извлечь из них дополнительную ценность и вывести бизнес на новый уровень. Однако использование в отдельных проектах этих технологий требует целого ряда однотипных процедур: запрос и приобретение вычислительных ресурсов, развертывание и настройка необходимых инструментов для работы с данными, поиск подходящих данных и получение доступа к ним, проверка их качества, полноты и актуальности. В результате реализация проектов может затягиваться на месяцы и даже годы.

Между тем таких проектов становится все больше, новые возникают чуть ли не каждый день, и скорость их реализации становится одним из ключевых факторов успешной цифровой трансформации бизнеса, перехода к принятию решений на основе данных. Необходимо сделать этот процесс максимально легким и бесшовным, научиться быстро и недорого проверять гипотезы, а в случае успеха без промедления переходить к созданию работающих решений. «Сегодня речь идет не просто о работе с данными, а о создании цифровых сервисов, создании ценности на основе этих данных», — подчеркивает руководитель Центра разработки и монетизации данных «Газпром нефти» Анджей Аршавский.

Чтобы работать с данными эффективно, приходится менять подходы. Для этого в «Газпром нефти» реализуется проект по созданию корпоративной платформы анализа данных, которая упростит жизнь многим аналитикам, инженерам данных и дата-сайентистам.

Озера данных

Озеро данных — элемент инфраструктуры big data, хранилище большого объема данных, сгенерированных или собранных одной компанией. В отличие от традиционных хранилищ, в которых данные определенным образом систематизируются при их загрузке в хранилище, в таких озерах они содержатся в исходном, неструктурированном виде. Это позволяет хранить большие объемы разнородной информации, полученной из разных источников. Структурирование происходит уже в момент запроса — выгрузки данных из озера для их анализа, когда пользователь определяет, какие именно данные ему нужны и что он собирается с ними делать. Это позволяет оперировать очень большими объемами данных и получать к ним доступ очень быстро, чего традиционные хранилища обеспечить не могут. Если продолжить аналогию, традиционное хранилище данных, в отличие от озера, можно сравнить с бутилированной водой. Для своих задач это может быть удобно, но если нужно разлить эту воду в бочки или цистерны или пустить ее на колесо водяной мельницы, такая форма хранения только усложнит решение задачи.

В «Газпром нефти» озера данных организованы в разных бизнес-блоках для решения специфических задач, связанных с анализом больших данных.

Принцип одного окна

Первая сложность, с которой сталкиваются специалисты, — доступность данных. «Это общая проблема всех больших компаний: разнообразных источников данных и бизнес-систем, в которых они хранятся и используются, может быть очень много», — говорит руководитель программ интеграционных решений и цифровых двойников Центра разработки и монетизации данных Иван Челюбеев. Их поддержкой занимаются разные команды, часто даже разные юридические лица. Так, например, у «Газпром нефти» десятки дочерних предприятий, работающих в самых разных областях — от разведки и добычи углеводородов до сбыта разнообразных нефтепродуктов. Велико многообразие генерируемой и накапливаемой ими информации: данные сейсморазведки, бурения, добычи, параметры работы оборудования нефтеперерабатывающих заводов, информация о партиях нефтепродуктов, данные клиентской аналитики с АЗС и др.

Обычно данные используются для решения операционных задач в рамках своих бизнес-систем. А когда возникают новые задачи или даже просто гипотезы о том, как по-новому их можно использовать, люди, проверяющие эти гипотезы, сталкиваются с необходимостью не только найти, где эти данные находятся, но и обосновывать необходимость доступа к ним.

В разных бизнес-системах данные могут храниться в разных форматах. Кроме того, у каждой из них может быть свой набор требований и правил доступа. Если тот или иной проект нуждается в данных из разных источников, согласование доступа к ним может потребовать значительных усилий и времени. Решить проблему позволит консолидация данных, перевод их из владения отдельным подразделением или системой во владение компанией. «Данные должны быть ближе к пользователю. Доступ к ним должен осуществляться по единому универсальному своду правил», — отмечает Иван Челюбеев.

Платформа для работы с данными

Задача платформы — предоставить для пользователей в компании среду, в которой будут доступны любые данные, независимо от их источника. При этом речь не идет о том, что все они будут собраны в единое озеро данных. Проект не ставит целью заменить ту инфраструктуру для работы с данными, которая создавалась в бизнес-блоках компании на протяжении нескольких лет. «В блоке логистики, переработки и сбыта (БЛПС) существует хранилище данных по качеству и количеству нефтепродуктов (проект „Нефтеконтроль“), строится хранилище транзакционных данных БЛПС. Эти проекты не будут остановлены, но они будут интегрированы с общей платформой, чтобы поставлять данные, необходимые для централизованной аналитики», — рассказывает руководитель Центра цифровой трансформации блока логистики, переработки и сбыта «Газпром нефти» Владимир Воркачев.

«Наша платформа — не столько озеро данных, сколько система работы с ними», — отмечает Иван Челюбеев. Те или иные агрегированные показатели, наиболее актуальные для общекорпоративной аналитики, могут рассчитываться и храниться непосредственно на общей платформе, с другими удобнее работать, подключаясь к хранилищам бизнес-систем. При этом важно, чтобы доступ к историческим данным было легко организовать в любой момент, когда они понадобятся. «Доступность данных — это сервис, который обеспечивает команда проекта, — подчеркивает Анджей Аршавский. — Не так важно, каким способом она достигнута. Главное, чтобы пользователю было удобно».

Набор инструментов

Другая важная задача платформы — обеспечить специалистов подходящими инструментами для разработки математических моделей и работы с big data. Системы управления данными, библиотеки математического моделирования, ETL-инструменты, инструменты работы с качеством данных, business intelligence... Платформа включает наборы таких инструментов, специально подобранные для выполнения разных типов задач.

«За исключением небольшого числа уникальных проектов большую часть задач можно разделить на некоторое количество классов, и каждый из них требует определенного набора инструментов», — поясняет Иван Челюбеев. На одном полюсе — задачи традиционной бизнес-аналитики: расчеты статистических показателей, построение графиков, диаграмм, отчетов для руководителей разного уровня. На другом — потребности продвинутых дата-сайентистов, занятых построением сложных моделей и тщательно подбирающих наиболее удобный для себя набор инструментов. Между этими крайними вариантами — некоторое количество сценариев, под каждый из которых платформа предоставляет свою рабочую среду. «При этом платформа может развиваться: если задачи пользователей меняются, меняются классы задач, то ненужные инструменты должны выбрасываться, а нужные — добавляться», — уточняет Иван Челюбеев.

Среди других задач проекта, упрощающих работу аналитиков, — обеспечение качества данных. Работа с сырыми данными представляет интерес в первую очередь для дата-сайентистов. Другим специалистам чаще требуется тот уровень данных, на котором про их качество, полноту и актуальность уже все известно. «Платформа также решит вопрос с предоставлением для обработки данных необходимых вычислительных ресурсов, потребности в которых в случае серьезных задач могут оказаться весьма значительными», — добавляет Анджей Аршавский.

Искусственный интеллект в массы

Сейчас платформа находится на этапе строительства. Функциональный прототип проходит тестирование с привлечением нескольких пилотных бизнес-проектов. Полномасштабная версия, доступная всем потенциальным пользователям и на постоянной основе подключенная к источникам производственных данных, будет запущена осенью.

«Мы предполагаем, что благодаря такой платформе время реализации проектов может быть сокращено в несколько раз, — говорит Анджей Аршавский. — Однако вопрос серьезнее и шире, чем просто экономия времени и средств. С появлением общекорпоративного инструмента для анализа данных реализацию решений на основе искусственного интеллекта можно будет поставить на поток».

Как отмечает Владимир Воркачев, платформа обеспечит всех аналитиков данных в периметре компании новыми эффективными инструментами, что позволит снизить издержки и трудозатраты. Кроме того, проект важен с организационной точки зрения. «Платформа позволяет выстроить управление данными во всей компании по единым правилам, сформировать общие требования ко всем специалистам, работающим с данными», — говорит руководитель Центра цифровой трансформации БЛПС.

Корпоративное облако апробаций

В «Газпром нефти» в опытно-промышленную эксплуатацию запущено Корпоративное облако апробаций (КОА) — технологическая платформа, созданная для ускорения тестирования новых для компании IT-технологий и IT-решений и проверки гипотез до начала их полномасштабной реализации и внедрения.

Проектам цифровой трансформации важна скорость проверки гипотез и создания прототипа продукта, а также тестирования новых платформ и IT-технологий. КОА было создано для ускорения и поддержки таких проектов. Платформа может очень быстро предоставить необходимую инфраструктуру (виртуальные машины), на которой производится тестирование. Ресурс подготовлен заранее, поэтому каждая новая апробация не требует проведения процедуры закупок оборудования. «Благодаря КОА сроки развертывания новых систем для тестирования удалось уменьшить с 3 месяцев до 1 недели», — отмечает начальник отдела апробаций ИТСК Дмитрий Лютин.

В настоящее время в КОА уже запущено более 30 апробаций. Среди них — прототип будущего корпоративного мессенджера, тестирование алгоритмов машинного обучения для минимизации издержек в работе с поставщиками, система автоматизации закупочных процессов при исследовании керна и флюидов и другие.

Платформа позволяет развертывать до 100 тестовых стендов одновременно. Проекты, запущенные в КОА, могут использовать реальные производственные данные. Это важно, так как уровень сложности цифровых проектов, реализуемых сегодня в «Газпром нефти», не позволяет эффективно тестировать их на синтетических данных.

«Оперативное тестирование цифровых решений — один из важнейших факторов успеха их внедрения. КОА позволит значительно повысить эффективность и скорость внедрения новых решений, а в перспективе и упростить процесс общения и утверждения проектов. Мы рассчитываем, что использование Корпоративного облака апробаций даст дополнительный стимул для развития цифровых продуктов в «Газпром нефти», — отмечает генеральный директор ИТСК Алексей Поперлюков.

В отличие от платформы анализа данных КОА не предназначен для того, чтобы на нем на постоянной основе работали готовые решения. После успешного прохождения апробации на КОА проект может быть развернут с использованием другой инфраструктуры и среды.

-------------------------------------------------------------------

Хотите оперативно узнавать о выходе других полезных материалов на сайте "ГИС-Профи"?
Подписывайтесь на нашу страницу в Facebook.
Ставьте отметку "Нравится", и актуальная информация о важнейших событиях в энергетике России и мира появится в Вашей личной новостной ленте в социальной сети.