В эпоху цифровой трансформации данные становятся стратегическим активом для любого бизнеса. Однако эффективное использование информации требует не только ее сбора, но и построения грамотной архитектуры доступа и анализа.
Георгий Андрончик, Lead Data Engineer в Sanofi и лауреат Национальной Бизнес Премии "Технологии и инновации 2023" в номинации "Программист года в области инфраструктуры данных", разработал инновационный механизм для преобразования запросов к базам данных, который позволяет компаниям не зависеть от конкретных аналитических инструментов и эффективнее работать со своими данными.
В интервью Pravda.Ru эксперт рассказал, как его разработка меняет подход к работе с данными, почему открытый исходный код стал стратегическим выбором, как российские IT-специалисты могут конкурировать с мировыми технологическими гигантами и как подготовиться к изменениям уже сейчас.
— Георгий, вы стали лауреатом Национальной Бизнес Премии "Технологии и инновации 2023" в номинации "Программист года в области инфраструктуры данных" за разработку уникального технического решения. Расскажите, пожалуйста, в чем заключается ваша инновация и какие проблемы она решает?
— Спасибо, для меня большая честь получить эту награду. Она отмечает мою работу над созданием SQL Query Logical Plan Rewrite Engine во время моей деятельности в компании Cube Dev. Основная инновация заключается в разработке механизма, который позволяет бизнес-аналитическим (BI) инструментам бесшовно подключаться к семантическому слою данных компании с использованием стандартного языка SQL так же, как они подключаются к обычной базе данных.
Если объяснить простыми словами, я создал своего рода "переводчик", который позволяет аналитическим инструментам компаний напрямую подключаться к базам данных через единый стандартизированный слой.
До этого решения существовала серьезная проблема: когда компания хотела анализировать свои данные, ей приходилось настраивать бизнес-данные и определения всех важных показателей (таких как "выручка", "конверсия", "активные клиенты") внутри самого аналитического инструмента. Это создавало зависимость от конкретного поставщика. Представьте, что вы годами настраивали сложную систему отчетности в одном инструменте, а затем решили перейти на другой — вам пришлось бы заново создавать все правила и определения, что очень затратно и трудоемко. Моя разработка позволила решить эту проблему, создав независимый слой, где хранятся все бизнес-определения и правила расчета показателей. Благодаря этому компании могут свободно менять аналитические инструменты или использовать несколько разных одновременно, не теряя единого понимания данных.
— Выходит, вы создали нечто вроде универсального переводчика между разными системами данных в компании?
— Да, в определенном смысле это так. Технически это было непросто реализовать, потому что аналитические инструменты обычно отправляют запросы к "сырым" данным, ожидая получить детальную информацию. Но в семантическом слое хранятся уже обработанные агрегированные метрики. Система сама переписывает запросы так, чтобы использовать уже обработанные данные — и всё работает быстрее и проще, без участия человека. Это как если бы кто-то задал вопрос на испанском, а вы не только перевели его на русский, но и переформулировали так, чтобы использовать имеющуюся у вас информацию для точного ответа. Эта проблема долго мешала компаниям использовать семантический слой — и теперь она, наконец, решена.
— Вы упомянули семантический слой данных. Большинство наших читателей — не технические специалисты. Можете объяснить, что это такое простыми словами и почему он так важен для бизнеса?
— Представьте, что у компании — масса разрозненных данных: о продажах, клиентах, маркетинге, сайте. Они хранятся в разных системах, часто с техническими названиями, понятными только IT-специалистам. Семантический слой — это как универсальный переводчик и организатор. Он создаёт единый "словарь", в котором бизнес-понятия вроде "выручка" или "конверсия" чётко определены и связаны между собой — вне зависимости от того, откуда берутся данные.
Вместо сложных таблиц вроде sales_fact_table и crm_customer_log, аналитик видит понятные категории — "Продажи по регионам", "Активные клиенты", "Стоимость привлечения". Это делает данные доступными не только IT-специалистам, но и менеджерам.
Польза от семантического слоя огромна. Он обеспечивает единый подход ко всем метрикам в компании — все используют одинаковые определения, что исключает ошибки. Он даёт бизнесу прямой доступ к данным без участия IT, ускоряя принятие решений. И, наконец, он становится "единым источником правды", на который можно уверенно опираться в стратегических вопросах.
— Спасибо за понятное объяснение! Давайте поговорим о практическом применении. В чем конкретно заключается экономическая выгода для компаний, которые внедряют ваше решение?
— Основная экономическая выгода — в избавлении от зависимости от конкретных программ для анализа данных и отчётности. Раньше компании встраивали бизнес-логику прямо в такие платформы, как Tableau или Power BI, и при смене инструмента приходилось настраивать всё заново — это было дорого и трудоёмко. Моё решение, реализованное в Cube, позволяет создать независимый слой — компания может использовать любую аналитическую платформу или сразу несколько, не переплачивая и не завися от одного поставщика.
Вторая выгода — повышение эффективности. Аналитики больше не тратят время на сложные запросы и интеграции: они работают с единым, понятным интерфейсом. Движок сам переписывает запросы под нужный формат и ускоряет их выполнение, что сокращает время на отчёты и освобождает ресурсы.
Третье — качество данных. Когда все отделы опираются на единые метрики, снижается риск ошибок в принятии решений. Бизнес-пользователи могут получать нужную информацию без участия IT-команды. В итоге — меньше затрат, быстрее процессы и больше конкурентных преимуществ.
— Давайте теперь вернемся к технической стороне вашей разработки. Как именно работает созданный вами механизм преобразования запросов? С какими сложностями вы столкнулись при его создании?
— Мой движок работает как переводчик, который не просто переводит с одного языка на другой, но и адаптирует фразу под доступные ресурсы. Это как готовить по рецепту, когда не хватает ингредиентов: нужно изменить рецепт, но получить тот же результат.
Технически это выглядит так: аналитическая программа — например, система для создания отчётов — отправляет SQL-запрос, движок превращает его в схему действий, понятную системе, а затем переписывает её, чтобы использовать уже обработанные данные из семантического слоя вместо необработанных таблиц. За это отвечают особые правила преобразования, которые я разработал.
Главная трудность была в том, чтобы обеспечить точную работу движка с любыми SQL-запросами, даже самыми сложными. SQL — это мощный и гибкий язык, и нужно было гарантировать, что движок даст корректные результаты в любых сценариях. На создание ушёл почти год: сначала полгода — на сам механизм, и ещё столько же — на то, чтобы превратить его в стабильный, готовый к использованию инструмент. По сути, это было создание компилятора для работы с бизнес-данными.
— Вы сделали ваш код открытым, что позволило более 1700 пользователям внедрить его в свои проекты. Почему вы выбрали этот путь вместо создания закрытого коммерческого продукта? И считаете ли вы, что за открытым кодом будущее в сфере работы с данными?
— Решение открыть исходный код Cube и моего движка было стратегическим шагом. На тот момент мы были стартапом и конкурировали с такими гигантами, как Google и Oracle, у которых уже были решения для семантических слоёв. Просто инновационного продукта было недостаточно — нужно было построить сообщество. Открытый код позволил разработчикам по всему миру свободно использовать и адаптировать технологию под свои задачи, что ускорило её развитие.
Кроме того, это продемонстрировало прозрачность и дало пользователям полный контроль — важный фактор для инфраструктурных решений. Благодаря этому код стал быстро набирать популярность: миллионы скачиваний, тысячи "звёзд" на GitHub. Фактически, мы открыли доступ к технологии, которая раньше была доступна только в составе дорогих корпоративных платформ.
Я уверен, что будущее за открытым кодом — особенно в области базовой инфраструктуры данных. Он облегчает интеграцию разных систем, ускоряет инновации и снижает зависимость от вендоров. Сегодня бизнесу нужны гибкие, "лего-подобные” архитектуры — и открытый код идеально подходит для этого, позволяя компаниям создавать именно то, что им нужно.
— Георгий, вы активно участвуете в развитии IT-отрасли и состоите в таких профессиональных сообществах, как British Computer Society и IAHD, которые объединяют опытных специалистов в области информационных технологий. Насколько важно для вас участие в таких организациях и какую роль оно играет в вашей работе?
— Да, в BCS я удостоен звания Fellow — это высшая степень членства в ведущем IT-институте Великобритании, которую присуждают за профессиональные достижения, лидерство и многолетний опыт. В IAHD состоят специалисты, работающие над передовыми технологическими решениями.
Подобные статусы подтверждают мою квалификацию и усиливают доверие со стороны работодателей, партнёров и клиентов. Они могут сыграть важную роль при участии в международных проектах и назначении на ответственные позиции.
Кроме того, членство даёт доступ к глобальному сообществу экспертов: это возможность обмена опытом, участия в формировании стандартов, менторских программах и профессиональных инициативах. Для меня это не просто знак признания, а способ оставаться в активном профессиональном контексте и влиять на развитие отрасли.
— Георгий, вас также приглашают оценивать работы других специалистов на международных IT-премиях — таких, как Globee Awards и Digital Leaders Awards. Это говорит о высоком уровне доверия к вашей экспертизе. Какие технологические тренды особенно заметны среди проектов, с которыми вам довелось работать в рамках этих конкурсов?
— Участие в жюри таких премий — это и честь, и большая ответственность. К оценке привлекают только опытных специалистов из разных сфер IT и бизнеса, что обеспечивает высокий уровень и объективность отбора.
Уровень представленных решений действительно впечатляет. Компании — от стартапов до лидеров отрасли — демонстрируют передовые разработки в ИИ, облаках, кибербезопасности, управлении данными и других направлениях. Особенно заметен рост ИИ-решений, которые проникают во все сферы бизнеса и предлагают принципиально новые подходы.
Конкуренция высокая, а проекты сочетают техническое качество с реальной бизнес-пользой. Это даёт отличное понимание глобальных трендов и того, какие технологии будут формировать будущее индустрии.
— Очевидно, что к вашей технической экспертизе прислушиваются не только на внешнем уровне — например, в рамках международных премий, — но и внутри компаний. В частности, в Sanofi вас регулярно привлекают к оценке ключевых технологических проектов. Расскажите, пожалуйста, о вашем участии в этих инициативах.
— В Sanofi я выступаю внутренним экспертом по оценке ключевых технологических инициатив — включая миграцию данных, облачные трансформации и внедрение решений машинного обучения. Эта работа входит в программу внутренней экспертизы, где я участвую с августа 2023 года.
Это серьёзная ответственность и знак доверия: я анализирую наиболее рискованные и ресурсоёмкие проекты, оцениваю их обоснованность, выявляю уязвимости и предлагаю пути оптимизации. Среди недавних кейсов — масштабные ML-платформы и защищённые развертывания AWS для стратегической аналитики.
Отдельно могу отметить работу по стабилизации Commercial Enterprise Data Lake — основной платформы Sanofi для аналитики и управленческих решений. Благодаря обнаруженным архитектурным узким местам и предложенным улучшениям нам удалось не только предотвратить сбои, но и значительно повысить производительность системы, что напрямую отразилось на скорости принятия решений в бизнесе.
— А какие задачи стоят перед вами сейчас в Siemens Energy? Расскажите, над чем работаете в рамках текущей роли.
— В Siemens Energy я с мая 2024 года работаю инженером по данным в технической группе, которая решает наиболее сложные архитектурные задачи. Моя работа связана с оптимизацией ключевых систем, где особенно важны системное мышление и глубокое понимание архитектуры.
Один из значимых проектов — разработка высокопроизводительного движка для тестирования баз данных. Он стал стандартом для всех инженерных групп компании и позволил масштабировать автоматизированное тестирование сложных платформ.
Также мне удалось устранить серьёзную проблему с производительностью в одной из критически важных внутренних систем: архитектурная переработка удвоила скорость обработки данных и сняла узкое место, мешавшее работе нескольких отделов.
Сейчас я руковожу инженерными направлениями в трёх приоритетных цифровых инициативах. Это уже не просто разработка, а участие в формировании стратегических решений, влияющих на будущее всей инфраструктуры данных Siemens Energy.
— Спасибо, что так подробно рассказали о ваших текущих проектах. И наконец, в завершение нашего разговора хотелось бы узнать ваше мнение о будущем управления данными. Как вы считаете, какие технологии и подходы будут определять эту сферу в ближайшие 5-10 лет, и как компаниям подготовиться к этим изменениям?
— Я думаю, что в ближайшие 5-10 лет управление данными будет развиваться в двух ключевых направлениях. Первое — это масштабное внедрение ИИ и машинного обучения не только в аналитику, но и в сами процессы управления данными: от сбора и очистки до мониторинга качества и безопасности. ИИ будет помогать находить аномалии, генерировать метаданные и предлагать оптимизации архитектуры.
Второе — переход к децентрализованным подходам, таким как Data Mesh и Data Fabric, где данные управляются командами-доменами и рассматриваются как продукт. В этой модели роль семантического слоя значительно возрастает: он становится универсальным "языком" и обеспечивает согласованность и понятность данных для людей и ИИ-моделей.
Всё большее значение приобретёт управление данными (Data Governance), включая безопасность, приватность и соблюдение нормативных требований. Каталогизация и управление метаданными станут неотъемлемой частью любой зрелой стратегии работы с данными.
Чтобы подготовиться к этим изменениям, компаниям стоит инвестировать в гибкую, облачную инфраструктуру, развивать культуру данных внутри организации, внедрять надёжные практики управления и быть готовыми к изменениям — включая применение Agile-подходов в сфере данных, а не только в разработке.