BIG DATA 2018: от больших данных — к умному бизнесу. KiT :: Будь в СЕТИ!

Татьяна Матвеева: «Мы можем строить интересную, разноплановую аналитику»

В частности, среди экспертов и аналитиков сейчас нет единого мнения о характере изменений в экономике и бизнесе и, как следствие, представления о том, как повысить эффективность использования больших данных. Так, Алексей Минин, директор Института прикладного анализа данных Deloitte СНГ, обратил внимание гостей форума на происходящее в последние годы расщепление экономики на цифровую и экспоненциальную и, вероятно, их параллельное сосуществование в обозримой перспективе. С его точки зрения, цифровая экономика охватывает все то, что может быть подвержено дематериализации, то есть оцифровано, и оперирует виртуальными товарами – не только цифровыми сервисами, но и образами материального мира. По сути, это экономика глобальных и региональных электронных торговых площадок (маркетплейсов).

В свою очередь, экспоненциальная экономика, согласно представлениям Deloitte, охватывает материальные объекты физического мира и прекрасно уживается на уровне экономик отдельных стран. Использование в ней новейших технологий (искусственного интеллекта, блокчейна и других) способно обеспечить экспоненциальный рост капитализации компаний за счет появления новых бизнес-моделей, повышения эффективности работы в рамках прежних, создания новых товаров и услуг и пр. При этом основными сдерживающими факторами конкуренции становятся не пространство и время, а риск и скорость. В этих условиях растет неуверенность руководителей при принятии решений, и как следствие, увеличивается спрос на анализ больших данных, в первую очередь о клиентах. Соответственно, растет ценность таких данных.

Игорь Агамирзян, вице-президент НИУ «Высшая школа экономики», уверен: физическая и цифровая экономика нераздельны, а потому их нельзя рассматривать по отдельности (читайте также интервью с ним). Наибольшее развитие цифровая экономика получает там, где цифровая среда начинает определять поведение физической среды, а потому надо особенно пристальное внимание обратить на киберфизические системы (по сути, системы Интернета вещей), которые генерируют большие объемы и потоки данных (в том числе телеметрических) в реальном времени – именно они в скором времени будут иметь наибольшую ценность.

«Маркетплейсы — ничтожно малая часть цифровой экономики. Большая ее часть — это киберфизические системы», — отметил Агамирзян.

Он обратил внимание на любопытную деталь: из всего объема телеметрии, полученной в ходе освоения космического пространства, люди успели «посмотреть» менее 1%, и вряд ли уже когда-нибудь «посмотрят». Отсюда вывод: необходимо научиться «на лету» выявлять фрагменты данных («кадры»), в которых отражена некоторая полезная информация, и затем обрабатывать только их, а остальные данные отбрасывать. Правда, сделать это непросто: как правило, датчики фиксируют не первичные параметры значимых событий, а их косвенные признаки, поэтому надо уметь определять события по косвенным признакам, выявляя сложные взаимосвязи между ними в реальном времени, причем, скорее всего, не в дата-центрах, а вблизи объектов управления – на краю сетей (edge computing), чтобы минимизировать задержку между сигналами от датчиков и управляющими воздействиями на объекты.

Все больше пользы от больших данных

Алексей Минин: «Инновации, как правило, начинаются с хайпа»

Пока эксперты и аналитики спорят, проекты в области больших данных набирают обороты. Обладателем одного из самых больших активов финансовых данных является ФНС России. По словам Татьяны Матвеевой, начальника управления информационных технологий ФНС, новые технологии не только бросают вызов, но и открывают перед налоговыми органами новые возможности. Кроме того, в ФНС считают необходимым не оставаться в стороне от ключевых технологических тенденций, стараясь найти в них пользу для налоговых органов. В частности, большое внимание уделяется повышению качества данных, а одним из ключевых условий этого в ФНС считают электронный документооборот.

Матвеева представила некоторые результаты использования больших данных в ФНС: российским налоговикам удалось более чем в 10 раз сократить разрывы по НДС, минимизировав тем самым мошенничество в этой сфере; легальный ввод меховых изделий в оборот увеличился в 1,7 раза, при этом оборот этих изделий вырос в 7 раз, а количество участников рынка – в 3,5 раза. С переходом на онлайн-кассы все больше данных обрабатывается в реальном времени: в настоящий момент с 1,7 млн онлайн-касс ежедневно приходит 120 млн чеков. И все больше возможностей появляется для быстрого выявления мошеннических операций и реагирования на них, на дожидаясь проверок.

«Мы стремимся создать комфортную среду для всех участников налогового взаимодействия, которая обеспечит доверие налогоплательщиков к госорганам», — подчеркнула Матвеева.

Задачи с использованием больших данных на производстве решают Новолипецкий металлургический комбинат, СИБУР и группа компаний «Русагро». Так, по словам Анджея Аршавского, директора центра анализа данных и матмоделирования НЛМК, в холдинге выстраивается конвейер по реализации проектов больших данных и искусственного интеллекта, начиная от идеи и постановки задачи и заканчивая созданием систем, реально работающих в масштабе предприятия. В числе примеров задач, решаемых подобным образом, — оптимизация электродуговой печи, используемой для плавки металлолома, оптимизация расхода газов по котлам на принадлежащей холдингу ТЭЦ в Липецке, прогнозирование ремонтов фурм в металлургических печах, позволяющее избежать их внеплановых простоев.

«Мы выбираем для реализации в первую очередь те проекты, для которых есть данные и при этом не требуются очень замысловатые методы решения вроде машинного обучения», — отметил Аршавский.

Также он обратил внимание на большой разрыв в ресурсоемкости проектов в больших данных на производстве: промышленная реализация требует на порядки больше ресурсов, чем пилотные проекты.

Игорь Агамирзян: «Маркетплейсы — ничтожно малая часть цифровой экономики. Большая ее часть — это киберфизические системы»

Как рассказал Владимир Чернаткин, куратор проектов больших данных и Интернета вещей в СИБУРе, на химических предприятиях его компании решаются как оптимизационные задачи, позволяющие снизить перерасход катализаторов и минимизировать внеплановые остановки оборудования, так и задачи по управлению качеством, позволяющие повысить производительность линий по производству пленки из полипропиленовых гранул. С деталями проекта по оптимизации расхода катализаторов при синтезе окиси этилена в СИБУРе познакомила Ольга Плосская, руководитель проектов отдела анализа данных компании Visiology. Особенностями процесса являются регулярная смена нагрузки, недостаточные возможности для измерений, а также непостоянство точки оптимума, которая имеет свойство со временем смещаться. Применение технологий машинного обучения позволило добиться улучшений на 0,1%. В перспективе предполагается повысить этот показатель в два раза.

По словам Тани Милек, менеджера по методологии и унификации «Русагро», в ее компании производственные данные стекаются из самых разных источников: от датчиков и систем Интернета вещей, дронов, обрабатываются и снимки из космоса, при этом основное внимание уделяется интерпретации данных и прогнозированию на их основе. В числе задач, в которых использование больших данных себя окупит, Милек назвала мониторинг сельскохозяйственных посевов, темпов уборки урожая, выявление закономерностей между количеством внесенных удобрений и развитием посевов, а также оптимизацию использования техники на полях. Также актуальны разработка рекомендаций для агрономов на основе данных дронов и прогнозирование вегетации зерновых на базе геоданных и показателей датчиков, развитие биотехнологий в животноводстве, соблюдение требований по защите окружающей среды и, кроме того, мониторинг и прогноз всего, что касается роста животных, их лечения, кормления и подбора кормов.

Владимир Соловьев, руководитель департамента анализа данных, принятия решений и финансовых технологий Финансового университета при Правительстве РФ, обнаружил множество больших данных, взяв курс на создание «умного» университета. Например, мониторинг в реальном времени расположенных в помещениях датчиков помогает обеспечить комфортные условия освещенности, температуры и влажности, а заодно оптимизировать расходы ресурсов на их поддержание. Однако самые интересные на сегодняшний день эксперименты проводятся в аудиториях, где идут практические занятия: видеопотоки с видеокамер отправляются в облако Microsoft, где с помощью сервисов Azure IoT Hub и Stream Analytics проводится распознавание лиц студентов и определяется их эмоциональное состояние. Результатами анализа становятся оценки их вовлеченности в учебный процесс, при этом правдоподобность оценок сейчас составляет около 80%. Оценки позволяют отследить динамику вовлеченности по различным срезам: образовательным программам, преподавателям, группам и отдельным студентам – эта информация обеспечивает обширные возможности для принятия решений по улучшению учебного процесса.

Платформы и методики

Евгений Степанов: «Высокая производительность современной аналитической платформы достигается благодаря поколоночному хранению данных»

Естественно, успешная реализация проектов на основе больших данных едва ли возможна без использования развитых платформ – этому направлению на форуме также уделялось много внимания. Так, Никита Успенский, руководитель направления Big Data компании Oracle в России, настоятельно рекомендовал решать задачи больших данных с применением специально разработанных для этих целей программно-аппаратных комплексов. Анна Румянцева, исследователь данных (точнее, Data Scientist) компании Hitachi Vantara, обратила внимание на универсальность платформы Pentaho, пригодной для решения широкого круга задач – от интеграционных и до прикладных и связанных с получением отчетности. Евгений Степанов, руководитель направления Big Data в России компании Micro Focus, обратил особое внимание на высокую производительность аналитической платформы Vertica, достигаемой благодаря поколоночному хранению данных. Сергей Золотарев, управляющий партнер компании Arenadata, представил созданную на основе систем с открытым кодом корпоративную платформу данных Arenadata Unified Data Platform, включающую продукты-модули для работы с Hadoop, аналитическую СУБД с обработкой данных в оперативной памяти, распределенную СУБД, использующую массивно-параллельные вычисления, и систему для централизованного управления и координации работы всех перечисленных компонентов. Игорь Катков, директор по партнерам и развитию бизнеса компании Pure Storage в России, СНГ и странах Балтии, рассказал о возможностях аналитической обработки больших данных, которые предоставляет построенная на базе флеш-накопителей платформа хранения FlashBlade, сочетающая высокую производительность, масштабируемость и надежность с умеренной совокупной стоимостью владения.

Важное место в ходе форума занимали выступления и дискуссии, имевшие методологическую направленность. Так, Виталий Чугунов, руководитель отдела специального ПО компании «ЕС-лизинг», отметил три ключевых вопроса, которые необходимо решать в ходе цифровой трансформации: круг потребителей цифровых преобразований (кому они предназначаются), как обеспечить управление трансформационными процессами и заодно всем комплексом цифровых, в том числе аналитических технологий, которые создаются в ходе подобных проектов; и наконец, нужно решить широкий круг вопросов, связанных с данными.

Александр Азаров, старший вице-президент по разработке ПО компании WaveAccess, представил общую «дорожную карту» выполнения проектов по машинному обучению. Согласно его рекомендациям, на первом этапе следует максимально уточнить бизнес-задачу, которую планируется решить, определить спектр данных и источников, которые для этого потребуются, а также провести сбор и проверку данных. Вторым этапом должна стать разработка прототипа – для этого, в частности, понадобится выбрать алгоритм решения задачи и инструментарий для его реализации. На третьем этапе следует определить модель окупаемости, а заодно оценить, во что обойдутся ошибочно выявленные ситуации. Наконец, на четвертом нужно сосредоточиться на разработке решения, при этом особое внимание обратить на производительность, заранее определив, какие вычислительные мощности и в каком количестве понадобятся. Также заранее надо обсудить способы интеграции других систем с создаваемой системой машинного обучения.

Александр Тарасов: «Ответственность за корпоративное управление данными в целом должна лежать на директоре по данным»

Александр Тарасов, управляющий партнер компании DIS Group, призвал всех взглянуть на данные как на актив, способный приносить прибыль. Но чтобы этого добиться, им необходимо управлять, причем не только на уровне технологических комплексов, но и бизнес-процессов, регламентов и пр. Это необходимо, поскольку цифровые преобразования несут с собой не только новые технологии, но и новые бизнес-модели, роли, процессы, организационные структуры. Корпоративное управление данными призвано решить множество проблем, связанных с ними, в том числе низкого качества данных, отсутствия единой записи информации о клиентах, активах и пр., непрозрачности данных в отчетах, сложной интеграции данных, отсутствия ответственности за ввод данных и пр. Ответственность за корпоративное управление данными в целом должна лежать на директоре по данным (Chief Data Officer) – этот руководитель призван координировать все, что касается стратегии данных, связанных с ними операционных процессов и технологий.

Обсуждение функций и роли директора по данным продолжилось в ходе пленарной дискуссии «Chief Data Officer – в авангарде цифровой трансформации?», модератором которой выступил Сергей Золотарев из компании Arenadata. Насущные вопросы розничной и интернет-торговли обсудили участники круглого стола «Цифровизация ретейла», который координировал Евгений Степанов из компании Micro Focus. Разработчиков и архитекторов объединила дискуссия «DataOps – Agile-подходы к работе с данными», которую провел Андрей Николаенко, системный архитектор компании IBS. Кроме того, Анна Румянцева из Hitachi Vantara в ходе мастер-класса представила свои рекомендации по внедрению машинного обучения в бизнес.