• ГлавнаяНовостиНовостиНовости, 202104Новости, 202104 → Управление данными на основе графов знаний

      Управление данными на основе графов знаний

      Традиционные способы управления данными уже не всегда обеспечивают необходимую скорость реакции на внешние вызовы. В условиях цифровой экономики требуется смещение акцентов c ведения бизнеса на основе данных к ведению на основе знаний.

      КиТ :: Будь в СЕТИ! KiT - Keep-inTouch :: RSS-лента

P.c{font-size:75%;text-align:right;}img{border:0;padding:1px;}table{display:table;border-spacing:10px;}td{display:table-cell;padding:10px;vertical-align:top;}.content img{float:right;}.hidden_block{display:none;}

Компании, способные с помощью графов знаний управлять сложностью своих информационных систем, получат преимущества в условиях цифровой экономики.
29 ноября 2018 года эта тема подробно обсуждается на

За последнее десятилетие в различных отраслях появилось множество решений на базе технологий больших данных, и сегодня вопросы сбора и хранения данных часто обсуждаются уже в контексте узкоспециализированных частностей. Относительная простота построения корпоративного хранилища привела к тому, что компании стали накапливать огромные массивы данных, неизбежно со временем сталкиваясь с проблемой их качества, согласованности и контроля. Компании стали буквально зарастать наборами данных, собранными в разное время разными подразделениями в разных форматах. Как следствие, выросли расходы на инфраструктуру и переработку данных в ценную информацию.

Ажиотаж вокруг больших данных привел к тому, что данные, не всегда оправданно, стали рассматриваться как самостоятельная ценность — их накапливают, не уделяя особого внимания интеграции с общим информационными полем организации, а сам факт сбора данных за определенный период времени создает у топ-менеджеров ощущение комфорта. Все это иногда приводит к тому, что бизнес не знает точно, какая информация есть в его распоряжении, ошибочно полагая, что, как только потребуется, данные будут обязательно переработаны в нечто ценное, направленное на благо компании. Однако практика свидетельствует об обратном.

Компании часто недооценивают затраты на поиск, предобработку и анализ данных. По подсчетам аналитиков, в среднем только 3% наборов данных, собираемых внутри компаний для отражения ключевых показателей работы подразделений (сведения о заказах, характеристики производства, списки клиентов и пр.), не содержали ошибок. Хуже того, около половины всех вновь поступающих сведений обычно содержат критические ошибки, способные в случае их необнаружения оказать серьезное влияние на производственный процесс.

Сегодня получила распространение идея о необходимости стандартизации терминологии, используемой в рамках одной организации. Например, «ценный клиент» для отдела маркетинга и «ценный клиент» для отдела продаж — не эквивалентные понятия, и для улучшения информативности отчетов необходимо учитывать и уметь объяснять различие между ними. Наличие согласованного словаря, которым может пользоваться как бизнес, так и отдел разработки, — давняя мечта аналитиков, в эпоху больших данных получившая свой финансовый эквивалент: умение сопоставлять информацию из разных источников и быстро реагировать на внешние изменения вполне может стать определяющим фактором финансового успеха.

В ответ на эти запросы бизнеса вопросам контроля качества и согласованности данных стало уделяться больше внимания — появились продукты, реализующие концепции Data 360° и Linked Enterprise Data, но, оставаясь в рамках парадигмы управления данными, можно лишь оптимизировать и улучшать уже существующие процессы до момента, пока их сложность и объемы сырых данных снова не перерастут текущие возможности ИТ-систем компании. Для качественного изменения необходимо перейти от данных к знаниям, и один из возможных путей — применить известный подход формального представления знаний в базе знаний либо в графах знаний (knowledge graph). Как и нейронные сети, базы знаний зародились еще на заре цифровой истории, но, в отличие от нейронных сетей, о базах знаний сегодня пока еще говорят мало, хотя постепенно все больше компаний начинают задумываться об онтологиях, логических выводах и т. п., что свидетельствует о постепенном смещении акцента от ведения бизнеса на основе данных к ведению бизнеса на основе знаний.

Граф знаний — способ формализации знаний о реальном мире. При этом должны выполняться следующие условия.

Составляется формальное описание классов сущностей реального мира («Человек», «Счет», «Автомобиль») с иерархией и ограничениями. Иногда описание включает в себя правила логического вывода (например, если сущность относится к классу «Автомобиль» и имеет более семи мест для перевозки пассажиров, то ее нужно классифицировать как «Автобус»). Такое описание называется онтологией.

Факты о принадлежности сущности к определенному классу, о наличии свойств и связей друг с другом представляются в виде ориентированного графа, где вершинами служат сами сущности и их характеристики, а дугами — свойства, перечисленные в онтологии. Таким образом, каждый записанный факт поддается формальной интерпретации.

Граф знаний позволяет отвечать как на вопросы, относящиеся к онтологии («Какие атрибуты есть у сущности “Клиент”?»), так и на вопросы по накопленным фактам («Сколько различных подрядчиков было у предприятия в 2018 году?», «Какие товары соответствуют товару “Лего Текник — Экскаватор”?»).

Необходимо отличать графы знаний от графовых баз данных из разряда NoSQL, обеспечивающих эффективный доступ к данным, наиболее подходящий для выполнения конкретных алгоритмов. В случае графов знаний формируется единое разделяемое описание предметной области, а фокус смещается с хранения данных к их представлению в терминах предметной области.

Предположим, компания обладает графом знаний, в котором перечислены все используемые ею источники информации, а также все термины, применяемые компанией в документации к бизнес-процессам и в повседневном общении. Кроме того, в том же графе указано, как именно из данных получаются сущности, фигурирующие в отчетах и бизнес-процессах. Все это собрано в одном месте, и каждый сотрудник компании, обладающий соответствующими правами, может посмотреть все этапы трансформации данных и в случае потребности внести корректировки. ИТ-отдел точно понимает запросы бизнеса — его сотрудники опираются на общепринятую в компании терминологию и в ряде случаев выполняют их быстрее, чем ранее, и с меньшим количеством ошибок благодаря возможности делать запросы к базе знаний на формальном уровне. Такая структура значительно повышает прозрачность использования данных в организации, что, в свою очередь, ускоряет выполнение сопряженных операций: получение нужного набора данных, сопоставление таблиц в независимых базах данных и пр.

Граф знаний может также выступать в роли хранилища мастер-данных. Если компания уже располагает MDM-системой, управляющей референтными данными, то база знаний обогащает ее правилами логического вывода, позволяет привести в соответствие с внешними стандартами (например, при слиянии двух организаций, использующих разные MDM-продукты) и расширить новыми концептами без изменений в структуре хранимых данных (например, задать классификацию клиентов). Такие решения называются Semantic MDM (SMDM).

Другой пример основан на реальном проекте, выполненном компанией DataFabric. Используя реестры ЕГРЮЛ и ЕГРИП, можно сформировать граф знаний о всех юридических и физических лицах, участвующих в определенной деятельности в рамках российского правового поля. Получившийся граф может служить для проверки контрагентов как источник статистических данных или для построения аналитических отчетов. В графе содержится около 6 млрд фактов о российских компаниях, включая исторические, не входящие в актуальные версии реестров. В качестве онтологии используется стандарт FIBO (Financial Industry Business Ontology, spec.edmcouncil.org/fibo), что обеспечивает семантическую совместимость с данными из других информационных систем, использующих ту же онтологию для представления сведений, например, о зарубежных компаниях. На базе такого графа знаний работают два сервиса: «Топология Бизнеса» — визуальный интерфейс (рис. 1) к графу знаний; сервис интерактивных анкет (рис. 2) — формирование анкеты предприятия с полями, автоматически заполняемыми из графа знаний после введения ИНН или ОГРН компании. Пользователь ссылается на концепты онтологии и размечает, где в анкете должны быть адрес, название и, например, уставной капитал. При этом можно не только ссылаться на сущности ФНС, но и добавлять к анкете характеристики Росстата и других подключаемых баз данных. Наличие формализованной схемы данных позволяет строить прикладные решения, а пользователям — применять привычную им терминологию, а не выискивать нужный столбец в базе данных. Как результат, существенно уменьшается количество ошибок.

Рис. 1. Пример графа знаний в системе «Топология бизнеса»

 

Рис. 2. Форма создания полей анкеты в сервисе интерактивных анкет

Переход от данных к знаниям не означает создания новой базы — речь идет о смене парадигмы работы с корпоративной информацией. Данные, обогащенные семантикой с помощью графов знания, становятся доступны для автоматической обработки, что можно считать первым шагом на пути к интеллектуальным информационным системам.

***

Компании, нашедшие способ контролировать рост сложности своих информационных систем, получают преимущество и фундамент для дальнейшего роста, смещая акцент от ведения бизнеса на основе данных к ведению бизнеса на основе знаний, что особенно важно в условиях цифровой экономики. Однако для работы с базой знаний требуется определенная квалификация команды — в компании должен появиться инженер по знаниям, отвечающий за процессы их сохранения, приумножения и распространения. Сегодня на рынке таких специалистов почти нет. Необходимо будет также разобраться с инфраструктурой — технологический стек инструментов поддержки базы знаний может сильно отличаться от имеющегося в компании.

Евгений Хлызов () — технический директор, компания DataFabric (Санкт-Петербург). Статья подготовлена на основе материалов выступления на конференции «».


Семантические технологии,Управление данными,Онтологии,Semantic Technologies, Data Management, Ontologies



Свежий выпуск Важные темы ИТ-календарь
22 апреля 2021 29 апреля 2021 19 мая 2021 1 июня 2021 Популярные теги 19 апреля 2019 19 апреля 2019

«Открытые системы» - ведущее российское издательство, выпускающее широкий спектр изданий для профессионалов и активных пользователей в сфере ИТ, цифровых устройств, телекоммуникаций, медицины и полиграфии, журналы для детей.

© «Открытые системы», 1992-2021.
Все права защищены.

Все ПК и мобильники с Wi-Fi с 1997 года беззащитны перед взломом

Выявлена и исправлена целая дюжина уязвимостей, часть из которых вызвана ошибками в архитектуре Wi-Fi. Уязвимы, по-видимому, все или подавляющее большинство устройств с поддержкой Wi-Fi....

IDC: восстановление на рынке смартфонов продолжается

По сравнению с первым кварталом 2020 года рынок вырос на 25,5%. Правда, это был один из худших периодов за всю историю, напоминают аналитики....

Мировые продажи ноутбуков показывают бешеный рост

Мировые продажи ноутбуков по итогам первого квартала 2021 г. выросли сразу на 81% и достигли 68,2 млн штук. Об этом сообщила исследовательская компания Strategy Analytics со ссылкой на итоги нового исследования рынка....

«Яндекс.Маркет»: продажи жестких дисков и SSD резко выросли

Аналитики связывают всплеск с выходом новой криптовалюты; россияне активно расширяют дисковое пространство для майнинга Chia....

Amazon нанимает тысячи сотрудников только для того, чтобы их поскорее уволить

Amazon заставляет руководителей и менеджеров своих подразделений специально увольнять своих сотрудников, чтобы поддерживать текучку кадров на нужном уровне. Для этого разработаны различные схемы, а некоторые руководители даже специально нанимают новы...

[Популярные социальные сети][*Добавить сайт]


Группы: ВК|Fb|Tw|OK

Рубрики | Каталог | Новости | Контакты |
/*Выпадайка (простая) - для рубрик справа/внизу*/.advert ul, .content ul{list-style:none;}.rubcontent{display:block;line-height:25px;border-radius:5px 10px 0 0;border:1px solid #542437;width:90%;}.cd-accordion-menu li, .list_menu_compact li, .cd-accordion-menu_ya-share2 li{padding:0;margin-left:10px;}.hidden, .cd-accordion-menu ul, .hidden:checked + label .equiv{display:none;}.hidden:checked + label + ul, .hidden:checked + label .trigramma{display:inline;}@media (min-width:801px){/*Моб.меню - скрыть*/ #mob_menu{display:none;}/*Новости - анонс*/ #phablet td{display:block;}}
ГлавнаяНовостиНовостиНовости, 202104Новости, 202104 → Управление данными на основе графов знаний