• ГлавнаяНовостиНовостиНовости, 202007Новости, 202007 → Машинное обучение внутри хранилищ данных

    Машинное обучение внутри хранилищ данных

    СУБД Vertica позволяет объединить аналитические СУБД и мир машинного обучения, устранить потребность в перемещении данных и сэкономить на оборудовании.

    КиТ :: Будь в СЕТИ! KiT - Keep-inTouch :: RSS-лента


  • Группы: ВК | FB | Tw | OK
  • Anketka - Мнения, за которые платят деньги.

    LovePlanet - Соцсеть знакомств для веб-мастеров.

    Biglion - Сила коллективных покупок.

    admitad - Сайт партнерских программ и рекламы.

    Miralinks - Рекламная кампания размещения статей для продвижения социальных сетей и сайтов.

    Liex - Биржа статей и ссылок в социальных сетях.

    GoGetLinks - Система размещения платных обзоров со ссылками в социальных сетях и сайтах.

    GetGoodLinks - Ссылки в социальных сетях и сайтах для размещения навсегда.

    Sape - Деньги на привлечении вебмастеров и оптимизаторов.

    Skrill - Сервис перевода денег.

    CPAzilla - Программа заработка на сайтах знакомств.

    1PS - Регистрация сайта в каталогах.

    Link - Реклама на сайтах.

P.c{font-size:75%;text-align:right;}img{border:0;padding:1px;}table{display:table;border-spacing:10px;}td{display:table-cell;padding:10px;vertical-align:top;}input[type=email],textarea{border-radius:3px;border:1px solid grey;margin:2px;width: 96%;}/*Обратная связь и подписка - кнопки*/ .buttons{background:#e0ffff;color:#dc143c;font-weight:700;border:1.5px solid black;border-radius: 4px;transition: 0.4s;}.buttons:hover {background-color: #4CAF50;color: white;box-shadow: 0 12px 16px 0 rgba(0,0,0,0.24), 0 17px 50px 0 rgba(0,0,0,0.19);cursor: pointer;}

p>Выбор единой платформы для реализации задач машинного обучения в организации позволяет решить проблему фрагментации экосистемы и заложить надежный фундамент для будущего развития, уверен Яссин Файх (Yassine Faihe), директор департамента технического консультирования заказчиков Vertica в компании Micro Focus.

- Расскажите о том, почему Vertica делает такую большую ставку на развитие инструментов машинного обучения внутри СУБД?

Да, это приоритетное направление разработки последние несколько лет. Дело в том, что повсеместный рост спроса на машинное обучение является естественным процессом эволюции потребностей в бизнес-аналитике. В то же время популярность Python и R в академической сфере и экосистемы Hadoop в организациях с большими объемами малоизученных, но потенциально полезных данных приводит к тому, что фактически мир аналитических СУБД и мир машинного обучения существуют независимо друг от друга, причем экосистема машинного обучения достаточно сильно фрагментирована. Это некая сложившаяся данность, к которой все привыкли, хотя устроена она не очень удобно.

Наша задача — подружить эти две сферы, устранив потребность в перемещении данных между хранилищами и снизив затраты на оборудование, а также предоставить большую гибкость при реализации задач машинного обучения (например, тренировки моделей) с высокой производительностью при очень больших объемах данных.

- Нужно ли пользователям Vertica разрабатывать алгоритмы машинного обучения, используя SQL?

Яссин Файх (Yassine Faihe), директор департамента технического консультирования заказчиков Vertica, Micro Focus

Разумеется, нет. Vertica никогда не навязывала пользователям проприетарных процедурных расширений SQL, так как мы считаем, что этот язык для таких задач не предназначен. Мы даем заказчикам свободу писать пользовательские функции SQL на удобных для них языках, и этот же принцип лежит в основе нашего подхода к машинному обучению.

Самые востребованные алгоритмы (регрессии, кластеризация, random forest, наивный Байес, и другие) реализованы в виде библиотек C++, входящих в стандартную поставку, и поэтому выполняются с максимальной производительностью за счет массивно-параллельной архитектуры. Встроенный SDK позволяет разрабатывать алгоритмы самостоятельно на языках С++, R, Python и Java. По сути, речь идет о пользовательских SQL-функциях на этих языках, которые выполняются распределенным образом на всех узлах кластера Vertica.

Кроме того, интеграция с Apache Spark позволяет Vertica выступать источником данных для DataFrame или RDD.

В чем преимущества использования единой платформы?

В первую очередь не нужно забывать об изучении и подготовке данных, а ведь эта процедура отнимает значительную часть времени (около 80%) любого специалиста по машинному обучению. SQL идеально подходит для таких задач.

Все стандартные операции по подготовке данных (исключение выбросов, нормализация, балансировка, импутация, унитарный код и пр.) реализованы в виде SQL-функций. Кроме того, если данные имеют форму временного ряда, что часто встречается в IoT, то дополнительная подготовка таких данных (нормализация интервалов измерений, соединение данных из разных источников по несовпадающим тайм-кодам, идентификация сложных цепочек событий) также реализована в качестве расширений SQL-диалекта.

При желании пользователи Python могут использовать клиентскую библиотеку Vertica-ML-Python, доступную на GitHub, которая предоставляет удобный интерфейс для подготовки данных и работы с моделями без написания SQL-кода, по аналогии с pandas и scikit.

- В любом случае данные остаются в хранилище?

Именно так, не считая сценария со Spark, а также более тривиальных сценариев работы с Vertica c помощью dplyR либо просто использования ODBC/JDBC/ADO.NET с клиентской машины.

В целом концепция анализа данных прямо в хранилище лежит в основе идеологии Vertica. Механизм выполнения запросов Vertica, будучи концептуально аналогичным MapReduce, оптимизирован на достаточно низком уровне для работы со структурированными и полуструктурированными данными и поэтому показывает более высокую производительность при решении таких задач. Проприетарный колоночный формат хранения данных, хотя и похож на Orc и Parquet по своей сути, обеспечивает большую гибкость и производительность, в частности поддержку полного спектра операций, предусмотренных SQL-99.

Все эти технологии, которые уже используются в Vertica для решения более традиционных задач бизнес-аналитики, теперь открывают возможности для реализации полного цикла машинного обучения на тех же данных, на том же оборудовании, с высокой производительностью и с использованием тех инструментов, языков программирования и методов, которые уже существуют в экосистеме и которые привычны разработчикам.

- Что если данные все-таки хранятся в Hadoop?

Vertica уже довольно давно является крайне быстрым и наиболее полноценным решением в области SQL-on-Hadoop, хотя это и вспомогательный функционал. Мы достигли этого благодаря тому, что читаем Orc и Parquet-файлы напрямую из HDFS с максимальной оптимизацией push-down (встроенная статистика, партиции, возможная колокация процесса Vertica на узле или в стойке), после чего обрабатываем своими силами, минуя Hive полностью. При этом доступен полный набор аналитических SQL-функций и расширений.

Не менее интересным и важным, на мой взгляд, является функционал работы с потоковыми данными, ведь решения по поступающим данным зачастую необходимо принимать в режиме реального времени. Архитектура Vertica предусматривает моментальную доступность данных для анализа как с помощью встроенного модуля потребления данных из шины Kafka, так и при вставке данных в таблицы другими способами.

/*Спойлер/Accordion - для рубрик*/.accordion [type=checkbox]{display:none;}.accordion ul{list-style:none;}.accordion label{display:block;cursor:pointer;line-height:25px;background:#d95b43;border-radius:5px 10px 0 0;border:1px solid #542437;}.accordion label:hover,.accordion [type=checkbox]:checked ~ label{background:#c02942;color:#fff;}.accordion .rubcontent{height:0;transition:all .1s ease .1s;overflow:hidden;}.accordion [type=checkbox]:checked ~ .rubcontent{height:20%;border:1px solid #542437;padding:1px;}.rubcontent [type=email], .rubcontent [type=submit]{display:block;margin:0 auto;}@media (min-width:801px){/*Рубрики справа*/ .advert{font-size:85%;position:relative;margin-left:83%;margin-right:10px;z-index:5;}/*Мобильное меню - скрыть*/ #mob_menu{display:none;}/*Новости - анонс*/ #phablet td{display:block;}}
ГлавнаяНовостиНовостиНовости, 202007Новости, 202007 → Машинное обучение внутри хранилищ данных

В «Одноклассниках» открылся колл-центр для жителей Санкт-Петербурга и области

Жители Санкт-Петербурга и Ленинградской области смогут решить свои жизненные и бытовые вопросы с помощью горячей линии в «Одноклассниках». Это стало возможным после внедрения в ОК онлайн-консультаций от Единой справочной службы СПб 122 на базе платфо...

Gartner: каждая вторая компания готова увеличить вложения в Интернет вещей

Соответствующий практический опыт у большинства организаций пока невелик, но он показывает, что подобные проекты стабильно окупаются в запланированный срок, отмечают аналитики....

«Вконтакте» запускает бесплатный конструктор сайтов на основе сообществ

«Вконтакте» представляет простой конструктор сайтов для бизнеса — с его помощью каждый может бесплатно и с любого устройства создать полноценный лендинг. Все, что для этого нужно, — собственное сообщество, которое и станет основой будущего сайта. Нас...

Слух: В Apple намерены заменить Google на собственный поисковик

Google якобы выплачивает Apple миллиарды долларов за статус поисковика по умолчанию в браузере Safari. В минюсте США видят в этом потенциальное нарушение антимонопольного законодательства....

Wildberries запустит продажи свежих продуктов питания и экспресс-доставку

Wildberries сообщает о запуске схемы поставок fulfillment by sellers (FBS), благодаря которой продавцы онлайн-площадки смогут перейти на самую низкую торговую комиссию Wildberries в размере 5%, а также предложить покупателям практически неограниченны...

[Популярные социальные сети][*Добавить сайт]


Группы: ВК | FB | Tw | OK

Рубрики | КАТАЛОГ | Новости | Контакты |