В Apache Spark появился механизм обработки потоков данных в памяти. KiT :: Будь в СЕТИ!

В Apache Spark появился механизм обработки потоков данных в памяти

🐋KiT :: Каталог соцсетей

КиТ :: Будь в СЕТИ!

В Apache Foundation объявили о выходе версии 2.2 фреймворка распределенной обработки данных Apache Spark. Одной из главных особенностей обновления стал механизм Structured Streaming, позволяющий обрабатывать потоки данных с использованием стандартных средств Spark. До этого Structured Streaming находился в статусе экспериментального релиза.

Среди его особенностей — возможность обмена данными с распределенной шиной передачи сообщений Apache Kafka, которую раньше обычно использовали с другим фреймворком обработки потоков, Apache Storm, имеющим более сложный API, чем у Spark.

MLib, встроенный набор библиотек машинного обучения Spark, пополнился функциями для обработки срезов данных с помощью алгоритмов Google PageRank и мультиномиальной логистической регрессии (последний позволяет, например, строить предположения о том, какой из популярных в данное время фильмов скорее всего понравится представителю той или иной демографической категории). В Spark также существенно расширена поддержка R, языка программирования для статистической обработки данных.