Среди его особенностей — возможность обмена данными с распределенной шиной передачи сообщений Apache Kafka, которую раньше обычно использовали с другим фреймворком обработки потоков, Apache Storm, имеющим более сложный API, чем у Spark.
MLib, встроенный набор библиотек машинного обучения Spark, пополнился функциями для обработки срезов данных с помощью алгоритмов Google PageRank и мультиномиальной логистической регрессии (последний позволяет, например, строить предположения о том, какой из популярных в данное время фильмов скорее всего понравится представителю той или иной демографической категории). В Spark также существенно расширена поддержка R, языка программирования для статистической обработки данных.