Apache Spark 4.0: Крупнейшее обновление с момента Spark 2.0 | FlowFeed AI

AI саммари

Databricks представила Apache Spark 4.0, крупнейшее обновление с момента версии 2.0. Релиз фокусируется на ускорении обработки данных, оптимизации для GenAI-нагрузок и улучшенной масштабируемости, включая новый execution engine и модульную архитектуру. Важно отметить, что обновление требует миграции из-за обратной несовместимости.

Apache Spark 4.0: Крупнейшее обновление с момента Spark 2.0

от FlowFeed AI

Обновлено: 2 days ago

Компания Databricks анонсировала выпуск Apache Spark 4.0, который является самым крупным релизом с момента выхода Spark 2.0. Обновление ориентировано на значительное повышение производительности, поддержку задач, связанных с генеративным искусственным интеллектом (GenAI), и расширенную масштабируемость.

Что нового:

Project Tungsten++, Catalyst++: Полная переработка движка исполнения и оптимизации запросов.

Поддержка генеративных AI-запросов: Spark теперь более эффективно обрабатывает нагрузки, связанные с большими языковыми моделями (LLM).

Новый Execution Engine: Обеспечивает в среднем двукратное ускорение, а в некоторых случаях — до десятикратного.

Модульная архитектура: Ядро Spark теперь отделено от MLlib, GraphX и других компонентов.

Поддержка нового Shuffle-движка: Улучшенное распределение данных по кластерам.

Обратная несовместимость: Spark 4.0 требует миграции, особенно для пользовательских функций (UDF) и кастомных оптимизаций.

Подробности и тесты доступны по ссылке.

Apache Spark 4.0: Крупнейшее обновление с момента Spark 2.0

Link copied

Источники:

Apache Spark 4.0: Крупнейшее обновление с момента Spark 2.0

от @Machinelearning 2 days ago