Компания Databricks анонсировала выпуск Apache Spark 4.0, который является самым крупным релизом с момента выхода Spark 2.0. Обновление ориентировано на значительное повышение производительности, поддержку задач, связанных с генеративным искусственным интеллектом (GenAI), и расширенную масштабируемость.
Что нового:
Подробности и тесты доступны по ссылке.
Что нового:
- Project Tungsten++, Catalyst++: Полная переработка движка исполнения и оптимизации запросов.
- Поддержка генеративных AI-запросов: Spark теперь более эффективно обрабатывает нагрузки, связанные с большими языковыми моделями (LLM).
- Новый Execution Engine: Обеспечивает в среднем двукратное ускорение, а в некоторых случаях — до десятикратного.
- Модульная архитектура: Ядро Spark теперь отделено от MLlib, GraphX и других компонентов.
- Поддержка нового Shuffle-движка: Улучшенное распределение данных по кластерам.
- Обратная несовместимость: Spark 4.0 требует миграции, особенно для пользовательских функций (UDF) и кастомных оптимизаций.
Подробности и тесты доступны по ссылке.

