feedback
DeepSeek выпустили новую модель DeepSeek-V3.2-Exp

Качество примерно на уровне предыдущей DeepSeek-V3.1 Terminus, а цена стала на 50+% ниже.

Основное нововведение, за счет которого и удалось снизить косты и повысить скорость, – DeepSeek Sparse Attention(DSA). Не отходя от кассы на второй картинке можете посмотреть, насколько он оптимизирует стоимость на длинных последовательностях.

DSA – это специальная вариация механизма внимания, которая позволяет вычислять аттеншен не на всех парах токенах, а избирательно.

В большинстве вариантов Sparse Attention маска для всех запросов совпадает (грубо говоря, все токены смотрят на одинаковые позиции), но здесь заявляется fine-grained. То есть маска формируется динамически для каждого токена, так что модель не теряет важные зависимости, и качество почти не падает.

Ну а ускорение получается за счет того, что сложность алгоритма уже не квадратичная по длине последовательности, а линейная.

Моделька уже доступна в приложении, в вебе и в API

Веса | Техрепорт
DeepSeek выпустили новую модель DeepSeek-V3.2-Exp
Link copied