Magistral — Mistral наконец-то сделали ризонера
И сразу же стало понятно почему они так медлили — это катастрофа. Magistral Medium не может обогнать даже январскую DeepSeek R1 в одинаковых условиях, что уже говорить про R1-0528, которую они не могут догнать даже с maj@64. Доступна модель лишь в API, при цене в $2/$5 за миллион токенов, она дороже o4-mini ($1.1/$4.4) и почти на уровне новых цен на o3 ($2/$8), а это всё модели на голову или две лучше.
Выпустили они и открытую модель — Magistral Small, 24B модель, которая отстаёт на большинстве бенчей даже от Qwen 3 8B (8B просто не замеряли на Aider, так что обогняет ли она Magistral и там непонятно). А ведь существуют и Qwen 3 побольше.
Из хорошего — они опубликовали пейпер о тренировке модели, где довольно детально описали процесс тренировки. А благодаря партнёрству с Cerebras, в LeChat Magistral работает крайне быстро — больше 1000 токенов в секунду (правда бесплатным юзерам дают лишь 3 таких запроса в день).
Пейпер
Блогпост
Веса Magistral Small
Веса Qwen 3 8B
@ai_newz
И сразу же стало понятно почему они так медлили — это катастрофа. Magistral Medium не может обогнать даже январскую DeepSeek R1 в одинаковых условиях, что уже говорить про R1-0528, которую они не могут догнать даже с maj@64. Доступна модель лишь в API, при цене в $2/$5 за миллион токенов, она дороже o4-mini ($1.1/$4.4) и почти на уровне новых цен на o3 ($2/$8), а это всё модели на голову или две лучше.
Выпустили они и открытую модель — Magistral Small, 24B модель, которая отстаёт на большинстве бенчей даже от Qwen 3 8B (8B просто не замеряли на Aider, так что обогняет ли она Magistral и там непонятно). А ведь существуют и Qwen 3 побольше.
Из хорошего — они опубликовали пейпер о тренировке модели, где довольно детально описали процесс тренировки. А благодаря партнёрству с Cerebras, в LeChat Magistral работает крайне быстро — больше 1000 токенов в секунду (правда бесплатным юзерам дают лишь 3 таких запроса в день).
Пейпер
Блогпост
Веса Magistral Small
Веса Qwen 3 8B
@ai_newz

