Magistral от Mistral: первая ризонинг модель и почему это провал

Mistral выпустила свою первую ризонинг модель - Magistral. Ничего сверхъестественного, неплохой ризонер, но в топ лучших не попадает. Самое интересное, что у Mistral модельки обычно крутятся на оборудовании от Cerebras (о которых я писал раньше), и вот эта модель кажется тоже - работает радикально быстрее конкурентов.

Cerebras Systems - компания, разрабатывающая специализированное оборудование для машинного обучения, известное своими большими и мощными чипами.

По скорости больше напоминает dLLM, чем классические LLM, выглядит реально круто.

dLLM (дистиллированные большие языковые модели) - это более компактные и быстрые версии больших языковых моделей (LLM).

https://www.youtube.com/watch?v=99xd7kHx80U

К сожалению, первая ризонинг модель от Mistral оказалась не такой впечатляющей, как ожидалось. Magistral Medium даже не может обогнать январскую DeepSeek R1 в идентичных условиях, не говоря уже о R1-0528. Модель доступна только через API по цене $2/$5 за миллион токенов, что дороже o4-mini и почти сравнимо с новыми ценами на o3, хотя эти модели значительно превосходят Magistral. Также была выпущена открытая модель Magistral Small (24B), которая уступает Qwen 3 8B на большинстве бенчмарков. Однако, Mistral опубликовали подробный пейпер о процессе обучения модели. Благодаря сотрудничеству с Cerebras, Magistral работает очень быстро в LeChat — более 1000 токенов в секунду, но бесплатные пользователи получают только 3 таких запроса в день. Ссылки на пейпер, блогпост и веса моделей Magistral Small и Qwen 3 8B доступны выше.

Magistral от Mistral: первая ризонинг модель и почему это провал

AI саммари

Magistral от Mistral: первая ризонинг модель и почему это провал