feedback

AI саммари

GPT-5 вышла на первое место в swe-rebench leaderboard с medium reasoning effort. Отмечается, что модели с high effort могут быть излишне саморефлексирующими, что ограничивает их производительность. В ближайшее время планируется улучшение, которое позволит передавать рассуждения модели на вход следующего шага, что потенциально повысит результаты GPT-5.
от FlowFeed AI
Обновлено: 1 day ago
Продолжаем обновлять swe-rebench leaderboard, и вчера туда на первое место ворвалась gpt5 с medium reasoning effort. Хочется на этот счет оставить пару комментариев:


1. Как видно из лидерборда, medium effort стоит выше high. Связано это как минимум отчасти с тем, что с high effort модель получается чересчур саморефлексирующей, то есть постоянно перепроверяет себя, повторно тестирует решение и в конце концов упирается в лимит по кол-ву шагов (сейчас это 80).


2. Запуск использовал completions эндпоинт, а с ним есть проблема: ризонинг модели нельзя подать на вход следующего терна, поэтому на каждом шаге модель видит аутпут + тул, но не рассуждения.


Если первый пункт остается под вопросом, то второй мы поправим в ближайшее время. Глобально это означает, что результаты gpt5 могут быть еще выше.


Подробнее про rebench: https://t.me/AIexTime/121
GPT-5 лидирует в swe-rebench leaderboard с medium reasoning effort
Link copied