Google SIMA-2: ИИ-агент, который учится сам и превосходит человека в играх

Google выпустила подробную статью о своем новом достижении в области искусственного интеллекта — агенте SIMA-2. Самое примечательное в нем — способность к автономному самообучению.

SIMA-2 — это специализированный ИИ-агент, предназначенный для игр. Первая версия была представлена около полутора лет назад, а вторая вышла в ноябре прошлого года. Однако детали и результаты исследований, о которых идет речь, были опубликованы только сейчас.

Значительные улучшения SIMA-2 по сравнению с первой версией включают способность к более глубокому рассуждению и умению генерализоваться, то есть применять полученные знания в совершенно новых для него играх, а не просто выполнять заученные механические действия.

Технологически, SIMA-2 не содержит революционной "магии": по сути, это доработанная и оптимизированная для игровых задач версия модели Gemini Flash-Lite. Хотя статья изобилует интересными подробностями об обучении, ключевой прорыв, по мнению исследователей, кроется в разделе, посвященном самосовершенствованию (self-improvement).

Чтобы протестировать эту функцию, ученые поместили агента в совершенно новую для него игру под названием ASKA. Агенту не давали никаких предварительных инструкций или демонстраций действий человека. Затем был запущен процесс автономного самоулучшения.

В этой системе агент, оснащенный большой языковой моделью (LLM), играл несколько ролей одновременно: он был и тестировщиком, и исполнителем задач, и даже моделью для оценки вознаграждения (reward model). Один экземпляр Gemini, названный "Task setter", отвечал за придумывание заданий соответствующего уровня сложности. SIMA-2 пытался выполнить эти задачи, а затем другой экземпляр Gemini оценивал успех или неудачу. На основе этой обратной связи обновлялась политика поведения агента. Этот итеративный процесс повторялся множество раз, постепенно усложняя задачи.

Результаты эксперимента поразительны: в игре, которую агент никогда прежде не видел, дообученная таким образом система не только превзошла исходную версию SIMA-2, но и показала лучшие результаты, чем человек! Это демонстрирует полностью автономное обучение, основанное исключительно на собственном опыте агента.

По сути, это напоминает новый уровень развития Reinforcement Learning

"Reinforcement Learning (RL) — это область машинного обучения, где агент учится принимать решения, выполняя действия в окружающей среде, чтобы максимизировать кумулятивное вознаграждение. Он учится методом проб и ошибок, взаимодействуя со средой и получая обратную связь в виде вознаграждений или штрафов."

, или "RL-v2", как его в шутку назвали некоторые эксперты.

Для более глубокого погружения в тему, советуем ознакомиться с полной статьей: arxiv.org/pdf/2512.04797

Google SIMA-2: ИИ-агент, который учится сам и превосходит человека в играх

AI саммари

Google SIMA-2: ИИ-агент, который учится сам и превосходит человека в играх