feedback

AI саммари

Google представила статью о SIMA-2, игровом ИИ-агенте, который демонстрирует впечатляющие способности к самообучению. В эксперименте агент, основанный на Gemini Flash-Lite, автономно освоил новую игру ASKA без внешних инструкций, используя внутренние механизмы тестирования и оценки. В результате SIMA-2 не только превзошла свою предыдущую версию, но и человека, что открывает новые горизонты для автономного ИИ.
от FlowFeed AI
Обновлено: 1 day ago

Google выпустила подробную статью о своем новом достижении в области искусственного интеллекта — агенте SIMA-2. Самое примечательное в нем — способность к автономному самообучению.



SIMA-2 — это специализированный ИИ-агент, предназначенный для игр. Первая версия была представлена около полутора лет назад, а вторая вышла в ноябре прошлого года. Однако детали и результаты исследований, о которых идет речь, были опубликованы только сейчас.



Значительные улучшения SIMA-2 по сравнению с первой версией включают способность к более глубокому рассуждению и умению генерализоваться, то есть применять полученные знания в совершенно новых для него играх, а не просто выполнять заученные механические действия.



Технологически, SIMA-2 не содержит революционной "магии": по сути, это доработанная и оптимизированная для игровых задач версия модели Gemini Flash-Lite. Хотя статья изобилует интересными подробностями об обучении, ключевой прорыв, по мнению исследователей, кроется в разделе, посвященном самосовершенствованию (self-improvement).



Чтобы протестировать эту функцию, ученые поместили агента в совершенно новую для него игру под названием ASKA. Агенту не давали никаких предварительных инструкций или демонстраций действий человека. Затем был запущен процесс автономного самоулучшения.



В этой системе агент, оснащенный большой языковой моделью (LLM), играл несколько ролей одновременно: он был и тестировщиком, и исполнителем задач, и даже моделью для оценки вознаграждения (reward model). Один экземпляр Gemini, названный "Task setter", отвечал за придумывание заданий соответствующего уровня сложности. SIMA-2 пытался выполнить эти задачи, а затем другой экземпляр Gemini оценивал успех или неудачу. На основе этой обратной связи обновлялась политика поведения агента. Этот итеративный процесс повторялся множество раз, постепенно усложняя задачи.



Результаты эксперимента поразительны: в игре, которую агент никогда прежде не видел, дообученная таким образом система не только превзошла исходную версию SIMA-2, но и показала лучшие результаты, чем человек! Это демонстрирует полностью автономное обучение, основанное исключительно на собственном опыте агента.



По сути, это напоминает новый уровень развития Reinforcement Learning

"Reinforcement Learning (RL) — это область машинного обучения, где агент учится принимать решения, выполняя действия в окружающей среде, чтобы максимизировать кумулятивное вознаграждение. Он учится методом проб и ошибок, взаимодействуя со средой и получая обратную связь в виде вознаграждений или штрафов."
, или "RL-v2", как его в шутку назвали некоторые эксперты.



Для более глубокого погружения в тему, советуем ознакомиться с полной статьей: arxiv.org/pdf/2512.04797

Google SIMA-2: ИИ-агент, который учится сам и превосходит человека в играх
Link copied