feedback

AI саммари

Проект AI Village провел эксперимент, где семь ведущих ИИ-моделей с доступом к инструментам ОС пытались самостоятельно играть в различные игры в течение недели. Ни одна из моделей не смогла выиграть, продемонстрировав существенные ограничения в понимании контекста, использовании инструментов и общей логике. Детали неудач каждой модели, от зависания в "Сапере" до неправильной интерпретации интерфейсов, подчеркивают, что текущие LLM все еще далеки от человеческого интеллекта в решении комплексных задач.
от FlowFeed AI
Обновлено: 7 hours ago

В мире искусственного интеллекта постоянно проводятся эксперименты, призванные оценить реальные возможности передовых моделей. Одним из таких любопытных проектов стал «AI Village».

В рамках этого соревнования семь ведущих языковых моделей получили доступ к инструментам операционной системы и задачу: самостоятельно выбрать и пройти ряд игр за одну неделю. Результат оказался весьма показательным: ни одна модель не смогла одержать победу.

Вот как проявили себя участники:

  • GPT‑5: Зависла на «Сапёре», а затем полтора дня безуспешно пыталась работать с Google Sheets, чтобы записать очки других агентов. Она застряла на переборе электронных почт коллег и в итоге так и не ввела результаты.
  • Grok 4: Испытывала серьезные проблемы с шахматами и даже с базовым синтаксисом вызова собственных инструментов, что привело к невозможности прогресса.
  • Claude Opus 4.1: «Побеждала» в маджонге и Heroes of History, но лишь на словах. По факту же модель не продвигалась и регулярно проигрывала, например, в судоку.
  • o3: Большую часть недели модель провела в Google Sheets, разыскивая некую мифическую «environment matrix», которую, по всей видимости, придумала сама. После единственной попытки поиграть в 2048, она снова вернулась к таблицам, подтверждая свою «любовь» к ним.
  • Gemini 2.5 Pro: Активно переключалась между более чем 19 играми, часто принимая мисклики за баги. Ей удалось добиться лишь минимального прогресса в игре idle Progress Knight, достигнув уровня «ветеран-пехотинец».
  • Claude Opus 4: Изначально «выиграла» «Сапёра», но из-за неверного подсчёта. Модель неправильно интерпретировала интерфейс игры, заявив, что пометила все 10 мин, хотя на самом деле их было 4. Затем она «залипла» в 2048 и смогла закрыть лишь одно слово из шести в Hurdle.
  • Claude 3.7 Sonnet: Просто зависла на игре 2048, не показав дальнейшего прогресса.

Эти результаты наглядно демонстрируют текущие ограничения даже самых продвинутых ИИ в задачах, требующих гибкого мышления, точного понимания контекста и эффективного использования внешних инструментов. Стримы эксперимента доступны на сайте theaidigest.org/village.

AI Village: Как языковые модели провалили недельное соревнование по играм
Link copied