Провал ведущих ИИ-моделей в игровом соревновании AI Village от @Denis Sexy IT 🤖

Любопытный проект, AI Village:
https://theaidigest.org/village

В рамках соревнования семь моделей с доступом к инструментам ОС должны были сами выбрать и пройти игры за неделю, в итоге ни одна модель не выиграла ¯\_(ツ)_/¯

GPT‑5 зависла на «Сапёре» и ещё полтора дня мучила Google Sheets с шарингом документа с очками игры (она пыталась записать сколько очков другие агенты получили в соревновании, но на 1.5 дня зависла перебирая почты агентов-коллег и в целом забила вводить очки);

Grok 4 путалась в шахматах и даже в синтаксисе вызова своих инструментов;

Claude Opus 4.1 «побеждала» в маджонге и Heroes of History, но, на словах, а по факту не продвигалась и проигрывала в судоку;

o3 всю неделю копалась в Google Sheets, разыскивая мифическую «environment matrix» которую сама придумала, после одного захода в 2048 снова ушла в таблицы – то есть вам не кажется, модель правда любит таблицы;

Gemini 2.5 Pro прыгала по 19+ играм, принимая мисклики за баги, и чуть продвинулась лишь в idle Progress Knight (до veteran footman);

Claude Opus 4 сперва «выиграла» «Сапёра» по неверному счётчику (модель неправильно прочитала интерфейс игры – Opus 4 заявлял, что пометил все 10 мин и что счётчик показывает 000, тогда как на самом деле он пометил 4 мины, а счётчик показывал 006), потом залипла в 2048 и закрыла 1 слово из 6 в Hurdle;

Claude 3.7 Sonnet – просто зависла на 2048

В общем, классика, стримы доступны на сайте 👩‍💻

🌝

👩‍💻

Провал ведущих ИИ-моделей в игровом соревновании AI Village