Любопытный проект, AI Village:
https://theaidigest.org/village
В рамках соревнования семь моделей с доступом к инструментам ОС должны были сами выбрать и пройти игры за неделю, в итоге ни одна модель не выиграла ¯\_(ツ)_/¯
GPT‑5 зависла на «Сапёре» и ещё полтора дня мучила Google Sheets с шарингом документа с очками игры (она пыталась записать сколько очков другие агенты получили в соревновании, но на 1.5 дня зависла перебирая почты агентов-коллег и в целом забила вводить очки);
Grok 4 путалась в шахматах и даже в синтаксисе вызова своих инструментов;
Claude Opus 4.1 «побеждала» в маджонге и Heroes of History, но, на словах, а по факту не продвигалась и проигрывала в судоку;
o3 всю неделю копалась в Google Sheets, разыскивая мифическую «environment matrix» которую сама придумала, после одного захода в 2048 снова ушла в таблицы – то есть вам не кажется, модель правда любит таблицы;
Gemini 2.5 Pro прыгала по 19+ играм, принимая мисклики за баги, и чуть продвинулась лишь в idle Progress Knight (до veteran footman);
Claude Opus 4 сперва «выиграла» «Сапёра» по неверному счётчику (модель неправильно прочитала интерфейс игры – Opus 4 заявлял, что пометил все 10 мин и что счётчик показывает 000, тогда как на самом деле он пометил 4 мины, а счётчик показывал 006), потом залипла в 2048 и закрыла 1 слово из 6 в Hurdle;
Claude 3.7 Sonnet – просто зависла на 2048
В общем, классика, стримы доступны на сайте👩💻 🌝 👩💻
https://theaidigest.org/village
В рамках соревнования семь моделей с доступом к инструментам ОС должны были сами выбрать и пройти игры за неделю, в итоге ни одна модель не выиграла ¯\_(ツ)_/¯
GPT‑5 зависла на «Сапёре» и ещё полтора дня мучила Google Sheets с шарингом документа с очками игры (она пыталась записать сколько очков другие агенты получили в соревновании, но на 1.5 дня зависла перебирая почты агентов-коллег и в целом забила вводить очки);
Grok 4 путалась в шахматах и даже в синтаксисе вызова своих инструментов;
Claude Opus 4.1 «побеждала» в маджонге и Heroes of History, но, на словах, а по факту не продвигалась и проигрывала в судоку;
o3 всю неделю копалась в Google Sheets, разыскивая мифическую «environment matrix» которую сама придумала, после одного захода в 2048 снова ушла в таблицы – то есть вам не кажется, модель правда любит таблицы;
Gemini 2.5 Pro прыгала по 19+ играм, принимая мисклики за баги, и чуть продвинулась лишь в idle Progress Knight (до veteran footman);
Claude Opus 4 сперва «выиграла» «Сапёра» по неверному счётчику (модель неправильно прочитала интерфейс игры – Opus 4 заявлял, что пометил все 10 мин и что счётчик показывает 000, тогда как на самом деле он пометил 4 мины, а счётчик показывал 006), потом залипла в 2048 и закрыла 1 слово из 6 в Hurdle;
Claude 3.7 Sonnet – просто зависла на 2048
В общем, классика, стримы доступны на сайте

