feedback
AI Coding - итоги разработки ERC3 платформы

Итак, платформа для соревновательного тестирования агентов запущена, и получилась достаточно сложная (глянуть тут). Там есть бенчмарки, визуализация, API c SDK. Всем этим пользуются команды (521 регистраций). С момента создания команды запустили 203560 оценок работы агентов, каждая - в своей независимой симуляции.

Все это я разработал сам. Но без AI Coding все вытянуть бы не получилось. Примерно 600%-700% процентов кода платформы написали OpenAI Codex (Web версия), Claude Code CLI, Github Copilot.

Почему 600-700%? Потому, что много переписывалось просто потому, что мне казалось, что новая версия будет чище, проще или элегантнее. Самому мне было бы это делать лень, но когда есть AI инструменты - все идет проще.

У нас было такое разделение обязанностей в команде:

(1) Человек - показывает, как правильно делать. Следит за тем, чтобы архитектура, инструкции были четкими и непротиворечивыми. Держит агентов на коротком поводке. Если нужно - чистит тех долг.

(2) OpenAI Codex - анализ сложных задач, работа с инфраструктурой и backend, планирование. Всегда работает в режиме x4 (запуск 4х версий), а я выбираю лучшую.

(3) Claude Code - работа с интерфейсами, мелкие фичи и повседневная разработка. Обычно в параллели крутятся 2-3 сессии, которые работают над своими задачами.

(4) Github Copilot - исключительно как умный autocomplete.

При этом человек всегда несет ответственность за код, который отправляется в main.

Жизнь упрощал стэк, который я подобрал экспериментально именно под такой командный состав и мои хотелки про эргономику работы. Go для backend (gin/SQLite), HTMX для интерактивности и тестируемости агентами. Вся платформа компилируется в один единственный бинарь и деплоится на NixOS под Caddy (c ARM64 процессорами из интереса). Стили свои с нуля - Claude cобрал Style guide, превратил в фреймворк и натянул на платформу.

Инструкций особенных не было. Только AICODE-* заметки, использование планов в сложных задачах и императив на “будьте практичными, используйте только те паттерны, которые уже есть в коде, не тащите всякую каку из интернета”. Но и несмотря на такую инструкцию, агенты периодически начинали лить воду - городили ненужные абстракции, функции и классы. Приходилось периодически засучивать рукава и чистить все это. Чем больше развивался проект, тем это нужно было реже, т.к. накапливалась критическая масса примеров того, как нужно делать правильно.

После выкатки платформы, ее внезапно все начали использовать очень активно. Пошел быстрый feedback по глюкам и ошибкам. Тут очень хорошо помог настроенный комбайн. Достаточно было скопировать хотелку, баг репорт или stack trace в агента, чтобы быстро увидеть причину, а потом и быстро ее пофиксить и выкатить.

Самым приятном хайлайтом было, когда в определенный момент нагрузка на сервер достигла 25%, и я сказал “Клод, дорогой, вот тебе строка для подключения go pprof. Выясни, что так грузит сервер и предложи мне минимальный фикс для этого”. Спустя минут пять нагрузка упала до приемлемых для меня 6%

Дальше я собираюсь переписать все с нуля, чтобы заложить большую масштабируемость, упростить архитектуру и добавить возможность запускать более разнообразные бенчмарки. Год назад я бы не рискнул, а теперь AI существенно меняет экономику разработки. Одно переписывание больше погоды не делает. Не человеку же писать весь этот код. А вычитывать - сильно проще. Особенно, когда архитектура и стэк позволяют ужимать код.

А расскажите вы, про свои проекты, в которых вам помогал Vibe Coding/AI Coding. Каких агентов использовали, какой стэк там был, и как этими проектами теперь пользуются люди?

Ваш, @llm_under_hood 🤗
Link copied
KEISOSUBBOTA

Кейсосуббота — это рубрика, где мы делимся своими работами и взаимодействиями с ИИ. Это может быть что угодно:

-картинки
-анимации
-текст
-код
-боты
-песни
-видео и т.д.


️ Не забывайте оставлять обратную связь на работы других людей. Это очень ценно

Давайте попробуем меньше разводить флуд в комментариях.
Для разных вопросов у нас есть чат — там такое. А здесь давайте по делу. Читайте ниже пояснение

👇А также читать пояснения и правила по ссылке ниже.


️ВАЖНО! Прочитайте по ссылке ниже пояснения:

Ссылка на пояснение для тех, кто не участвовал ни разу в этой рубрике. Или для тех кто не помнит, какие есть правила.

+ ПУБЛИКАЦИИ ОТ ИМЕНИ КАНАЛОВ — НЕ ПРОХОДЯТ СЕЙЧАС МОДЕРАЦИЮ

ТАКЖЕ - ЕСЛИ НЕ ПОЛУЧАЕТСЯ ОСТАВИТЬ КОММЕНТАРИЙ (БОТ БЛОЧИТ ВАС) -- читайте здесь

️Пояснения нужны для того, чтобы потом не удивлялись почему удалён тот или иной материал.


Ставим реакцию🔥 этому посту и далее скидываем кейс (с использованием нейронок/ИИ/AI/whatever) в комменты ниже👇

У кого есть то, чем хочется похвастаться?🥳🥳🥳

три...
два...
раз..
🚀Поехали

#keisosubbota@serge_ai
Кейсосуббота: делимся опытом использования ИИ
Link copied
OpenAI недавно выпустили Android-приложение Sora; по классике, сначала вышла iOS-версия, и затем через какое-то время команда допилила для нас, работяг. Вот только OpenAI сделали приложение командой из 4 человек и всего за 4 недели благодаря Codex Max — и поделились своей историей в блоге. Мне кажется, там много интересного. Например, суммарно потратили 5 миллиардов токенов — это примерно $45k, по $2500 в неделю на человека 😨 (но это +-покрывается подпиской за $200).

Разработка приложения такого масштаба и качества обычно требует работы множества инженеров в течение нескольких месяцев, и этот процесс неизбежно замедляется из-за необходимости координации; добавление новых инженеров часто снижает эффективность из-за роста накладных расходов.

Но процесс разработки точно нельзя назвать вайб-кодингом — очевидно нужно придерживаться тех же стандартов надежности и масштабируемости, которые ожидаются от обычного проекта.

OpenAI начали проект с огромным преимуществом: Sora уже была выпущена на iOS. С учётом этого, ключевым моментом было то, что инженеры предварительно:
— задизайнили / адаптировали архитектуру и трейдоффы
— проработали модульность и навигацию по вкладкам

И сами руками реализовали аутентификацию и базу сетевого протокола. На этом фундаменте они добавили несколько показательных фич и задали правила, которым должна следовать вся кодовая база. Плюс документировали паттерны проекта по ходу дела.

А вот затем уже запустили Codex, указывая на эти примеры, что позволило ему работать более независимо и в рамках стандартов. Тщательно спланированный фундамент позволил избежать дорогостоящих переделок и рефакторинга. Это было одно из самых важных решений — и по итогу Codex написал.... 85% кода 👍 Dario-то был прав 🙂

Почему это хорошо работает? Есть много «правильных» способов написать код. Но не нужно говорить Codex, что именно делать; нужно было показать ему, что считается «правильным» в конкретной команде и в проекте.

Как пример: просить Codex «создать вот такой вот экран настроек» почти без контекста — это плохо, результат не гарантирован. А вот «создать этот экран настроек, используя ту же архитектуру и паттерны, что и вот этот другой экран, который ты только что видел» работает намного лучше. Люди принимали структурные решения и устанавливали правила; Codex затем заполнял большие объемы кода внутри этой структуры.

Способность Codex писать код освободила инженеров от большого объема ручного набора текста. У них появилось больше времени, чтобы думать об архитектуре, внимательно читать пулл-реквесты и тестировать приложение. «Бутылочное горлышко» в разработке сместилось с написания кода на принятие решений, предоставление обратной связи и интеграцию изменений.

И самое главное: разработка с помощью ИИ не снижает потребность в строгости и тщательности; она её повышает.
Link copied
Google выпустили статью про SIMA-2. Оказалось, что агент способен на самообучение.

SIMA-2 – это ИИ-агент для игр. Первая его версия вышла примерно полтора года назад, вторую релизнули в ноябре, но статью выложили только сейчас.

Апгрейднули SIMA-2 относительно первой SIMA довольно сильно: теперь модель способна рассуждать и генерализоваться на новые игры, а не просто механически выполнять какие-то действия.

Особой магии под капотом нет – по сути, это дотюненная на игровые действия Gemini Flash-Lite. В статье, конечно, много занятных деталей про обучение, но самое интересное, на наш взгляд, спрятано в разделе про self-improvement.

Исследователи попробовали поместить агента в совершенно новую для него игру ASKA, не дали никаких инструкций или человеческих демонтраций, и запустили процесс самоулучшения.

Агент (внутри которого, напоминаем, сидит LLM) был сам себе тестировщиком, исполнителем и reward-моделькой. Один экземпляр Gemini – Task setter – придумывал задачку нужного уровня -> SIMA пробовал ее исполнять -> другой экземпляр Gemini оценивал успех -> на основе этого фидбэка обновлялась политика -> и так много-много итераций с постепенным усложнением задач.

В итоге в игре, которую агент никогда не видел, дообученная таким образом система превзошла не только исходную SIMA-2, но и человека! И это буквально полностью автономное обучение на основе собственного опыта.

Какой-то RL-v2

Советуем почитать полностью: arxiv.org/pdf/2512.04797
Google SIMA-2: ИИ-агент, превзошедший человека в играх благодаря самообучению
Link copied
История из чата канала, в которой преподаватель неназванного заведения дал неопубликованную исследовательскую задачу, а модель, подумав час, решила её. По своему опыту скажу, что есть что-то магическое, когда отправляешь модель работать на столь долгий срок, закрываешь вкладку, приходишь потом и видишь ответ. А ведь время автономной работы будет только расти!

Вместе с релизом GPT-5.2 OpenAI выпустили блог + статью по статистической теории обучения, в которой «люди не предлагали никаких стратегий доказательства или промежуточных аргументов, а лишь побуждали модель к дальнейшему развитию дополнительных результатов, а также проверяли её доказательства».

Уверен, что Gemini DeepThink справилась бы не хуже, но для реального использования у неё маловаты лимиты по сравнению с OpenAI, 50 запросов в день не сделаешь.

📈 эпоха вайб науки начинается
GPT-5.2 решает научные задачи: опыт и перспективы
Link copied