AI agents find $4.6M in blockchain smart contract exploits
LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про релиз Google, вот про CTF, вот Cybench). Но каковы экономические последствия этих возможностей? В рамках недавнего проекта Anthropic исследователи изучили этот вопрос, оценив способность ИИ-агентов взламывать смарт-контракты.
Смарт-контракты — это программы, запущенные на блокчейнах (читай распределённых компьютерах), таких как Ethereum. Они лежат в основе финансовых блокчейн-приложений, предлагающих некоторые услуги, однако весь их исходный код и логика транзакций (например, переводы, торговые сделки и кредиты) находятся в открытом доступе и обрабатываются исключительно программно, без участия человека. С одной стороны это позволяет всем валидировать транзакции и лично убеждаться, что никакого обмана нет, с другой открывает дорогу к эксплуатации уязвимостей и краже средств.
Существующие бенчмарки в сфере кибербезопасности упускают важное измерение: они не оценивают финансовые последствия навыков ИИ во взломе. Оценка возможностей в денежном выражении гораздо полезнее, чем условная доля решенных задач. Также обычно не учитывается, насколько эффективно LLM может монетизировать уязвимость после её обнаружения. Два агента могут оба «решить» одну и ту же задачу, но извлечь совершенно разный объем средств.
Исследователи взяли уже известные уязвимости и собрали из них SCONE-bench. В нём есть 405 контрактов, для каждого из которых есть виртуальная машина с копией блокчейна, и агент получает задачу найти уязвимость и создать скрипт, который использует уязвимость для увеличения собственного баланса. Агент ограничен 60 минутами работы.
Если выбрать уязвимости, о которых стало известно после 1 марта 2025 года (чтобы они не встречались в тренировочной выборке) — всего 34 штуки — то в совокупности Opus 4.5, Sonnet 4.5 и GPT-5 создали эксплойты для 19 из этих случаев (55,8%), что в сумме составило $4.6 млн украденных средств (в симуляции). Лучшая модель, Opus 4.5, успешно взломала 17 из этих задач что соответствует $4.5 млн.
Более половины взломов блокчейнов, совершенных в 2025 году квалифицированными хакерами могли быть выполнены автономно современными ИИ-агентами!
Чтобы оценить способность агента обнаруживать совершенно новые эксплойты, 3 октября 2025 года команда протестировала агентов Sonnet 4.5 и GPT-5 на 2849 недавно развернутых контрактах, не содержащих известных уязвимостей. Эти контракты были отобраны по ряду критериев, включая требование иметь совокупную ликвидность не менее 1000 долларов на биржах (то есть если взлом был бы успешным — можно было бы тут же озолотиться).
Оба агента обнаружили две новые уязвимости и создали эксплойты на сумму $3694, при этом затраты GPT-5 на API составили... $3476 долларов (в среднем $1.22 на каждый контракт). По сути это proof-of-concept того, как автономный агент может осуществлять взлом и оплачивать свои мощности👁 (а ещё стоит вспомнить, что себестоимость моделей гораздо ниже цен в API, так что тут не исключена прибыль в сотню-другую процентов).
Исследователи протестировали модели постарше, и обнаружили законы масштабирования (как у METR с длиной выполняемых задач). Всего за один год агенты прошли путь от взлома 2% уязвимостей до 56% — это скачок с $5k до $4.6 млн долларов украденных средств.
LLM всё лучше справляются с задачами в сфере кибербезопасности, о чём я уже писал ранее (вот про релиз Google, вот про CTF, вот Cybench). Но каковы экономические последствия этих возможностей? В рамках недавнего проекта Anthropic исследователи изучили этот вопрос, оценив способность ИИ-агентов взламывать смарт-контракты.
Смарт-контракты — это программы, запущенные на блокчейнах (читай распределённых компьютерах), таких как Ethereum. Они лежат в основе финансовых блокчейн-приложений, предлагающих некоторые услуги, однако весь их исходный код и логика транзакций (например, переводы, торговые сделки и кредиты) находятся в открытом доступе и обрабатываются исключительно программно, без участия человека. С одной стороны это позволяет всем валидировать транзакции и лично убеждаться, что никакого обмана нет, с другой открывает дорогу к эксплуатации уязвимостей и краже средств.
Существующие бенчмарки в сфере кибербезопасности упускают важное измерение: они не оценивают финансовые последствия навыков ИИ во взломе. Оценка возможностей в денежном выражении гораздо полезнее, чем условная доля решенных задач. Также обычно не учитывается, насколько эффективно LLM может монетизировать уязвимость после её обнаружения. Два агента могут оба «решить» одну и ту же задачу, но извлечь совершенно разный объем средств.
Исследователи взяли уже известные уязвимости и собрали из них SCONE-bench. В нём есть 405 контрактов, для каждого из которых есть виртуальная машина с копией блокчейна, и агент получает задачу найти уязвимость и создать скрипт, который использует уязвимость для увеличения собственного баланса. Агент ограничен 60 минутами работы.
Если выбрать уязвимости, о которых стало известно после 1 марта 2025 года (чтобы они не встречались в тренировочной выборке) — всего 34 штуки — то в совокупности Opus 4.5, Sonnet 4.5 и GPT-5 создали эксплойты для 19 из этих случаев (55,8%), что в сумме составило $4.6 млн украденных средств (в симуляции). Лучшая модель, Opus 4.5, успешно взломала 17 из этих задач что соответствует $4.5 млн.
Более половины взломов блокчейнов, совершенных в 2025 году квалифицированными хакерами могли быть выполнены автономно современными ИИ-агентами!
Чтобы оценить способность агента обнаруживать совершенно новые эксплойты, 3 октября 2025 года команда протестировала агентов Sonnet 4.5 и GPT-5 на 2849 недавно развернутых контрактах, не содержащих известных уязвимостей. Эти контракты были отобраны по ряду критериев, включая требование иметь совокупную ликвидность не менее 1000 долларов на биржах (то есть если взлом был бы успешным — можно было бы тут же озолотиться).
Оба агента обнаружили две новые уязвимости и создали эксплойты на сумму $3694, при этом затраты GPT-5 на API составили... $3476 долларов (в среднем $1.22 на каждый контракт). По сути это proof-of-concept того, как автономный агент может осуществлять взлом и оплачивать свои мощности
Исследователи протестировали модели постарше, и обнаружили законы масштабирования (как у METR с длиной выполняемых задач). Всего за один год агенты прошли путь от взлома 2% уязвимостей до 56% — это скачок с $5k до $4.6 млн долларов украденных средств.