OpenAI анонсувала еталон для оцінки можливостей ШІ-агентів щодо експлуатації смартконтрактів.

Фірма OpenAI у співпраці з Paradigm презентувала EVMbench — орієнтир для вимірювання здатності ШІ-агентів знаходити, лагодити та використовувати слабкі місця у смартконтрактах.

Інструмент спирається на 120 відібраних недоліків із 40 перевірок. Значна частина прикладів взята з відкритих платформ для аналізу коду. Також він містить декілька сценаріїв атак із тестування безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високошвидкісних і недорогих платежів у стейблкоїнах.

Інтеграція з Tempo дозволила додати в орієнтир платіжні смартконтракти — частину, де передбачається активне використання «стейблкоїнів» і ШІ-агентів.

Для створення тестового середовища OpenAI пристосувала наявні експлойти та скрипти, завчасно впевнившись у їхній практичній придатності.

EVMbench оцінює три аспекти можливостей:

  • Detect — знаходження недоліків;
  • Patch — виправлення проблем;
  • Exploit — застосування для викрадення грошей.

Ефективність ШІ-моделей

OpenAI випробувала передові моделі у всіх трьох аспектах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому результати виявлення та виправлення недоліків виявилися скромнішими — багато питань і надалі складно знаходити і вирішувати.

У Detect ШІ-агенти часом зупиняються після знаходження одного недоліку замість проведення повного аудиту. У режимі Patch їм поки що складно закривати неявні питання так, щоб зберегти повну працездатність контракту.

Нагадаємо, у листопаді 2025 року Microsoft показала середовище для перевірки ШІ-агентів і розкрила недоліки, властиві сучасним цифровим помічникам.

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *