
Фірма OpenAI у співпраці з Paradigm презентувала EVMbench — орієнтир для вимірювання здатності ШІ-агентів знаходити, лагодити та використовувати слабкі місця у смартконтрактах.
Інструмент спирається на 120 відібраних недоліків із 40 перевірок. Значна частина прикладів взята з відкритих платформ для аналізу коду. Також він містить декілька сценаріїв атак із тестування безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високошвидкісних і недорогих платежів у стейблкоїнах.
Інтеграція з Tempo дозволила додати в орієнтир платіжні смартконтракти — частину, де передбачається активне використання «стейблкоїнів» і ШІ-агентів.
Для створення тестового середовища OpenAI пристосувала наявні експлойти та скрипти, завчасно впевнившись у їхній практичній придатності.
EVMbench оцінює три аспекти можливостей:
- Detect — знаходження недоліків;
- Patch — виправлення проблем;
- Exploit — застосування для викрадення грошей.
Ефективність ШІ-моделей
OpenAI випробувала передові моделі у всіх трьох аспектах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому результати виявлення та виправлення недоліків виявилися скромнішими — багато питань і надалі складно знаходити і вирішувати.
У Detect ШІ-агенти часом зупиняються після знаходження одного недоліку замість проведення повного аудиту. У режимі Patch їм поки що складно закривати неявні питання так, щоб зберегти повну працездатність контракту.
Нагадаємо, у листопаді 2025 року Microsoft показала середовище для перевірки ШІ-агентів і розкрила недоліки, властиві сучасним цифровим помічникам.
