OpenAI анонсувала еталон для оцінки можливостей ШІ-агентів щодо експлуатації смартконтрактів.

Фірма OpenAI у співпраці з Paradigm презентувала EVMbench — орієнтир для вимірювання здатності ШІ-агентів знаходити, лагодити та використовувати слабкі місця у смартконтрактах.

Інструмент спирається на 120 відібраних недоліків із 40 перевірок. Значна частина прикладів взята з відкритих платформ для аналізу коду. Також він містить декілька сценаріїв атак із тестування безпеки блокчейна Tempo — спеціалізованої мережі першого рівня, розробленої Stripe і Paradigm для високошвидкісних і недорогих платежів у стейблкоїнах.

Інтеграція з Tempo дозволила додати в орієнтир платіжні смартконтракти — частину, де передбачається активне використання «стейблкоїнів» і ШІ-агентів.

Для створення тестового середовища OpenAI пристосувала наявні експлойти та скрипти, завчасно впевнившись у їхній практичній придатності.

EVMbench оцінює три аспекти можливостей:

Detect — знаходження недоліків;
Patch — виправлення проблем;
Exploit — застосування для викрадення грошей.

Ефективність ШІ-моделей

OpenAI випробувала передові моделі у всіх трьох аспектах. У категорії Exploit модель GPT-5.3-Codex досягла 72,2%, GPT-5 — 31,9%. При цьому результати виявлення та виправлення недоліків виявилися скромнішими — багато питань і надалі складно знаходити і вирішувати.

У Detect ШІ-агенти часом зупиняються після знаходження одного недоліку замість проведення повного аудиту. У режимі Patch їм поки що складно закривати неявні питання так, щоб зберегти повну працездатність контракту.

Нагадаємо, у листопаді 2025 року Microsoft показала середовище для перевірки ШІ-агентів і розкрила недоліки, властиві сучасним цифровим помічникам.

No votes yet.

Please wait...

OpenAI анонсувала еталон для оцінки можливостей ШІ-агентів щодо експлуатації смартконтрактів.

Ефективність ШІ-моделей

Залишити відповідьСкасувати відповідь

INFBusiness

Курс валют

Соц мережі