
Компанія з кіберзахисту OpenZeppelin здійснила ревізію нового ШІ-еталону EVMbench від OpenAI. Аналітики знайшли методологічні огріхи та «забруднення» даних.
https://t.co/yW00RmRBZQ
— OpenZeppelin (@OpenZeppelin) March 2, 2026
Розробник ChatGPT випустив EVMbench в середині лютого у колаборації з інвестиційним фондом Paradigm для оцінювання здатності ШІ-агентів знаходити, ліквідовувати та використовувати слабкі місця у смартконтрактах.
Спеціалісти OpenZeppelin схвалили ініціативу, проте вирішили проаналізувати розробку за тими ж критеріями, що й протоколи, які вони оберігають (зокрема Aave, Lido та Uniswap).
Ключові недоліки
Головна проблема — «забруднення» навчальних даних. EVMbench спирається на вибірку зі 120 уразливостей, виявлених в процесі аудитів 2024–2025 років.
Разом з тим, провідні моделі, що проходили тестування, володіють зрізом знань до серпня 2025 року. Вони могли «зберігати» інформацію про ці вразливості з тренувальних даних. Навіть з вимкненим інтернетом це ставить під питання об’єктивність експерименту: невідомо, чи здатний ШІ виявляти дійсно нові загрози.
В OpenZeppelin також вказали на фактичні неточності у датасеті EVMbench. Щонайменше чотири вразливості з категорії «високого ризику» виявилися недієздатними. При цьому ШІ-агенти отримували правильні бали за нібито вірне виявлення цих проблем.
«Це не суб’єктивні розбіжності щодо серйозності; це випадки, коли описана атака просто не реалізується», — наголосили експерти.
Фахівці підтвердили, що штучний інтелект відіграє важливу роль у майбутньому безпеки блокчейнів. Однак, вони застерегли: поспіх з впровадженням не повинен шкодити якості даних і тестів.
«Питання не в тому, чи змінить ШІ безпеку смартконтрактів — він її змінить. Питання в тому, чи будуть еталони та дані, на яких ми будуємо ці інструменти, відповідати тим самим стандартам, що й контракти, які вони повинні оберігати», — підсумували в OpenZeppelin.
Нагадаємо, в листопаді експерти Microsoft презентували середовище для тестування ШІ-агентів і знайшли вразливості, характерні сучасним цифровим помічникам.
