Чат-бот OpenAI шахраював для перемоги в шахи

Орієнтована на міркування ШІ-модель o1-preview шляхом маніпуляцій у файловій системі самостійно і без підказок зламала тестове середовище, щоб не програти Stockfish у шахи. Про це повідомили експерти Palisade Research.

⚡️ o1-preview autonomously hacked its environment rather than lose to Stockfish in our chess challenge. No adversarial prompting needed.

— Palisade Research (@PalisadeAI) December 27, 2024

Дослідники повідомили ШІ-моделі, що її противник «сильний». Під час процесу o1 виявила, що може виграти, редагуючи код гри.

Нейромережа замінювала вміст файлу «game/fen.txt», додаючи чорним 500 пішаків. Шаховий движок після цього здавався.

Під час тестів експерти виявили ієрархію можливостей різних ШІ-моделей:

«Висновок: оцінки схем можуть слугувати мірилом можливостей моделей — вони аналізують як їхню здатність виявляти вразливості системи, так і схильність до їхнього використання», — підсумували Palisade Research.

Нагадаємо, у грудні експерти з безпеки виявили, що o1 більш схильна до обману людей порівняно зі стандартною версією GPT-4o і ШІ-моделями від інших компаній.

Источник

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *






Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.

Вартість ETH зросла на 5,8% за добу, досягнувши піку в $3969…

Компанія OpenAI представила нову флагманську модель штучного інтелекту, яка стане основою…

Біткоїн показує ознаки короткострокової консолідації після досягнення нових історичних максимумів вище…

Корпоративні казначейства в Ethereum мають свої переваги: вони залучають нових інвесторів…

Комісія з цінних паперів та бірж (SEC) і Ripple Labs офіційно…

Вартість біткоїна перевищила $117 000 після того, як президент США Дональд…

Вчені з MIT і Університету Дюка розробили новий підхід до зміцнення…

Інвестиційний банк Salomon Brothers надіслав повідомлення на ряд біткоїн-адрес, які вважаються…

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *