Claude від Anthropic навчили зупиняти «проблемні» діалоги

Компанія Anthropic розробила чат-ботів Claude Opus 4 та 4.1 для завершення діалогів із користувачами «в рідкісних екстремальних ситуаціях систематично шкідливого або образливого спілкування».

В Anthropic подбали про «благополуччя» чат-бота Claude

Чат-бот Claude завершує розмову. Джерело: Anthropic.

Після завершення діалогу користувач втратить можливість продовжувати спілкування в чаті, але зможе розпочати новий. При цьому історія переписки залишиться збереженою.

Розробники уточнили, що ця функція насамперед націлена на забезпечення безпеки самої нейронної мережі.

«[…] ми працюємо над ідентифікацією та впровадженням малозатратних заходів для зменшення ризиків для благополуччя моделей, якщо таке благополуччя можливе. Одним із таких заходів є надання LLM можливості завершувати або виходити з потенційно травматичних ситуацій», — зазначено в публікації.

В рамках супутнього дослідження в Anthropic проаналізували самооцінку та поведінкові уподобання моделі. Чат-бот проявив «стійку відразу до насильства». У Claude Opus 4 було виявлено:

«Ця поведінка зазвичай виникала, коли користувачі продовжували надсилати шкідливі запити та/або ображати, незважаючи на те, що Claude неодноразово відмовлявся виконувати їх і намагався продуктивно перенаправити спілкування», — підкреслили в компанії.

Нагадаємо, у червні дослідники Anthropic встановили, що ШІ може вжити заходів до шантажу, розкрити конфіденційні дані компанії й навіть допустити загибель людини в екстремальних умовах.

Источник

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *






Цей сайт використовує Akismet для зменшення спаму. Дізнайтеся, як обробляються дані ваших коментарів.

Потеря близкого человека за границей — это тяжелое испытание, которое усугубляется…

Венчурний підрозділ світового банківського гіганта Standard Chartered, SC Ventures, планує залучити…

Дах для альтанки — невід’ємна частина її конструкції, що захищає від…

Згідно з місцевим виданням, новостворене Управління з регулювання віртуальних активів Пакистану…

Kraken розширює доступ до безстрокових ф’ючерсних контрактів, популярного криптовалютного похідного продукту,…

Швейцарська компанія 21Shares, один з провідних європейських емітентів криптовалютних ETP, запустила…

Міністерство малого та середнього бізнесу та стартапів Південної Кореї офіційно переглянуло…

Центральний банк Гонконгу запропонував послабити вимоги до капіталу для банків, які…

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *