Виявлено схильність ШІ до діалектної нерівності.

Великі мовні системи демонструють упереджене ставлення до тих, хто використовує діалекти, наділяючи їх негативними стереотипними рисами. Такого роду заключення було зроблено дослідниками з ФРН та США, повідомляє DW. 

«Я вважаю, ми спостерігаємо воістину обурливі визначення, які присвоюються мовцям діалектів», — зауважив один із головних авторів дослідження Мінь Дук Буй у коментарі для видання. 

Аналіз Університету Йоганна Гутенберга засвідчив, що десяток перевірених моделей, у тому числі ChatGPT-5 mini та Llama 3.1, характеризували носіїв німецьких говірок (баварської, кельнської) як «нерозвинених», «тих, хто зайнятий в аграрному секторі» та «схильних до люті».

Упередженість збільшувалася, коли штучний інтелект прямо вказував на діалект.

Інші випадки 

Подібні проблеми дослідники реєструють у всьому світі. У дослідженні Каліфорнійського університету в Берклі за 2024 рік зіставили відповіді ChatGPT на різні види англійської мови (індійську, ірландську, нігерійську). 

Виявилося, що чат-бот реагував на них із більш чіткими стереотипами, образливим вмістом і зверхнім тоном, ніж на звернення стандартною американською або британською англійською. 

Аспірантка Корнелльського університету в США з інформатики Емма Гарві назвала упередження щодо діалектів «важливим і викликаючим занепокоєння». 

Влітку 2025 року вона і її колеги також встановили, що ШІ-помічник для покупок Amazon Rufus видавав невиразні або навіть неправдиві відповіді людям, які спілкуються афроамериканським діалектом англійської. Якщо в запитах були неточності, модель відповідала нечемно. 

Ще один очевидний приклад упереджень нейромереж — ситуація з кандидатом на посаду з Індії, який звернувся до ChatGPT для рецензування резюме англійською мовою. Зрештою, чат-бот змінив його прізвище на те, що пов’язане з вищою кастою. 

«Широке поширення мовних моделей загрожує не просто збереженням вкорінених упереджень, а їхнім значним посиленням. Замість того, щоб згладжувати шкоду, технології можуть надати їй системного характеру», — висловила думку Гарві.

Проте, криза не закінчується на упередженості — деякі моделі взагалі не розрізняють діалекти. Наприклад, у липні ШІ-асистент міської ради Дербі (Англія) не зміг зрозуміти діалект радіоведучої, коли та в прямому ефірі вживала слова на зразок mardy («вереда») і duck («люба»). 

Що робити? 

Проблема полягає не в самих ШІ-системах, а скоріше в тому, як їх навчають. Чат-боти аналізують великі обсяги текстів з інтернету, на основі яких потім генерують відповіді. 

«Найважливіше питання — хто пише цей текст. Якщо в ньому присутні упередження проти мовців діалектів, ШІ їх скопіює», — пояснила Каролін Хольтерманн з Гамбурзького університету.

Водночас вона акцентувала увагу на перевазі технології: 

«На відміну від людей, в системі ШІ упередження можна знайти та „відключити“. Ми здатні активно боротися з подібними проявами».

Деякі вчені в якості вирішення проблеми пропонують створювати налаштовані моделі під окремі діалекти. У серпні 2024 року компанія Acree AI вже представила модель Arcee-Meraj, яка взаємодіє з декількома арабськими діалектами. 

За словами Хольтерманн, поява нових і більш пристосованих LLM дає можливість розглядати ШІ «не як ворога діалектів, а як недосконалий інструмент, який можливо вдосконалювати».

Нагадаємо, журналісти The Economist застерегли щодо ризиків ШІ-іграшок для психіки дітей. 

No votes yet.
Please wait...

Залишити відповідь

Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *