
Великі мовні системи демонструють упереджене ставлення до тих, хто використовує діалекти, наділяючи їх негативними стереотипними рисами. Такого роду заключення було зроблено дослідниками з ФРН та США, повідомляє DW.
«Я вважаю, ми спостерігаємо воістину обурливі визначення, які присвоюються мовцям діалектів», — зауважив один із головних авторів дослідження Мінь Дук Буй у коментарі для видання.
Аналіз Університету Йоганна Гутенберга засвідчив, що десяток перевірених моделей, у тому числі ChatGPT-5 mini та Llama 3.1, характеризували носіїв німецьких говірок (баварської, кельнської) як «нерозвинених», «тих, хто зайнятий в аграрному секторі» та «схильних до люті».
Упередженість збільшувалася, коли штучний інтелект прямо вказував на діалект.
Інші випадки
Подібні проблеми дослідники реєструють у всьому світі. У дослідженні Каліфорнійського університету в Берклі за 2024 рік зіставили відповіді ChatGPT на різні види англійської мови (індійську, ірландську, нігерійську).
Виявилося, що чат-бот реагував на них із більш чіткими стереотипами, образливим вмістом і зверхнім тоном, ніж на звернення стандартною американською або британською англійською.
Аспірантка Корнелльського університету в США з інформатики Емма Гарві назвала упередження щодо діалектів «важливим і викликаючим занепокоєння».
Влітку 2025 року вона і її колеги також встановили, що ШІ-помічник для покупок Amazon Rufus видавав невиразні або навіть неправдиві відповіді людям, які спілкуються афроамериканським діалектом англійської. Якщо в запитах були неточності, модель відповідала нечемно.
Ще один очевидний приклад упереджень нейромереж — ситуація з кандидатом на посаду з Індії, який звернувся до ChatGPT для рецензування резюме англійською мовою. Зрештою, чат-бот змінив його прізвище на те, що пов’язане з вищою кастою.
«Широке поширення мовних моделей загрожує не просто збереженням вкорінених упереджень, а їхнім значним посиленням. Замість того, щоб згладжувати шкоду, технології можуть надати їй системного характеру», — висловила думку Гарві.
Проте, криза не закінчується на упередженості — деякі моделі взагалі не розрізняють діалекти. Наприклад, у липні ШІ-асистент міської ради Дербі (Англія) не зміг зрозуміти діалект радіоведучої, коли та в прямому ефірі вживала слова на зразок mardy («вереда») і duck («люба»).
Що робити?
Проблема полягає не в самих ШІ-системах, а скоріше в тому, як їх навчають. Чат-боти аналізують великі обсяги текстів з інтернету, на основі яких потім генерують відповіді.
«Найважливіше питання — хто пише цей текст. Якщо в ньому присутні упередження проти мовців діалектів, ШІ їх скопіює», — пояснила Каролін Хольтерманн з Гамбурзького університету.
Водночас вона акцентувала увагу на перевазі технології:
«На відміну від людей, в системі ШІ упередження можна знайти та „відключити“. Ми здатні активно боротися з подібними проявами».
Деякі вчені в якості вирішення проблеми пропонують створювати налаштовані моделі під окремі діалекти. У серпні 2024 року компанія Acree AI вже представила модель Arcee-Meraj, яка взаємодіє з декількома арабськими діалектами.
За словами Хольтерманн, поява нових і більш пристосованих LLM дає можливість розглядати ШІ «не як ворога діалектів, а як недосконалий інструмент, який можливо вдосконалювати».
Нагадаємо, журналісти The Economist застерегли щодо ризиків ШІ-іграшок для психіки дітей.
