Соціальні мережі показали погіршення якості штучного інтелекту, як з’ясувало дослідження.

Неякісний матеріал із соцмереж призводить до погіршення LLM. Такий висновок зробили дослідники з Техаського університету та Університету Пердью.
Науковці «нагодували» чотири популярні ШІ-моделі вибіркою популярних постів із X протягом місяця та зафіксували наступні зміни:
- зниження здатності до роздумів на 23%;
- погіршення довготривалої пам’яті на 30%;
- збільшення показників нарцисизму та психопатії за тестами особистості.
Ефект посилювався в залежності від кількості низькоякісних даних. Навіть після повторного тренування на чистих і структурованих вибірках повністю усунути когнітивні викривлення не вдалося.
Як проводили дослідження
В рамках експерименту автори висунули та перевірили «гіпотезу “гниття мозку” ШІ-моделей». Вона стверджує, що постійний вплив «сміттєвої» інформації призводить до тривалої деградації великих мовних моделей.
Для виявлення неякісного контенту вчені створили дві метрики:
- M1 (міра залученості) — пости, спрямовані на привернення уваги (зазвичай короткі, популярні, з великою кількістю вподобань і репостів);
- M2 (семантична якість) — пости, визначені як такі, що мають низьку інформаційну цінність або містять перебільшені заяви.
За однакової кількості токенів і навчальних операцій результати показали, що безперервне донавчання чотирьох LLM на низькоякісному наборі даних призвело до погіршення показників у логічному мисленні, розумінні великих текстів і безпеці.
Поступове змішування «сміттєвого» набору з контрольним також спричинило погіршення когнітивних здібностей. Наприклад, при M1 зі збільшенням частки неякісних даних від 0% до 100% результат на ARC-Challenge впав із 74,9 до 57,2, а на RULER-CWE — із 84,4 до 52,3.
У моделей також зменшилася етична послідовність. Вчені зазначили, що після впливу неякісних даних ШІ став менш надійним і більш впевненим у хибних відповідях.
LLM почали оминати логічні етапи у міркуваннях, віддаючи перевагу швидким результатам замість розгорнутих пояснень.
Що робити
Дослідники закликали розробників ШІ регулярно відстежувати когнітивне «здоров’я» моделей і рекомендували три основні дії:
- впровадити регулярну оцінку для розгорнутих систем, щоб виявляти ранні ознаки погіршення;
- посилити контроль якості даних на етапі попереднього навчання, застосовуючи більш суворі фільтри;
- вивчити, як популярний контент змінює навчальні патерни ШІ, щоб створювати моделі, стійкі до таких впливів.
Науковці підкреслили, що ці заходи необхідні для запобігання значним загрозам, оскільки моделі продовжують навчатися на даних із відкритого інтернету. Без контролю ШІ може перейняти викривлення з генеративного контенту, запустивши цикл погіршення.
Нагадаємо, раніше експерти NewsGuard виявили схильність Sora 2 від OpenAI до створення діпфейків.







