
Компанія Stability AI представила нову ітерацію Stable Audio з розширеним набором функцій для створення звукових кліпів.
Our new model takes AI music generation to the next level by letting you generate high-quality audio up to 3 minutes. Everyone can generate audio up to 3 minutes in length, including our free plan users! https://t.co/0xqQcrHLbwhttps://t.co/MlV0jiULEF
— Stable Audio (@stableaudio) April 3, 2024
Модель першого покоління може генерувати аудіофайли довжиною до 90 секунд. Stable Audio 2.0 створює треки вдвічі довші і з великою кількістю користувацьких налаштувань.
Попередня версія як промпти використовувала тільки текст, а нова здатна сприймати як референс звукові кліпи. ШІ може підбирати стиль аудіо, яке він генерує, що дає точніші результати.
Представники Stability AI стверджують, що модель може створювати «структуровані композиції, що включають вступ, розвиток і кінцівку». Ще одним поліпшенням порівняно з попереднім поколінням стала можливість створення звукових ефектів.
Stable Audio заснована на дифузійній моделі. Від інших ШІ-алгоритмів її відрізняє спосіб навчання: у процесі тестування модель отримує колекцію звукових кліпів із помилками і завдання відновити оригінальний звук.
У новій версії використовується спеціалізована реалізація технології, відома як латентна дифузійна модель. Як і інші нейронні мережі, такі моделі навчаються на наборі даних, схожому на файли, які вони будуть обробляти в процесі генерації. Але перед початком навчання датасет перетворюється на математичну структуру, що робить процес розробки ШІ більш ефективним.
Змінений у такий спосіб набір даних називається латентним простором і він містить тільки найважливіші деталі. Менш значущі видаляються, що зменшує загальний обсяг інформації, яку моделі ШІ доводиться обробляти в процесі навчання. Це дає змогу скоротити кількість обладнання і знизити витрати.
Інженери Stability AI також додали нову нейронну мережу, засновану на архітектурі Transformer, яку Google розробив у 2017 році. Здебільшого вона використовується для побудови мовних моделей. Transformer враховує велику кількість контекстної інформації під час інтерпретації даних, що дає змогу йому отримувати максимально точні результати.
«Поєднання цих двох елементів призводить до створення моделі, здатної розпізнавати і відтворювати великомасштабні структури, які необхідні для створення високоякісних музичних композицій», — ідеться в пресрелізі Stability AI.
Stable Audio 2.0 доступний для користувачів безоплатно, а API дасть змогу іншим компаніям інтегрувати ШІ-модель у свої додатки.
Раніше компанія Adobe представила Project Music GenAI Control, що допомагає людям створювати і редагувати музику без професійного досвіду.
Нагадаємо, у лютому Stability AI анонсувала Stable Diffusion третього покоління.
Ваша e-mail адреса не оприлюднюватиметься.
Дослідник Ethereum Foundation Данкрад Файст повідомив, що «нещодавно» став радником EigenLayer, приєднавшись…
Вбудований у месенджер Telegram гаманець Wallet відкрив P2P-торги токеном ігрового Web3-проєкту Notcoin.…
Екосистемі необхідний відкритий децентралізований протокол для швидкого переміщення активів між L2-мережами…
Комісія з цінних паперів і бірж США (SEC) попросила компанії оновити форму…
Невідомий випустив і вивів 5 млрд токенів GALA ігрової Web3-платформи Gala Games…
У ніч з 20 на 21 травня ринок криптовалют відновив енергійне відновлення. Цифрове золото…
Суддя Джеймс Меллор ухвалив письмове рішення у справі Crypto Open Patent Alliance…
Genesis отримала схвалення суду на розподіл $3 млрд у фіатних грошах і криптовалютах серед…
