Stable Audio: створення музики за допомогою AI

Компанія Stability AI випустила потужний та крутий інструмент Stable Audio для аудіогенерації зі своєю новітньою моделлю AudioSparx 2.0. Ця модель представляє собою значний прорив у створенні повністю сформованих музичних треків тривалістю до 3 хвилин і 10 секунд.

Зміст статті

Огляд технології Stable Audio AudioSparx 2.0

Якість і структура: Stable Audio 2.0 задає новий стандарт у генерації аудіо з ШІ, виробляючи високоякісні повні треки з чіткою музичною структурою, тривалістю до трьох хвилин, у стерео 44.1KHz.
Аудіо-в-аудіо генерація: Нова модель дозволяє користувачам завантажувати та трансформувати зразки, використовуючи текстові промпти (команди) на звичайною мовою, маючи мінімальні музичні знання.
Ексклюзивне навчання: Stable Audio 2.0 була навчена виключно на ліцензованому наборі даних з музичної бібліотеки AudioSparx, забезпечуючи дотримання авторський прав та справедливу компенсацію для творців.

Архітектура моделі латентної дифузії Stable Audio 2.0 спеціально розроблена для генерації повних треків з чіткою структурою. Для досягнення цієї мети, всі компоненти системи були перенесені на часові трекові шкали. Новий високоефективний автокодер розпізнає характер аудіохвиль і описує їх як “меланхолічний”, “скрипка” і т.д. і зберігає їх у вигляді коротких відрізків, щоб створити повноцінний музичний трек. Для моделі дифузії використовується дифузійний трансформер (DiT), подібний до того, що використовується в Stable Diffusion 3, замість попереднього U-Net, оскільки він краще пристосований для маніпулювання даними на довгих послідовностях. Поєднання цих двох елементів створює модель, здатну розпізнавати та відтворювати великомасштабні структури, які є необхідними для високоякісних музичних композицій.

Ці інновації в моделі Stable Audio AudioSparx 2.0 відкривають нові горизонти для музичної творчості, дозволяючи користувачам експериментувати з широким спектром музичних жанрів та стилів, і створювати комплексні музичні твори з неперевершеною легкістю.

Структура промпту в Stable Audio для підвищення якості ваших композицій

Промпт — це коротке текстове повідомлення або інструкція, яка дає вказівку системі штучного інтелекту або програмі, що саме від неї потрібно згенерувати або виконати. В контексті генеративних моделей, таких як текстові чи зображенні генератори, промпт використовується для опису бажаного результату, який користувач хоче отримати. Наприклад, у музичному програмному забезпеченні промпт може містити вказівки щодо жанру, настрою, інструментів та інших музичних характеристик, які повинні бути присутніми в згенерованому треку.

Доресі, у нас є велика стаття про тей як професійно писати запити до чату GPT. Проте це стосується всього ШІ загалом.

Stable Audio надає користувачам можливість перетворити текстові інструкції на вишукане аудіо. Розуміння того, як структурувати свої промпти, є ключем до створення бажаного аудіо виводу. Давайте розглянемо, як можна оптимізувати ваши промпти для кращих результатів.

Як писати промпти для Stable Audio 2.0

Структуровані промпти можуть включати такі елементи як:

Формат,
Жанр,
Піджанр,
Інструменти,
Настрої,
BPM (удари в хвилину),
та Стилі.

Вибір правильної структури промпту може значно вплинути на якість генерованого аудіо.

Елементи промпту для створення музичного треку

Основні елементи для створення музичної доріжки:

Формат: Соло, Група, Оркестр, Хор, Дует.
Жанр: Рок, Поп, Хіп-хоп, Інді, Фолі, RnB.
Піджанр: Барабанні петлі, Електрогітара, Поп-музика, Чіл-аут, Амбієнт, Техно.
Інструменти: Піаніно, Драм-машина, Синтезатор, Малий барабан, Клавіатура, Орган.
Настрої: Драматичний, Надихаючий, Магічний, Підіймаючий, Енергійний.
Стилі: Фільмовий Інструментал, 2000-ті, 1960-ті, Танцювальний, Відеоігри.
Темпо: Середній, Повільний, Зростаючий, Швидкий.
BPM: Вказівка конкретних значень BPM для визначення темпу треку.

Приклади промптів для створення музики

Важливо! Сервіс не дуже розуміє українську мову, тому запити краще робити англійською. Використовуйте символ ‘|’ для розділення елементів структури промпту.

Простий Промпт: “Формат: Соло | Інструменти: Барабани”.
Середньої Складності: “Інструменти: синтезаторна арпеджіо, прекрасні акорди рояля, епічні мелодії струнних, синкопована перкусія | Настрої: таємничий, містичний, кульмінаційний”.
Складний Промпт: “Формат: Оркестр | Піджанр: Голлівудський Оркестровий Епік | Інструменти: Струни, Барабанна Установка, Електробас, Хор, Секція Струнних, Флейта, Арфа | Настрої: Атмосферний, Просторий, Кінематографічний, Надихаючий”.

Розуміння того, як правильно структурувати промпти в Stable Audio, може значно покращити якість та точність згенерованого аудіо. Експериментуйте з різними комбінаціями, щоб знайти ті, які найкраще відповідають вашим творчим задумам.

Що таке аудіо-в-аудіо в нейромережі Stable Audio?

Функція аудіо-в-аудіо в Stable Audio дає змогу інтегрувати аудіо у процес генерації з штучним інтелектом. Користувачі можуть завантажувати, записувати або використовувати існуюче аудіо, згенероване ШІ, для цієї мети. Детальну інструкцію цієї функції можна почитати на офіційному сайті.

Це аудіо буде додано як вхідне аудіо, яке разом із текстовим промптом допомагає керувати моделлю ШІ до досягнення ваших цілей у генерації виходу. Ви можете змінювати стиль, жанри та настрій, щоб створити варіації у виході.

Види вхідного аудіо

Існує кілька способів додавання аудіо у процес генерації, щоб керувати виходом:

Використання існуючого аудіо: Ви можете експериментувати з аудіо, яке вже створили, додаючи його як вхідне аудіо поряд з текстовим промптом.
Регулювання сили входу та промпту: За допомогою повзунків сили входу та промпту ви можете робити від мінімальних до екстремальних змін у виході.

Використання вхідного аудіо дає змогу збагатити процес творчості, дозволяючи користувачам більш гнучко експериментувати зі звуком. Це створює можливість для дослідження нових музичних ідей, адаптації існуючих треків під нові жанри або настрої, та вдосконалення загальної якості аудіо-виходу.

Завантажити аудіо можна через спеціальну форму у самомоу редакторі.

Відео інструкція можливості аудіо-в-аудіо

На сайті сервісу є корисне відео, про те як працювати з цієї можливістю.

Що таке текст-в-аудіо в нейромережі Stable Audio?

Функція текст-в-аудіо – це ключовий механізм взаємодії з моделями Stable Audio за допомогою тексту. Ви подаєте інструкції у вигляді природної мови, а генеративна модель ШІ перетворює ці інструкції на аудіо.

Модель Stable Audio показує найкращі результати, коли отримує музичні описи, засновані на жанрі, піджанрі, настрої та типі інструменту. Текст, який ви вводите, називається “промптом”.

Щоб ефективно користуватися функцією текст-в-аудіо в Stable Audio, важливо правильно формулювати промпти. Ось кілька основних порад, які допоможуть вам у цьому:

Описуйте аудіо, яке ви хочете отримати, використовуючи ваш текстовий промпт. Генеративна модель створить аудіо виходячи з вашого опису.
Експериментуйте: Те, що працює для нас, не обов’язково буде ідеально для вас. Ми заохочуємо вас до експериментів, щоб знайти найкращий спосіб формулювання промптів.

Успіх у створенні аудіо залежить від того, як детально та творчо ви можете описати бажаний звук у вашому промпті. Використання чітких музичних описів допоможе моделі краще розуміти ваші очікування та відтворювати звуки, які найбільш точно відповідають вашим запитам.

Також додаємо детальну інстукцію про фнкцію text-to-audio на офіційному сайті.

Як створити власну музику з штучним інтелектом -повний гайд по Stable Audio

Stable Audio відкриває нові можливості для створення музики, дозволяючи користувачам використовувати потужність штучного інтелекту для генерації аудіо. Цей гід охоплює основні аспекти сервісу, включаючи інтерфейс, введення та генерацію аудіо, надаючи користувачам усе необхідне для створення унікальних звукових доріжок.

Інтерфейс користувача

Інтерфейс Stable Audio розділений на кілька основних секцій: панель вводу, панель перегляду та панель історії.

Панель вводу розташована зліва на настільних комп’ютерах та зверху на мобільних пристроях. Тут ви налаштовуєте деталі та контролюєте параметри генерації вашого аудіо.
Панель перегляду дозволяє слухати згенероване аудіо та виконувати швидкі дії, такі як копіювання промпту, завантаження та інше.
Панель історії відображає історію згенерованого та завантаженого аудіо.

Основні Функції Stable Audio

Розглянемо основні функції сервісу Stable Audio.

Промпт тексту (Prompt)

Опишіть, як ви хочете, щоб ваш аудіовихід звучав у цьому текстовому полі.

Вибір моделі (Model)

Можливість вибору з різних моделей. Новітня модель вибирається автоматично.

Бібліотека промптів (Prompt library)

Доступ до бібліотеки промптів для натхнення.

Додавання аудіо (lnput audio)

Завантаження або запис вашого аудіо для керівництва генерацією.

Сила входу (lnput strength)

Регулювання впливу вибраного аудіо на кінцевий результат.

Кнопка “Генерувати” (“Generate”)

Для того щоб створити ваше аудіо. Кількість витрачених кредитів відображається поруч з кнопкою.

Додаткові налаштування треку

Кількість результатів (Number of results): Контроль за кількістю генерованих треків.

Кроки (Steps): Вказує кількість кроків генерації, які використовуються для створення вашого аудіо треку.

Сід (Seed): Встановлення конкретного сіду для генерації аудіо.

Покращення нейронної моделі

Ви можете оцінити згенерований трек, натискаючи “палець вгору” або “палець вниз”, що допомагає покращити модель ШІ. А також поділитися своїм шедевром, або скачати його

Історія та управління версіями аудіо треку

Переглядайте історію згенерованого та завантаженого аудіо, використовуйте аудіо з історії як вхідні дані для нових генерацій.

Висновки

Stable Audio надає музикантам і творцям потужний інструмент для експериментування зі звуком, дозволяючи створювати унікальні аудіо доріжки з легкістю та креативністю. За допомогою цього гіда, користувачі можуть повноцінно використовувати всі можливості платформи для реалізації своїх творчих задумів.

Огляд технології Stable Audio AudioSparx 2.0

Структура промпту в Stable Audio для підвищення якості ваших композицій

Як писати промпти для Stable Audio 2.0