Gemini staje się kompozytorem. Google udostępnia model muzyczny Lyria 3 dla wszystkich

imagazine.pl 1 godzina temu

Sztuczna inteligencja od Google zyskuje zupełnie nowy zmysł. Do aplikacji Gemini trafia właśnie Lyria 3 – zaawansowany, generatywny model muzyczny stworzony przez DeepMind.

Pozwala on na błyskawiczne tworzenie utworów na podstawie zwykłego opisu tekstowego, a choćby wgranego zdjęcia czy dokumentu PDF.

Google konsekwentnie rozbudowuje możliwości swojego flagowego asystenta. Po integracji modeli do generowania tekstu, kodu i obrazu (za które odpowiada model Nano Banana), przyszła pora na dźwięk. Model Lyria 3 debiutuje globalnie i obsługuje wszystkie języki, co oznacza, iż polscy użytkownicy mogą od dziś testować nowe funkcje bez żadnych regionalnych ograniczeń.

Od pomysłu do piosenki w kilka sekund

Jak to działa w praktyce? Lyria 3 potrafi wygenerować kompletny, 30-sekundowy utwór muzyczny z autorskim wokalem oraz unikalną okładką. Użytkownik ma kontrolę nad stylem, tempem i nastrojem kompozycji. Model radzi sobie z kilkoma rodzajami poleceń:

Zwykły tekst (Prompt): Wystarczy opisać gatunek i temat (np. „punkrockowy utwór o zmywaniu naczyń z szybką perkusją”). System sam napisze tekst i skomponuje muzykę.
Analiza plików: to zdecydowanie najciekawsza funkcja. Do Gemini można wgrać zdjęcie (np. psa biegającego po lesie), plik PDF lub prezentację, a sztuczna inteligencja przeanalizuje treść i stworzy na jej podstawie dopasowany tematycznie utwór z wokalem.

Dodatkowo technologia ta trafia również do twórców na YouTube (w ramach narzędzia Dream Track), pozwalając im na generowanie unikalnych podkładów dźwiękowych do materiałów Shorts.

Co z prawami autorskimi? SynthID wkracza do akcji

Wejście generatywnego audio na rynek masowy zawsze budzi obawy branży muzycznej. Google zapewnia jednak, iż Lyria 3 posiada wbudowane bezpieczniki.

Próba wpisania w polecenie nazwiska konkretnego artysty nie sprawi, iż AI bezczelnie sklonuje jego głos – system potraktuje to jedynie jako ogólną inspirację stylem. Ponadto każdy wygenerowany plik audio posiada wbudowany, niesłyszalny dla ludzkiego ucha cyfrowy znak wodny SynthID. Pozwala on na bezbłędną identyfikację treści stworzonych przez sztuczną inteligencję. Weryfikacji może dokonać zresztą każdy – wystarczy wgrać podejrzany plik dźwiękowy z powrotem do Gemini i zapytać, czy został wygenerowany przez AI od Google.

Siri po polsku już w iOS 27? Apple szuka inżynierów, ale my radzimy ostudzić entuzjazm

Jeśli artykuł Gemini staje się kompozytorem. Google udostępnia model muzyczny Lyria 3 dla wszystkich nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału