Sztuczna inteligencja Mety zna „Harry’ego Pottera” na pamięć. Nowe badanie może wstrząsnąć branżą

imagazine.pl 6 godzin temu

Nowe badanie przeprowadzone przez naukowców z czołowych amerykańskich uniwersytetów rzuca światło na problem „zapamiętywania” danych przez modele językowe.

Okazuje się, iż jeden z najnowszych modeli AI firmy Meta jest w stanie odtworzyć niemal połowę pierwszej książki o Harrym Potterze. Odkrycie to może mieć poważne konsekwencje dla toczących się sporów prawnych dotyczących praw autorskich w dobie generatywnej sztucznej inteligencji.

W ostatnich latach firmy technologiczne rozwijające AI, takie jak OpenAI czy Meta, stały się celem licznych pozwów ze strony twórców i wydawców. Zarzucają im one nielegalne wykorzystywanie materiałów chronionych prawem autorskim do trenowania swoich modeli. Kluczową kwestią w tych sporach jest to, jak często i w jakim stopniu modele te potrafią odtwarzać dosłowne fragmenty oryginalnych dzieł. Firmy AI zwykle określają takie przypadki jako „marginalne zachowania”, które starają się eliminować. Nowe badanie poddaje jednak te twierdzenia w wątpliwość.

Artykuł naukowy opublikowany przez zespół informatyków i prawników z uniwersytetów Stanforda, Cornella i Wirginii Zachodniej analizuje zdolność pięciu popularnych modeli o otwartych wagach do reprodukowania tekstu z Books3 – obszernego zbioru książek używanego do trenowania AI. Wyniki okazały się zaskakujące. Model Llama 3.1 70B, udostępniony przez Meta w lipcu 2024 roku, wykazał się bezprecedensową zdolnością do zapamiętywania treści. Według szacunków badaczy, model ten „zapamiętał” aż 42% książki „Harry Potter i Kamień Filozoficzny” na tyle dobrze, by odtworzyć 50-tokenowe (ok. 35-40 słów) fragmenty z ponad 50-procentowym prawdopodobieństwem.

Co ciekawe, wcześniejsza generacja modelu, Llama 1 z 2023 roku, zapamiętała zaledwie 4,4% tej samej książki. Sugeruje to, iż pomimo rosnącego ryzyka prawnego, problem memorizingu w modelach Mety nie tylko nie został rozwiązany, ale wręcz się znacznie nasilił. Podobne, choć mniej spektakularne, wyniki odnotowano dla innych popularnych książek, takich jak „Hobbit” J.R.R. Tolkiena czy „Rok 1984” George’a Orwella.

Nie wszystkie książki traktowane są jednakowo

Badanie przynosi argumenty obu stronom debaty o prawach autorskich. Z jednej strony dowodzi, iż zapamiętywanie treści na dużą skalę nie jest zjawiskiem marginalnym, przynajmniej w przypadku niektórych modeli i dzieł. Z drugiej strony, analiza wykazała ogromne różnice w zależności od popularności książki. Dla przykładu, w przypadku mniej znanej powieści „Sandman Slim” Richarda Kadreya, ten sam model Llama 3.1 70B zapamiętał zaledwie 0,13% treści.

Ta rozbieżność może skomplikować sytuację prawną w przypadku pozwów zbiorowych, gdzie zakłada się, iż wszyscy powodowie znajdują się w podobnej sytuacji faktycznej i prawnej. Wyniki badania sugerują, iż sytuacja autora bestselleru, J.K. Rowling, jest drastycznie inna niż autora niszowej powieści. Może to działać na korzyść Mety, utrudniając tworzenie jednolitych frontów w sporach sądowych.

Konsekwencje prawne i dylemat otwartości

Odkrycia te mogą wpłynąć na ocenę argumentu „dozwolonego użytku” (ang. fair use), na który często powołują się firmy pracujące nad AI. Sędziowie mogą być mniej skłonni do przyznania racji firmom, których modele potrafią odtworzyć tak obszerne fragmenty chronionych dzieł. Co więcej, badanie komplikuje narrację firm AI, które twierdzą, iż ich modele „uczą się wzorców językowych”, a nie tworzą kopie w swojej strukturze. Możliwość wyekstrahowania prawie połowy książki sugeruje, iż w wagach samego modelu może istnieć coś, co prawo określiłoby jako kopia części utworu.

Paradoksalnie, badanie było możliwe do przeprowadzenia tylko dlatego, iż Meta udostępnia swój model na zasadach „open-weight”, dając naukowcom dostęp do jego wewnętrznej struktury. W przypadku modeli zamkniętych, jak GPT-4 od OpenAI czy Gemini od Google, przeprowadzenie podobnej analizy jest niezwykle trudne lub niemożliwe dla zewnętrznych badaczy. Jak zauważają autorzy badania, stwarza to niebezpieczną sytuację, w której prawo może nieumyślnie karać firmy za transparentność, zachęcając do utrzymywania swoich technologii w tajemnicy.

Sam Altman: Meta oferuje pracownikom OpenAI 100 milionów dolarów premii za przejście

Jeśli artykuł Sztuczna inteligencja Mety zna „Harry’ego Pottera” na pamięć. Nowe badanie może wstrząsnąć branżą nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału