Anthropic zniszczył miliony książek w celu szkolenia modeli AI

imagazine.pl 4 godzin temu

Firma Anthropic, twórca asystenta AI Claude, podobnego do ChatGPT, wydała miliony dolarów na fizyczne skanowanie drukowanych książek.

Proces ten, ujawniony w dokumentach sądowych dotyczących praw autorskich, polegał na cięciu książek, skanowaniu ich do plików cyfrowych, a następnie utylizacji oryginałów, wyłącznie w celu trenowania sztucznej inteligencji.

W lutym 2024 roku Anthropic zatrudnił Toma Turveya, byłego szefa partnerstw w projekcie skanowania książek Google Books, z zadaniem pozyskania „wszystkich książek na świecie”. Ten strategiczny ruch miał na celu powielenie podejścia Google do digitalizacji książek, które z powodzeniem przeszło przez wyzwania praw autorskich i ustanowiło precedensy dotyczące dozwolonego użytku. Chociaż destrukcyjne skanowanie (skutkujące fizycznym zniszczeniem skanowanej publikacji) jest powszechną praktyką w mniejszych operacjach, podejście Anthropic wyróżniało się masową skalą. Szybsza i tańsza metoda destrukcyjna okazała się ważniejsza niż zachowanie fizycznych książek.

Sędzia William Alsup orzekł, iż ta operacja destrukcyjnego skanowania kwalifikuje się jako dozwolony użytek, pod warunkiem, iż Anthropic legalnie zakupił książki, zniszczył każdą drukowaną kopię po zeskanowaniu i przechowywał pliki cyfrowe wewnętrznie, bez ich rozpowszechniania. Sędzia porównał ten proces do „oszczędzania miejsca” poprzez konwersję formatu i uznał go za transformacyjny.

Branża AI ma nienasycony apetyt na wysokiej jakości dane tekstowe. Modele dużych języków (LLM), takie jak ChatGPT i Claude, są budowane poprzez przetwarzanie miliardów słów w sieci neuronowej, co pozwala na tworzenie statystycznych zależności między słowami i pojęciami. Jakość danych treningowych ma bezpośredni wpływ na możliwości modelu AI – modele szkolone na dobrze zredagowanych książkach i artykułach zwykle produkują bardziej spójne i dokładne odpowiedzi. Doktryna pierwszej sprzedaży pozwala na legalne kupowanie fizycznych książek i dowolne dysponowanie nimi, w tym ich niszczenie, co stanowiło obejście dla firm AI, które nie chciały negocjować licencji z wydawcami.

Początkowo Anthropic korzystał ze spiratowanych e-booków, aby uniknąć „prawnego/praktycznego/biznesowego zmagania” związanego z negocjacjami licencyjnymi. Jednak do 2024 roku firma stała się mniej skłonna do używania pirackich e-booków z powodów prawnych i potrzebowała bezpieczniejszego źródła. Kupowanie używanych fizycznych książek omijało kwestie licencjonowania, jednocześnie dostarczając wysokiej jakości, profesjonalnie zredagowany tekst, niezbędny dla modeli AI. Destrukcyjne skanowanie było najszybszym sposobem na zdigitalizowanie milionów tomów. Anthropic wydał „wiele milionów dolarów” na tę operację, często kupując używane książki hurtowo. Po zeskanowaniu stron do plików PDF z tekstem czytelnym maszynowo, wszystkie papierowe oryginały były utylizowane.

W dokumentach sądowych nie ma informacji o zniszczeniu rzadkich książek – Anthropic kupował książki hurtowo od dużych sprzedawców. Istnieją również inne metody digitalizacji, które nie niszczą fizycznych tomów, takie jak te pionierskie przez The Internet Archive. Niedawno OpenAI i Microsoft ogłosiły współpracę z bibliotekami Harvardu w celu trenowania modeli AI na prawie milionie książek z domeny publicznej, pochodzących choćby z XV wieku, które zostały zdigitalizowane, ale bez zniszczenia oryginałów.

Jeśli artykuł Anthropic zniszczył miliony książek w celu szkolenia modeli AI nie wygląda prawidłowo w Twoim czytniku RSS, to zobacz go na iMagazine.

Idź do oryginalnego materiału