Zdjęcie: llama ocr
![](https://images4.polskie.ai/images/2407/27450860/b030eb9607a553bf34e6dde3db3387f8.jpg)
Miałem ostatnio problem, potrzebowałem zeskanować, a potem rozpoznać tekst z pewnej książki, który potem we fragmentach skopiowałbym do notatek. Pomocą okazała się darmowa strona WWW z rozpoznawaniem tekstu OCR, która wykorzystuje do tego AI od Mety.
Co więcej, wszystko to naprawdę działa, jest bezpłatne i nie trzeba nigdzie się rejestrować. To jedna z tych stron, które warto dodać do ulubionych!
Llama OCR od togeher.AI
![](https://images4.polskie.ai/images/2407/27450860/6b61e279f0888cd3856e88adb7e6d9b1.jpg)
Strona to projekt
together.ai, który działa jako
biblioteka npm z wykorzystaniem
Llama 3.2 Vision. To ostatnie pewnie dobrze znacie, jeżeli nie to warto jedynie wiedzieć, iż to model językowy AI rozwijany przez Meta, a więc właściciela Facebooka.
Dzięki together.ai udostępniono bibliotekę na GitHubie oraz stworzono wykorzystująca go stronę WWW. Dzięki temu nie trzeba instalować aplikacji, całość jest na razie bezpłatna i nie trzeba się nigdzie rejestrować. Wydaje się też, iż usługa działa na bazie limitu fair-play - będziecie mogli korzystać z aplikacji WWW, o ile nie będziecie tego robić na przemysłową skalę.
[caption id="attachment_272965" align="aligncenter" width="1979"]
![](https://images4.polskie.ai/images/2407/27450860/c1b7aef789937c49d391bbc31e5229fd.jpg)
Zobacz, iż linie produktów są przesunięte o jedną w dół względem ceny.[/caption]
Działanie jest tu bajecznie proste. Wgrywacie zdjęcie lub skan tekstu i czekacie na automatyczne rozpoznanie. Może to być zarówno tekst drukowany, pisany manualnie, jego kombinacje oraz formatowany w tabelach, wykresach oraz innych formach. Po kilku sekundach otrzymujecie w polu obok rozpoznany tekst.
[caption id="attachment_272966" align="aligncenter" width="1980"]
![](https://images4.polskie.ai/images/2407/27450860/d112e4f373ac1e761dd523807fc1b079.jpg)
Tabelka z danymi została poprawnie zinterpretowana.[/caption]
Ważne jest tu jednak, iż oprócz rozpoznawanego tekstu, rozpoznawane są również formatowania, rodzaj tekstu oraz jego kontekst. Gdy zeskanujecie tabelę, możecie otrzymać pięknie sformatowaną tabelkę z danymi. Skanując paragon (jak mój z Burger Kinga na lotnisku), otrzymacie również informacje o kontekście skanowanego tekstu. W moim przypadku dobrze rozpoznał on paragon oraz to, co na nim było. Jak jednak łatwo zauważyć, w tym przypadku cena względem towaru przesunęła się o jedną linijkę. Warto więc sprawdzić poprawność danych, chociaż tu niewątpliwie zawiniła jakość i czerwony ślad z drukarki.
https://dailyweb.pl/byl-doom-uruchomiony-na-szczoteczce-i-kosiarce-teraz-ktos-go-odpalil-na-przejsciowce-do-hdmi/
Korzystałem już z Llama OCR kilkanaście razy i nie mam większych zastrzeżeń. Strona powędrowała do mojego katalogu ulubionych narzędzi WWW.
Stronę znajdziecie pod tym linkiem.