OCR w języku polskim (600 str A4)

januszek · 22 Luty 2021 08:38

Mam zeskanowane teksty, w sumie jest tego prawie 600 stron skanów w formacie zbliżonym do A4. Szukam jakiegoś rozwiązania, aby wykonać OCR. Skany mam w pliku PDF. Podpowiedzcie coś, proszę

anon741072 · 22 Luty 2021 08:47

Swego czasu przetestowałem chyba wszystkie darmowe rozwiązania i moim zdaniem szkoda nawet tracić na nie czasu. Może i w większości rozpoznają prawidłowo litery, ale formatowanie jakie pozostawiają to jest kompletna porażka i na jego poprawianie schodziło chyba tyle samo co na ręczne przepisywanie.

Ps. PDF to tylko kontener, skany wewnątrz są zapewne jpg

Ps.2 widzę, że od tego czasu narobiło się trochę ocr online. Tych nie testowałem.

edit.
Wrzuciłem do https://convertio.co/pl/ocr/ przykładową stronę z dwoma kolumnami tekstu i wykrył dosyć ładnie. Nagłówki i wielkości czcionek też w miarę poustawiał. Rozpoznał numerowanie. Nie było problemu z przesuwaniem tekstu przy pomocy tabulatorów czy spacji, ale stopki strony go przerosły. Nie wiem jak by to wyglądało przy eksporcie do txt, podejrzewam że gorzej Niestety cena dosyć wysoka, ale chyba i tak taniej, niż zlecić komuś przepisywanie.

Domker · 22 Luty 2021 13:23

Z programów OCR moim zdaniem bardzo dobry jest ABBYY FineReader.
https://pdf.abbyy.com/
W moim przypadku się sprawdził.

Ceny aplikacji niestety z kosmosu jak chcesz jej użyć jednorazowo. Mają tylko 3 rodzaje licencji bez możliwości wykupienia tańszej jakiejś np. czasowej.

Raz potrzebowałem nieco ponad 200 stron wrzucić w OCR, trial jest w pełni funkcjonalny przez 7 dni, ale ma limit konwersji tylko 100 stron.
Jak pokombinujesz to limit sobie zresetujesz 6 razy i Ci akurat pyknie to na twoje potrzeby.
Trochę nieetyczne, ale wydawać 867zł na pojedynczą konieczność konwersji OCR też mija się z celem. (słowa klucz - maszyna wirtualna;migawka )

anon741072 · 22 Luty 2021 13:31

Ręczne przepisywanie widzę złotówkę za 1000 znaków na olx. Na stronę a4 wejdzie pewnie 3000-3500. Czyli cena za zlecenie komuś przepisania to 1800-2100zł. W tym kontekście wykupienie licencji za 867zł wydaje się dobrą ofertą jeżeli abbyy dobrze sobie z tym radzi. Chociaż podejrzewam, że też będzie miał problemy z odpowiednim łamaniem stron, nagłówkami, stopkami, tabelami etc.

Domker · 22 Luty 2021 13:36

Wszystko zależy od jakości skanów i skomplikowania formatowania.
Na trialu można wrzucić kilka przykładowych stron i sprawdzić.

anon741072 · 22 Luty 2021 13:51

BTW. Niezły sposób na biznes. Wykupić sobie licencję na dobry OCR, robić tylko korektę formatowania i golić ludzi za przepisywanie
Gorzej tylko jak się ktoś zgłosi z rękopisem

CezarJuliusz · 22 Luty 2021 15:18

Tesseract OCR.

anon741072 · 22 Luty 2021 15:23

Tesseract jest cienki jak sik komara Działa tylko jeśli wrzuci mu się czyściutki tekst, nieformatowany, najlepiej jedną popularną czcionką, a i tak potrafi zrobić sieczkę z tekstu

anon2166525 · 1 Marzec 2021 10:08

@januszek - zerknij na dzisiejszy Giveaway of the day - Creativities.PDF 1.2.0

Tam funkcja OCR. Może to Ci przypasuje.

tphz · 1 Marzec 2021 13:04

A czy ktoś testował, do tego celu, Dysk Google?
https://support.google.com/drive/answer/176692?co=GENIE.Platform%3DDesktop&hl=pl#zippy=