OCR w języku polskim (600 str A4)

Mam zeskanowane teksty, w sumie jest tego prawie 600 stron skanów w formacie zbliżonym do A4. Szukam jakiegoś rozwiązania, aby wykonać OCR. Skany mam w pliku PDF. Podpowiedzcie coś, proszę :slight_smile:

Swego czasu przetestowałem chyba wszystkie darmowe rozwiązania i moim zdaniem szkoda nawet tracić na nie czasu. Może i w większości rozpoznają prawidłowo litery, ale formatowanie jakie pozostawiają to jest kompletna porażka i na jego poprawianie schodziło chyba tyle samo co na ręczne przepisywanie.

Ps. PDF to tylko kontener, skany wewnątrz są zapewne jpg :wink:

Ps.2 widzę, że od tego czasu narobiło się trochę ocr online. Tych nie testowałem.


edit.
Wrzuciłem do https://convertio.co/pl/ocr/ przykładową stronę z dwoma kolumnami tekstu i wykrył dosyć ładnie. Nagłówki i wielkości czcionek też w miarę poustawiał. Rozpoznał numerowanie. Nie było problemu z przesuwaniem tekstu przy pomocy tabulatorów czy spacji, ale stopki strony go przerosły. Nie wiem jak by to wyglądało przy eksporcie do txt, podejrzewam że gorzej :wink: Niestety cena dosyć wysoka, ale chyba i tak taniej, niż zlecić komuś przepisywanie.

Z programów OCR moim zdaniem bardzo dobry jest ABBYY FineReader.
https://pdf.abbyy.com/
W moim przypadku się sprawdził.

Ceny aplikacji niestety z kosmosu jak chcesz jej użyć jednorazowo. Mają tylko 3 rodzaje licencji bez możliwości wykupienia tańszej jakiejś np. czasowej.

Raz potrzebowałem nieco ponad 200 stron wrzucić w OCR, trial jest w pełni funkcjonalny przez 7 dni, ale ma limit konwersji tylko 100 stron.
Jak pokombinujesz to limit sobie zresetujesz 6 razy i Ci akurat pyknie to na twoje potrzeby.
Trochę nieetyczne, ale wydawać 867zł na pojedynczą konieczność konwersji OCR też mija się z celem. (słowa klucz - maszyna wirtualna;migawka :wink: )

Ręczne przepisywanie widzę złotówkę za 1000 znaków na olx. Na stronę a4 wejdzie pewnie 3000-3500. Czyli cena za zlecenie komuś przepisania to 1800-2100zł. W tym kontekście wykupienie licencji za 867zł wydaje się dobrą ofertą jeżeli abbyy dobrze sobie z tym radzi. Chociaż podejrzewam, że też będzie miał problemy z odpowiednim łamaniem stron, nagłówkami, stopkami, tabelami etc.

Wszystko zależy od jakości skanów i skomplikowania formatowania.
Na trialu można wrzucić kilka przykładowych stron i sprawdzić.

BTW. Niezły sposób na biznes. Wykupić sobie licencję na dobry OCR, robić tylko korektę formatowania i golić ludzi za przepisywanie :joy:
Gorzej tylko jak się ktoś zgłosi z rękopisem :smiley:

Tesseract OCR.

Tesseract jest cienki jak sik komara :stuck_out_tongue: Działa tylko jeśli wrzuci mu się czyściutki tekst, nieformatowany, najlepiej jedną popularną czcionką, a i tak potrafi zrobić sieczkę z tekstu :wink:

@januszek - zerknij na dzisiejszy Giveaway of the day - Creativities.PDF 1.2.0


Tam funkcja OCR. Może to Ci przypasuje.

:thinking: A czy ktoś testował, do tego celu, Dysk Google?
https://support.google.com/drive/answer/176692?co=GENIE.Platform%3DDesktop&hl=pl#zippy=