Mam zeskanowane teksty, w sumie jest tego prawie 600 stron skanów w formacie zbliżonym do A4. Szukam jakiegoś rozwiązania, aby wykonać OCR. Skany mam w pliku PDF. Podpowiedzcie coś, proszę
Swego czasu przetestowałem chyba wszystkie darmowe rozwiązania i moim zdaniem szkoda nawet tracić na nie czasu. Może i w większości rozpoznają prawidłowo litery, ale formatowanie jakie pozostawiają to jest kompletna porażka i na jego poprawianie schodziło chyba tyle samo co na ręczne przepisywanie.
Ps. PDF to tylko kontener, skany wewnątrz są zapewne jpg
Ps.2 widzę, że od tego czasu narobiło się trochę ocr online. Tych nie testowałem.
edit.
Wrzuciłem do https://convertio.co/pl/ocr/ przykładową stronę z dwoma kolumnami tekstu i wykrył dosyć ładnie. Nagłówki i wielkości czcionek też w miarę poustawiał. Rozpoznał numerowanie. Nie było problemu z przesuwaniem tekstu przy pomocy tabulatorów czy spacji, ale stopki strony go przerosły. Nie wiem jak by to wyglądało przy eksporcie do txt, podejrzewam że gorzej Niestety cena dosyć wysoka, ale chyba i tak taniej, niż zlecić komuś przepisywanie.
Z programów OCR moim zdaniem bardzo dobry jest ABBYY FineReader
.
https://pdf.abbyy.com/
W moim przypadku się sprawdził.
Ceny aplikacji niestety z kosmosu jak chcesz jej użyć jednorazowo. Mają tylko 3 rodzaje licencji bez możliwości wykupienia tańszej jakiejś np. czasowej.
Raz potrzebowałem nieco ponad 200 stron wrzucić w OCR, trial jest w pełni funkcjonalny przez 7 dni, ale ma limit konwersji tylko 100 stron.
Jak pokombinujesz to limit sobie zresetujesz 6 razy i Ci akurat pyknie to na twoje potrzeby.
Trochę nieetyczne, ale wydawać 867zł na pojedynczą konieczność konwersji OCR też mija się z celem. (słowa klucz - maszyna wirtualna;migawka )
Ręczne przepisywanie widzę złotówkę za 1000 znaków na olx. Na stronę a4 wejdzie pewnie 3000-3500. Czyli cena za zlecenie komuś przepisania to 1800-2100zł. W tym kontekście wykupienie licencji za 867zł wydaje się dobrą ofertą jeżeli abbyy dobrze sobie z tym radzi. Chociaż podejrzewam, że też będzie miał problemy z odpowiednim łamaniem stron, nagłówkami, stopkami, tabelami etc.
Wszystko zależy od jakości skanów i skomplikowania formatowania.
Na trialu można wrzucić kilka przykładowych stron i sprawdzić.
BTW. Niezły sposób na biznes. Wykupić sobie licencję na dobry OCR, robić tylko korektę formatowania i golić ludzi za przepisywanie
Gorzej tylko jak się ktoś zgłosi z rękopisem
Tesseract jest cienki jak sik komara Działa tylko jeśli wrzuci mu się czyściutki tekst, nieformatowany, najlepiej jedną popularną czcionką, a i tak potrafi zrobić sieczkę z tekstu
@januszek - zerknij na dzisiejszy Giveaway of the day - Creativities.PDF 1.2.0
Tam funkcja OCR. Może to Ci przypasuje.
A czy ktoś testował, do tego celu, Dysk Google?
https://support.google.com/drive/answer/176692?co=GENIE.Platform%3DDesktop&hl=pl#zippy=