Fine Reader a gotyk niemiecki (problem z OCR)

plik pdf stworzony z bitmap (skany stron ksiazki), tekst  wyglada tak ->

Niestety ta wersja FR nie rozpozna ci tego typu czcionek. Jest specjalna wersja Fine Reader XIX do rozpoznawania dawnych krojów pisma i nawet ręcznej kaligrafii. Niestety kosztuje krocie.

Jest jedna połowiczne wyjście z sytuacji. FR ma opcję douczania. Musisz w opcjach uruchomić rozpoznawanie z douczaniem. Wtedy będzie rozpoznawał “litera po literze” a ty będziesz mu wskazywał prawidłowe rozpoznanie. Po przerobieniu w ten sposób paru stron całkiem wysoko wzrośnie mu stopień prawidłowego rozpoznawania tekstu. W ten sposób tworzysz własny szablon rozpoznawania i przy kolejnych tego typu tekstach używasz tego właśnie szablonu.

Oczywiście wiele zależy od jakości skanu i druku.

przepraszam, ż teraz odpowiadam,mocno zajety bylem.

1.

tak, wiem, po zalozeniu tematu wyczytalem i poczytalem w sieci o FReader XIX

zupelnie od niechcenia wspomnialem o tym programie w firmie, w ktorej teraz miewam gościnnie dostep do zwyklego FReadera, i okazalo sie, że… mają FR XIX, ktos u nich kiedys korzystal z tego wlasnie przy super zleceniu tyczacym starodrukow ormianskich zdaje sie. Tylko, że to byla jedna jedyna osoba, teraz poza zasiegiem, z programu nikt nie potrafi skorzystac,ja nie dalem rady. A dlaczego? Program niby tak prosty (co-by-to-nie-znaczylo), jak klasyczny FReader, ale pewna grupe czcionek, wlasnie np. starych niemieckich, musi miec “jakos” doimportowana, pliki czcionek są, ale import za licho nie udaje sie, nie chca sie zameldowac, raz wyrzuca, raz nie - komunikat o niekompatybilnosci… Manual ani slowa o tym. Nikt nie wie, o co chodzi.  Dalem spokoj.

2.

Bo jaki jest tak naprawde problem: chodzi o przerobienie tego tekstu (ok. 200 stron) z gotyku / fraktur na wspolczesne litery niemieckie.Zakladam, ze jest to przerobka znakow “1 do 1”, dopiero potem mozna tlumaczyc czytelny niemiecki na PL. Pomyslalem, że tak: zrobić strone=“płachtę” (png chocby) ze znakow gotyckich = caly alfabet, nastepnie wrzucic tutaj -> https://www.newocr.com/ - i tutaj przetlumaczyc jedna strone alfabetu gotyckiego na na wspolczesne litery niemieckie. Bedzie wiedza co w gotyku jest czym wspolczesnie (a nie jest to wcale oczywiste). Potem, z tą wiedzą,  wrzucic te samą płachte do FReadera i nauczyc go litera po literze wspolczesnego alfabetu. Chociaz jeszcze nie wiem, jak go nauczyc wzorca, jak zapisac go, by potem wrzucic juz cala ksiazke i kazac, by korzystal z tego wzorca. Tak mniej wiecej obejrzalem opcje, troche czuje, wiekszosc - nie…

Pytanie dobre jest takie: dlaczego od razu nie skorzystac dla tych 200 stron z w/w linka. Chocby dlatego, ze mozna tam zaladowac co prawda nawet b. wielostronicowy plik, ale przerobke z gotyku na wspolcz. niemiecki wypluwa strona po stronie, strona po stronie recznie trzeba odbierac… Wiec jesli beda z 3,4 ksiazki gotyckie, to robota=horror.

 

 

  1. FR XIX też nie znam, ale wiem o jego istnieniu. Kiedyś nawet próbowałem go znaleźć w sieci, tak dla celów poznawczych, aby się nauczyć i sprawdzić mechanizm działania. Niestety nie występuje w wersjach “odblokowanych”.

  2. Strony którą podałeś nie znam i trudno mi się wypowiadać o jej skuteczności. Jeśli już sobie chcesz zrobić tę płachtę-szablon z wzornikiem liter to musisz pamiętać aby to nie były pojedyncze litery litery. Aby FR nauczył się dobrze rozpoznawać musi “przerobić” więcej przykładów każdej z liter. W pismach frakturowych często “d” jest podobne do “b”; “f” do jednej z odmian “s” (są dwa znaki odpowiadające “s”), itd. I jak jest słaby druk i skan to FR może popełniać błędy. Nie bardzo wiem dlaczego chcesz korzystać z tego mechanizmu spod podanego linka. Czy tam jest zapodany mechanizm rozpoznawania fraktur? Jak sądzę aktualnie najlepszy mechanizm OCR ma FR i jak na razie jest niedościgniony. Zatem jeśli masz do rozpoznania parę książek to lepiej nauczyć FR niż marnować czas na OCR przez tę stronę - chyba, że ma ona coś o czym nie wiem. Dał bym sobie też spokój z wzornikiem, sporo byś się przy tym narobił. Każdy znak musiał byś powielić kilkunastokrotnie. Np. 20x litera “a” i za każdym razem z innego miejsca. Do tego poza literami alfabetu są jeszcze znaki interpunkcyjne i tzw. ligatury - litery zlepione np. takie złączone AE. Roboty od groma. Lepiej od razu uczyć FR na bieżąco.

Czy umiesz czytać tego typu kroje pisma? Bo może chcesz aby ta strona prawidłowo rozpoznała ci poszczególne kroje czcionek, abyś potem mógł nauczyć na tej podstawie FR?

Może zapodaj tu jakiś przykład strony, które chcesz OCR-ować. Zobaczymy jakość skanów i krój pisma. Co to za książki? Jakie tytuły? Może już są gdzieś w sieci?

=============

Ps. Sprawdziłem tę stronę. Ma w opcjach rozpoznawanie niemieckich fraktur, ale radzi sobie “jako tako”. Myli “G” z “S”, “s” z “f”. To tak na szybko. ale wiele zależy od jakości skanu.

 

1.

tzn. np. torrentowych?

2.

po prostu innego miejsca darmowego nie znalazlem, a szukalem solidnie; czy jest tam podany mechanizm ocr-owego rozpoznawania? jest wyraznie podany: “Based on Tesseract OCR engine”  https://en.wikipedia.org/wiki/Tesseract_%28software%29#cite_note-Kay01Jul07-2

3.

zgadza sie, OCR by abbyy to w tej chwili optymalne rozwiazanie

4.

dokladnie to chcialem zrobic: rozpoznac tą stroną gotycki alfabet, tzn zobaczyć, jak interpretuje kazdą litere/czcionke na wspolczesny niemiecki alfabet, a potem FR standardowy nauczyc wg tej wiedzy. Ale dzisiaj dowiedzialem sie, że tlumaczenie z gotyku na wspolczesną pisownie to raczej nie jest tak proste: tlumaczenie z gotyku na wspolczesny niem, to nie jest zamiana 1:1 znakow alfabetu, rzekl mi ktos, kto chalupniczo sam tlumaczy sobie stare druki…

Czyli moj pomysl jest do bani. Raczej.

Ewidentnie trzeba skorzystac, z ocr w FR (nauczyc!), albo w FR XIX.

5.

prosze bardzo, cala ksiazka: https://www.dropbox.com/s/it59s3tbfpdbhti/ksiazka.pdf?dl=0

6.

podejrzewam, że mistrzostwo swiata to nie jest, Tesseract, to otwarty projekt…

I najwazniejsze:

cala operacja ma doprowadzic do przelozenia calosci ksiazki na wspolczesny niemiecki, nawet z momentami zlym rozpoznaniem liter, by  tak kaleki niemiecki wspolczesny tylko przerzucic okiem i znalezc wlasciwe fragmenty ksiazki i dopiero potem ( juz tylko wybrane 20-30 stron) dobrze przetlumaczyc. A to juz bedzie latwe. Tak samo pozostale 3-4 ksiazki.

Jakość z podanej książki nie powala, zatem od razu ci mówię, że łatwo nie będzie. Każdy program od OCR-u będzie sypał błędami.

Biorąc pod uwagę, że potrzebujesz tego do szybkiego wyszukiwania tekstu, to polecam ci - jako najkrótsze i najoptymalniejsze rozwiązanie - nauczyć się czytać frakturę.Nie jest to rozwiązanie absurdalne. Na początku kształt liter i ich (niekiedy) wzajemne podobieństwo, może odstraszać i wprowadzać w błąd. Ale w gruncie rzeczy nie jest to takie trudne. Wiem bo kiedyś też zaczynałem.

Jeśli jednak masz za cel zrobienie OCR-u na kilku książkach, to mimo wszystko polecam FR z opcją douczania wzorca. I najlepiej zacznij to robić od razu na książce, którą masz rozpoznać. Odpuść sobie wszelkie sztucznie przygotowywane wzorce itp. Stracisz tylko czas, a nic nie zyskasz.

Jeśli chodzi o samą frakturę. Musisz mieć na względzie, że NIE MA jednej i uniwersalnej czcionki zwanej frakturą. Jest kilka tego typu krojów czcionek i nauczenie programu rozpoznawania jednej, nie gwarantuje ci sukcesu w rozpoznawaniu innej. Podobnej ale jednak nie takiej samej.

Ad. 1 - tak szukałem FR XIX w takich serwisach i nawet jakiś tam znalazłem, ale nie dało się go uruchomić.

 

=================

WAŻNE! aktualizacja

Wziąłem na warsztat tę książkę. Okazało się, że nie jest rak źle. Przeprowadziłem douczanie FR w rozpoznawaniu fraktury, trenując go przez dwie strony i muszę powiedzieć, że trzecią już rozpoznawał z całkiem dobrym wynikiem. Gdyby nie to, że na tych dwóch stronach nie było kompletu znaków, to wynik rozpoznawania trzeciej strony byłby jeszcze lepszy. Cała operacja nauki FR zajęła mi około 30 min.Zatem nie jest tak źle. Jeśli poświęcisz na to około 2 godzin i przerobisz kilkanaście stron, to potem z automatu powinien sobie całkiem nieźle poradzić. Na razie największe problemy ma z rozróżnianiem “v” od “b” (to częsty błąd), “I” (i duże) od “J”. Niemniej ogólny wynik jest zadowalający, a przynajmniej obiecujący.

Tu http://www.inne-jezyki.amu.edu.pl/Frontend/Language/Details/11/GraphicSystems masz wzór do czytania fraktury występującej w tej książce.

Jeśli będziesz chciał to mogę ci dać swój plik z dotychczasowo wyuczonym wzorcem. Wymaga jednak dalszej pracy - nauki, gdyż nie zawiera wszystkich znaków, a niektóre mu się jeszcze mylą.

 

1.

wiem; na poczatku problemu , kiedy jeszcze chcialem, by zwykly FR rozpoznawal, znalazlem i zainstalowalem (dla worda) max wlasciwa (jak sądzę) czcionke fraktur wzieta stad (po dokladnym naocznym wyselekcjonowaniu, ktora fraktur wziac): http://www.1001fonts.com/fraktur-fonts.html, a wzialem tak wygladajaca (oczywiscie nic to nie dalo z wiadomych juz powodow - wziecie czcionki dla worda, to jeszcze nie mozliwosc ocr)  http://i.imgur.com/TrEvo31.png

2.

http://i.imgur.com/y4iUoMM.png

  • na bazie FR v7… btw: dlaczego wowczas ta wersja ktora miales nie udawala sie uruchomic? Na tym FR XIX calkowicie legal. ktory mialem do dyspozycji - szwankowal po prostu import gotyckiej czcionki, ktora jako żywo w pliku osobnym byla.

3.

dzieki bardzo; przerobie to o czym piszesz , innego wyjscia nie ma sensownego; w sumie, to jest nawiazanie do metody na piechote ktora proponowalem… A tak btw: mam od razu wzorcowke fraktur , napisalem ja w wordzie zainstalowana czcionka, od A do Z :)  http://i.imgur.com/kEjseIt.png  

Pewnie bede mial klopoty techniczne, “obslugowe” w nauczaniu, nie robilem tego nigdy - dopytam :slight_smile: Ale najpierw sprobuje.

 

  1. Zainstalowanie jakiejś “frakturowej” czcionki w systemie nie ma znaczenia dla FR w rozpoznawaniu tekstu.

  2. Ten wzornik, który zrobiłeś na nic się niestety nie zda. Bo brak tam wszystkich znaków np. dwie wersje “s”, brak ligatur “zt”, “ss” itd. Poza tym te znaki są nazbyt wyidealizowane, nazbyt dokładne. Gdybyś FR na tej podstawie czegoś uczył to nie rozpoznał by tego zeskanowanego tekstu.

  3. Tu http://1drv.ms/1j10Qdd masz plik, który utworzyłem po wstępnym nauczaniu FR, o którym pisałem wcześniej. Pobierz go i zaimportuj do programu. W opcjach wybierz “Użyj tylko wzorca użytkownika” W edytorze wzorców (przycisk obok) wybierz ten wzorzec jako domyślny. Osobną opcją “Rozpoznaj z douczeniem” możesz uruchomić możliwość dalszego szkolenia programu. Przed rozpoznaniem !koniecznie! ustaw j. niemiecki jako język dokumentu. Mam nadzieję, że ten wzorzec w plik da się zaimportować i że to zadziała.

Daj znać jak ci się to potoczy.

A, i jeszcze jedno, bardzo ważne. Ja pracuję na FR 11 i na jego bazie robiłem wzorzec i powyższe uwagi.

Ps. Jeśli szukasz jakiejś niemieckiej fraktury to szukaj po haśle “Szwabacha”