Wyciąganie tekstu z pdf'a


(toszt) #1

Witam, szukam możliwości wyciągnięcia tekstu z pdf'a.

Problem jest taki, że plik ma nagłówek, stopkę, przypisy na dole strony, a ja chciałbym z tego pliku odzyskać sam tekst (dokładnie chodzi o ustawy takie jak ta http://isap.sejm.gov.pl/DetailsServlet?id=WDU19640160093)

Nie znalazłem takich możliwości ani w foxit readerze (z foxit pdf editorem), ani najnowszym adobe readerze X, ani pdf editor 3,2.

Czy ktoś z Was wie jak to zrobić? Wiem, że można 'na piechotę', ale plików mam sporo, storn w plikach też jest trochę.

Jeśli to złe miejsce dla tego wątku, to proszę o przeniesienie tam gdzie trzeba.

Pozdrawiam

Tomek Sz.


(mmm7mmm) #2

ustawy 'takie jak ta' czy po prostu ustawy? na stronie sejmu większość obowiązujących ustaw jest w pdf-ie, z którego można zwykłą metodą kopiuj-wklej 'wyciągnąć' tekst. co do ustawy z linka i podobnych 'starych' aktów prawnych to najlepiej skorzystać w jakiegoś konwertera tekstu (chyba Abby ma coś takiego) bądź po prosty porównać tekst z tym obowiązującym i przekonać się, że bardzo często zmiany są niewielkie bądź nie ma ich wcale (oczywiście zależy to od aktu) i skopiować fragmenty potrzebne. ale to wymaga odrobiny zachodu...


(Filipmoto2010) #3

Abbyy finde reader polecam ja nim wyciągam wszystko z PDF i na worda przerabiam


(floyd) #4

W tych plikach które podałeś nie ma tekstów, a jedynie obrazki. Po prostu ze względów bezpieczeństwa, aby nie dokonywane były zmiany zeskanowano teksty i w postaci obrazków umieszczono w pliku .pdf.

Tak jak napisał filipmoto2010 można z tych obrazków wyciągnąć tekst bardzo dobrym programem: ABBYY FineReader , ale nie jest to program darmowy.


(Ryan) #5

Huh? Co Ty opowiadasz? Tam jest normalny tekst.

Co do oryginalnego pytania: nie znam żadnego automatu, ale jest sporo bibliotek do parsowania i manipulacji plików PDF. Prawdopodobnie przy odrobinie samozaparcia można napisać program, który ze struktury strony usuwa nagłówek i stopkę (logicznie, nie fizycznie, stopka w przytoczonym dokumencie znajduje się na początku, więc ze strumienia opisującego stronę trzeba będzie tylko wyciąć coś z początku). Inna sprawa: co chcesz później z tym tekstem zrobić? W jakim chcesz mieć go formacie?


(system) #6

Tekst ogłoszony: pdf D19640093.pdf

Tekst ujednolicony: pdf D19640093Lj.pdf Witam. Czy chodzi o te pliki ? bo jeśli tak to ja w nich nie widzę ani jednego obrazka, są tam same paragrafy. W FOXIT READERZE można wydobyć z dokumentu wszystko co się chce poleceniem "ZRZUT EKRANU". Pozdrawiam


(mmm7mmm) #7

jakich względów bezpieczeństwa? to po prostu akt prawny mający dobrych 65 lat. trudno wymagać konwersji ich wszystkich stąd zwykły skan. jedyna opcja to wspomniany abby bądź porównanie z obowiązującym tekstem


(toszt) #8

Koledzy, koleżanki, tak na szybko napiszę,

plik który podlinkowałem to dokument pdf w którym można swobodnie zaznaczyć ( i skopiować) dowolny fragment tekstu. Fakt, że powstał w 64 roku zdaje się, ale ostatnie poprawki to rok 2009. Nie ma problemu z przeniesieniem tego do worda, OO, czy choćby notatnika.

Nie mam też problemu z usunięciem nagłówka, stopki, czy czego tam chcę. Daję radę.

Problem jest w tym, że każda strona zawiera nagłówek z wpisem 'Kancelaria Sejmu' czy coś podobnego, numerem strony, a na wielu stronach są przypisy.

Takich aktów prawnych mam lekko licząc kilkanaście, każdy po kilkadziesiąt stron. Więc wolałbym zrobić to jakoś łatwo i przyjemnie. Spróbuję fine readerem wieczorem, bo nie przyszło mi do głowy, że może zadziałać.

Normalnego pdf'a (takiego jak podałem na początku) można zaimportować przez open office, czy nowego worda. Tylko, że oba edytory gubią się przy przypisach, czy nagłowkach, czy numerach stron.

Jak mam nagłówek zdefiniowany w MS Word, to kasuję nagłówki i ich nie mam w całym dokumencie. Chcę tak samo zrobić w pdf'ie, a nie umiem. A kilkaset, czy ponad tysiąc stron jedna po drugiej to mi się nie chce obrabiać.

W efekcie chcę (może niejasno to napisałem) otrzymać sam tekst ustawy, czy kodeksu, bez przypisów i nagłówków, po to, żeby go sobie wrzucić w Kindla i czytać gdzie akurat będę miał chwilę i gdzie będę potrzebował.

Dziękuję za rady, wypróbuję wszystkie, których jeszcze nie próbowałem, a jak coś zadziała, to opiszę tutaj, dla potomnych :slight_smile:

Pozdrawiam

Tomek Sz.


(floyd) #9

Na moje usprawiedliwienie: Podejrzałem na szybko tylko ten pierwszy plik, a ten drugi to rzeczywiście 'normalny tekst', tyle że zabezpieczony hasłem przeciwko modyfikacjom jak informuje Adobe Acrobat.


(Ryan) #10

@toszt: Trzeba było tak z miejsca pisać. :slight_smile: Postaram się wyrzeźbić skrypt konwertujący PDF do czegoś zjadliwego w kundlu pod koniec tygodnia. I tak chciałem się podobną aplikacją zająć.


(mmm7mmm) #11

"W efekcie chcę (może niejasno to napisałem) otrzymać sam tekst ustawy, czy kodeksu, bez przypisów i nagłówków, po to, żeby go sobie wrzucić w Kindla i czytać gdzie akurat będę miał chwilę i gdzie będę potrzebował"

to jeśli mogę doradzić. jeśli potrzebujesz samego tekstu ustawy (do skopiowania) to skorzystaj z tysiąca serwisów na których jest on w takiej formie dostępny. np lex w wersji free. w przypadku większości aktów prawnych można taką wersję skopiować ze strony. w razie czego....mam dostęp do lexa, pełnej wersji. jak potrzebujesz jakichś aktów w wordzie (bez tego czego nie chcesz) to napisz listę na prv.


(toszt) #12

mmm7mmm, czasem najprostsze rozwiązania omijają nasz umysł szerokim łukiem :slight_smile: Zafiksowałem się na stronę rządową i nie pomyślałem o innych serwisach, gdzie tekst jest podany inaczej.

Lex = BINGO!!

Wielkie dzięki za pomoc wszystkim forumowiczom, z tego co przed chwilą widziałem, na stronkach lex'a znajdę to co potrzebuję :slight_smile: Teraz to już z górki, wrzucić w worda, przepuścić przez Calibre i ki(u)ndel będzie nakarmiony.


(Ufolec) #13

I jak tam Ryan z aplikacją? :wink: btw. @toszt - jeśli mimo wszystko wolałbyś bawić się z PDF, albo jakby ktoś kiedyś na jakieś PDFy natrafił, to z tego co zauważyłem w Adobe Reader X jest w górnym pasku menu opcja: File -> Save as -> Text

następnie można na takim dokumencie przeparsować go albo zastosować wyrażenia regularne do wywalania wszystkiego co w nagłówkach było ("©Kancelaria Sejmu" + numer strony (np. "s. 2/207"), no i stopki z datą (np. "2011-05-09")


(Ryan) #14

Sądziłem, że problem został rozwiązany i nie ma potrzeby pisania jej. :slight_smile: Ktoś jeszcze potrzebuje czegoś takiego?


(Ufolec) #15

ok, pytałem, bo napisałeś zdanie:

:wink:


(Ryan) #16

Tak, ale priorytety gaziliona moich rozgrzebanych projektów zależą od tego czy komuś poza mną się przydadzą. :slight_smile: