[java] Parsowanie, jakie zanczniki uwzglednić przy pobieraniu tekstów ze stron

zaku1 · 25 Sierpień 2015 16:02

Jestem w trakcie pisania pewnej aplikacji która parsuje różne strony w celu uzyskania z nich tekstów artykułów oraz ich nagłówków.

Korzystam z parsera jsoup i nie wiem jakie znaczniki uwzględnić żeby uzyskać jak najwięcej treści, na chwilę obecną eksperymentowałem ze znacznikami typu body, p i h.

Na chwilę obecną nie udało mi się uzyskać niczego wartościowego ze stron, nadmienię tylko że parser sam ze strony startowej pobiera sobie pod-linki i do nich przechodzi po nich dalej.

Frankfurterium · 25 Sierpień 2015 19:42

Spróbuj z semantycznymi znacznikami dodanymi w HTML5. Pewnie nie wszystkie strony je mają, ale dzięki nim przeszukiwanie nowszych portali jest sporo łatwiejsze.