Jestem w trakcie pisania pewnej aplikacji która parsuje różne strony w celu uzyskania z nich tekstów artykułów oraz ich nagłówków.
Korzystam z parsera jsoup i nie wiem jakie znaczniki uwzględnić żeby uzyskać jak najwięcej treści, na chwilę obecną eksperymentowałem ze znacznikami typu body, p i h.
Na chwilę obecną nie udało mi się uzyskać niczego wartościowego ze stron, nadmienię tylko że parser sam ze strony startowej pobiera sobie pod-linki i do nich przechodzi po nich dalej.