Skrypt sprawdzający czy są nowe artykuły na stronie

Witam! chciałbym napisać skrypt sprawdzający czy są nowe artykuły na stronie tzn. jesli na gazeta.pl jest nowy artykuł z tagami “informatyka” to chciałbym żeby słało mi meila. Da sie napisać coś takiego? Jeśli tak to w czym i jak sprawdzić ten artykuł?

  1. Co to robi w działe Webmastering? Raczej programowanie.

Algorytm:

loop:

  • pobierz treść strony

  • znajdź interesujący nas element (np. przy pomocy wyrażeń regularnych)

  • wyślij na e-mail

 

Ot, tyle. Do wykonania w dowolnym języku programowania.

W PHP będzie to odpowiednio (po najmniejszej linii oporu, lista funkcji): file_get_contents, preg_match_all, mail.

Jeszcze inny sposób to po prostu użyć web scrapera. Obecnie najlepszym i najbardziej rozbudowanym jest ScraPy, dostępny tutaj: http://scrapy.org/ .

 

W rubym można użyć Nokogiri, hpricot albo forka Scrapiego czyli ScRUBYt http://www.softwaredeveloper.com/features/scrubyt-ruby-web-scraping-tool-051007/.

 

Dla starszego PHP był Snoopy i PHPCrawl ( http://phpcrawl.cuab.de/ ) ale nie wiem jak jest z nimi teraz. 

A nie lepiej skorzystać ze zwykłego RSS-a?

No np na te strony:

http://lapsport.pl/

http://lzsnarewka.futbolowo.pl/

chyba nie da rady z rssem co? :slight_smile: