desperado
(Przemek89k)
20 Listopad 2014 16:03
#1
Witam,
mam problem z pobraniem zawartości strony internetowej:
HtmlWeb html = new HtmlWeb();
string websiteUrl = @"http://stopklatka.pl/szukaj/-/s/"+ movieName+"/movies";
HtmlDocument document = html.Load(websiteUrl);
Chcąc pobrać informację o filmie z serwisu stopklatka w HTMLDocument dostaję jedynie:
“<script type=“text/javascript” src=“http://ad.stopklatka.pl/?loc=434 ”></script>\n<script type=“text/javascript”>\n\tvar _gaq = _gaq || [];\n\n\t_gaq.push([’_setAccount’, ‘UA-748474-4’]);\n\t_gaq.push([’_trackPageview’]);\n\n\t(function() {\n\t\tvar ga = document.createElement(‘script’);\n\n\t\tga.src = (‘https:’ == document.location.protocol ? ‘https://ssl ’ : ‘http://www ’) + ‘.google-analytics.com/ga.js’;\n\n\t\tga.setAttribute(‘async’, ‘true’);\n\n\t\tdocument.documentElement.firstChild.appendChild(ga);\n\t})();\n</script>” Dlaczego nie ma tam pełnej zawartości strony internetowej ? Jak w takim razie pobrać źródło strony internetowej z serwisu Stopklatka ?
drobok
(Drobok)
20 Listopad 2014 16:25
#2
Coś mi tu śmierdzi zadaniem
tip -> ciastko
desperado
(Przemek89k)
20 Listopad 2014 16:49
#3
Robię aplikację dla własnych potrzeb. @Up mógłbyś napisać coś więcej jak rozwiązać problem. Dotychczas pobieranie w ten sposób zawartości strony działało.
tomek2102
(tomek2102)
21 Listopad 2014 22:08
#4
Tutaj najprawdopodobniej źródło HTMLowe strony jest generowane przez JavaScript. HtmlDocument pobiera tylko zawartość HTML przed uruchomieniem JavaScriptu. Znalazłem coś takiego co może pomóc. Ma też wsparcie dla C#. Sam nigdy tego nie używałem.
http://docs.seleniumhq.org/docs/03_webdriver.jsp
Kiedyś jeszcze widziałem bibliotekę Javy, która symulowała przeglądarkę z obsługą JavaScriptu, ale nie pamiętam jak się nazywała.