screen scraping für frühaufsteher. agenda was ist screen scraping methoden beispiele frage /...

Post on 06-Apr-2015

114 Views

Category:

Documents

0 Downloads

Preview:

Click to see full reader

TRANSCRIPT

Screen Scraping

Für Frühaufsteher

Agenda

• Was ist Screen Scraping• Methoden• Beispiele• Frage / Diskussionsrunde

2Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Ziele

• Verständnis für Screen Scraping entwickeln– Niemand wird hier und heute zum Profi!

• Nachdenken über eigene Webseitenverbesserungen und Abwehrmethoden ;)

3Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Methoden

Scripte (wie bsp. PHP)und / oder Software

Script Methode

• Download einer Website– Cookie(s) verwalten– Mit Redirects umgehen– SSL Anfrage– Proxies / verschiedene IP Adressen benutzen

• Informationen mittels REGEX, Xpath … auslesen

• Evtl. Formulareingaben emulieren

5Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

„scrapen“nicht mal eben so?

7

Stadtbranchenbuch

8

GoYellow

9

Factory-Outlets.org

Schwierigkeiten

• Änderungen am Webseiten Design• Ladeseiten zwischen „Formular abschicken“

und Ausgabe• JavaScript– Dynamisch modifizierte Formulare durch JS– Ajax

• Plugin: Flash, Java

10Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Sicherheitsmechanismen

• Sperrung unser Server IP Adresse• Captchas• Zufällig erzeugte Formularfelder– <input type="submit" name="hash"

value="098f6bcd4621d373cade4e832627b4f6">– <input type="submit"

name="098f6bcd4621d373cade4e832627b4f6">

11Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Die Lösung

Einen Browser nutzen

Scrapen mit Browsern

• Die Seiten werden im Browser gerendert

13Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

iMacroKostenloses Firefox Addon

Kostenpflichtige Scripting Version(mit ein paar Extras)

14

iMacro

• Browserplugin (Firefox & IE) oder als Standalone Software

• Löst alle schwierigen Fälle– Ajax– Javascript– Flash!

• In Verbindung mit so gut wie jeder Scriptsprache nutzbar

15Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

iMacro Beispiele

• StudiVZ Scraper• Bookmark Submitter• Captchas lösen

16Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

StudiVZ Scraper

17Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Bookmark Submitter in PHP

Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010 18

Bookmark Submitter

19Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Nur für SEO Campixx 2010 Teilnehmer

Möglichkeiten:Captcha lösen mit iMacro

• Händische Eingabe während das Macro läuft– Human > kostet Arbeitszeit

• OCR Erkennung– Computer > Evtl. Fehlerhaft

• API Services – Human / Computer

20Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Captcha lösen mit iMacro

21Screen Scraping – Christian Schmidt www.christian.to - SEO Campixx 2010

Fragen?

top related