Scraping - Corso per L'Avvenire

Post on 06-Jul-2015

104 views 4 download

Transcript of Scraping - Corso per L'Avvenire

Data Retrieval

Marco Montanari

Dove sono I dati?

• I dati possono trovarsi sul web in tanti formati

– Tabellari

• xls xlsx csv tsv ods dbf

– Strutturati

• xml json (shp)

– Linked data

• RDF

– Altro…

• HTML

75%

20%

5

50%

Dove sono I dati?

• I dati possono trovarsi sul web in tanti formati

– Tabellari

• xls xlsx csv tsv ods dbf

– Strutturati

• xml json (shp)

– Linked data

• RDF

– Altro…

• HTML

75%

20%

5

50%

Partiamo dai dati tabellari

• I dati possono trovarsi sul web in tanti formati

– Tabellari

• xls xlsx csv tsv ods dbf

– Strutturati

• xml json (shp)

– Linked data

• RDF

– Altro…

• HTML

75%

20%

5

50%

Dati già tabellari

• Portali open data (attenzione alle licenze)

• Google

– Filetype:csv/xls

• Enti internazionali

• Agenzie di statistica

Il Bengodi!!!

• C’è un problema:

– Diversi enti definiscono la stessa cosa in modi

completamente diversi

– Diventa difficilissimo fare le operazioni di

VLOOKUP

PROVIAMO A CERCARE QUALCHEDATO!

Dove sono I dati?

• I dati possono trovarsi sul web in tanti formati

– Tabellari

• xls xlsx csv tsv ods dbf

– Strutturati

• xml json (shp)

– Linked data

• RDF

– Altro…

• HTML

75%

20%

5

50%

Scraping

• Excel

• Chrome

– table extractor

– Scraper

• Firefox – outwit

• I PDF…

– Zamzar

– Tabula

• Scraperwiki

PROVIAMO A SCRAPARE UN PO’ DI PAGINE

That’s all Folks!

GRAZIE!

Per qualsiasi domanda:

@ingmmomarco.montanari@gmail.comsirmmo.blogspot.com, …sirmmohttp://it.linkedin.com/in/montanarim/https://www.facebook.com/marco.montanarimarco.montanari