Scraping - Corso per L'Avvenire
Click here to load reader
-
Upload
marco-montanari -
Category
Education
-
view
103 -
download
4
Transcript of Scraping - Corso per L'Avvenire
Data Retrieval
Marco Montanari
Dove sono I dati?
• I dati possono trovarsi sul web in tanti formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
Dove sono I dati?
• I dati possono trovarsi sul web in tanti formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
Partiamo dai dati tabellari
• I dati possono trovarsi sul web in tanti formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
Dati già tabellari
• Portali open data (attenzione alle licenze)
– Filetype:csv/xls
• Enti internazionali
• Agenzie di statistica
Il Bengodi!!!
• C’è un problema:
– Diversi enti definiscono la stessa cosa in modi
completamente diversi
– Diventa difficilissimo fare le operazioni di
VLOOKUP
PROVIAMO A CERCARE QUALCHEDATO!
Dove sono I dati?
• I dati possono trovarsi sul web in tanti formati
– Tabellari
• xls xlsx csv tsv ods dbf
– Strutturati
• xml json (shp)
– Linked data
• RDF
– Altro…
• HTML
75%
20%
5
50%
Scraping
• Excel
• Chrome
– table extractor
– Scraper
• Firefox – outwit
• I PDF…
– Zamzar
– Tabula
• Scraperwiki
PROVIAMO A SCRAPARE UN PO’ DI PAGINE
That’s all Folks!
GRAZIE!
Per qualsiasi domanda:
@[email protected], …sirmmohttp://it.linkedin.com/in/montanarim/https://www.facebook.com/marco.montanarimarco.montanari