2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

31
Università degli Studi di Milano Bicocca Viale dell’Innovazione, 10 20126 Milano, Italia www.crisporg.it Roberto Boselli, 3 giugno 2015

Transcript of 2015-06 Roberto Boselli, Dal dato non strutturato alle ontologie

Università  degli  Studi  di  Milano  -­‐  Bicocca    Viale  dell’Innovazione,  10  20126  Milano,  Italia  www.crisp-­‐org.it  

Roberto Boselli, 3 giugno 2015

Linked  Open  Data    

DaF  struGuraF DaF  non  struGuraF  

Contesto

Big  Data    

Web  

SemanFc    

Business  Intelligence  

App,  Mashup,    

InformaFon  Systems,    

Search  engines  

Le tecniche

•  Informa(on  Extrac(on  per  estrarre  enFtà  da  daF  non  struGuraF  e  classificarli  

•  Seman(c  Web  per  descrivere  e  collegare  le  enFtà  

•  Big  Data  Analy(cs  per  analizzare  daF  e  prendere  decisioni  

Dominio: Mercato del Lavoro

Obiettivo

Dato strutturato

Dato Semi

strutturato Non

strutturato

Conoscere mercato

del lavoro

Social Network Siti web

Fonti Statistiche e Amministrative

Fonti

Selezione  tra  i  più  importanF  si(  di  annunci  di  lavoro:  

•   SiF  specializzaF  in  offerte  di  lavoro  (job  boards  e  aggregators)  •   SiF  delle  principali  agenzie  interinali  •   SiF  dei  maggiori  quoFdiani  nazionali  •   Social  networks  

Web vacancies

•  850000  annunci  di  lavoro  scaricaF  e  analizzaF  •  Crawling  da  febbraio  2013  a  aprile  2015  •  ContenuF  descriZvi  =  daF  non  struGuraF  

Indicatori del mercato del lavoro

•  Professione  •  Tipo  di  contraAo  •  SeAore  economico  

•  Titolo  di  studio  •  Località  •  Skills  Variabili  interconnesse  a  differenF  livelli  di  complessità  Preziosa  fonte  di  informazione  delle  caraGerisFche  e  delle  

dinamiche  del  lavoro  

Problemi di Information Extraction

Diversi  problemi  emergono  dal  traAare  da(  del  web:  

•  Informa(on  processing,  text  analysis  

  TraGare  stringhe  di  testo  richiede  parFcolari  strumenF  e  tecniche  

•  Eterogeneità  di  classificazione  nei  si(    Ciascun  sito  ha  una  differente  classificazione  

•  Overlap  tra  si(    Lo  stesso  annuncio  può  essere  pubblicato  in  diversi  siF.  Controllo  

dei  duplicaF  

•  Ripe(zione  degli  annunci  nel  tempo  

  Controllo  delle  diverse  poliFche  di  pubblicazione  dei  siF  •  Iden(ficazione  e  definizione  di  tassonomie  

Metodologia e strumenti

Da(  non  struAura(  • Web  crawling  

•  Text  mining  •  SMA  

StruAura  da(  •  Classificazione  •  Tassonomia  •  RDF  triplestore  

Seman(ca  •  Ontologia  •  Relazioni  semanFche  

Linked  Data  •  Collegamento  dataset  

•  Interrogazioni  SPARQL  endpoint  

Business  Intelligence  •  Analisi  staFsFche  

•  Visualizzazione  •  ReporFsFca  

Suite  strumenF  SAS,  R

Open  Calais,    D2RQ

Protege,  LOD  Refine,  SILK  

OpenLink  Virtuoso,  Sesame  

Pentaho,  Talend,  SemanFc  ETL  

Web crawling

Scarico  di  daF  non  struGuraF  dal  Web  (via  API)  Esempi:  

Tweets  da  TwiGer  

Post  da  blog  e  forum  Annunci  da  siF  ricerca  Lavoro  (Infojobs,  Monster  ecc.)  

<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. …</body>

Text Mining (TM)

È  il  processo  di  analisi:  per  estrarre  nuova  e  valida  conoscenza  dispersa  nei  documenF  di  testo  

per  dedurre  informazioni  da  daF  non  struGuraF  combinaF  con  variabili  quanFtaFve  

UFlizza  tecniche  di  InformaFon  Retrieval  (h-­‐idf,  coseno,  clustering,  LSI)  

<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>

Social Media Analytics

Tecniche  staFsFche  e  linguisFche  per  monitorare,  ascoltare  e  tracciare  comportamento  utenF  nel  web,    classificare  contenuF  in  tassonomie  Opinion  Mining  

SenFment  Analysis  

<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>

Settore Contratto Titolo di studio

Conoscenza  di  dominio  e  sistemi  classificazione  ufficiali  (ISTAT,  ATECO  …)  

Aggregazione  di  parole  accomunate  da  un  tema/classe  

Organizzazione  gerarchica  termini  

Classificazione e tassonomie

ContraZ  PermanenF  ContraZ  Temporanei  Inserimento  Lavoro  autonomo  Lavoro  aFpico  Da  definire    

Comunicazioni  Obbligatorie  

Linguaggio naturale e sistemi di classificazione

Terminologia  usata  dalle  aziende  per  professioni  e  

seGori  

Classificazioni  ufficiali  di  professioni  e  seGori  

Il  web  può  rappresentare  un  ponte    per  coniugare  i  sistemi  di  classificazione  ed  il  linguaggio  naturale  …  nel  contempo  una  occasione  

per  lo  studio  dell’evoluzione  dei  sistemi  classificatori  

WollyBi

https://www.wollybi.it/

Semantic Web

"The  Seman)c  Web  is  an  extension  of  the  current  web  in  which  informa)on  is  given  well-­‐defined  meaning,  be=er  enabling  computers  and  people  to  work  in  coopera)on.”  (Berners-­‐Lee,  2001)  

Tecniche  e  linguaggi  per  esplicitare  le  relazioni  tra  pagine  web,  e  permeGere  alle  macchine  di  capire  il  significato  delle  informazioni  Da  pagine  di  testo  non  struAurato  a  informazioni  struAurate    

Descrizione  metadaF  interpretabili  dai  computer    Creazione  di  nuovi  servizi  e  nuova  conoscenza  

Linked Open Data

Perché Linked Open Data?

•  Interoperabilità:  il  valore  dei  daF  aumenta  quando  data  set  differenF,  prodoZ  e  pubblicaF  in  modo  indipendente  da  diversi  soggeZ,  possono  essere  incrociaF  liberamente  da  terze  parF  

•  Valorizzazione  del  patrimonio  informaFvo  pubblico:  rendere  disponibili  e  raggiungibili  i  daF  sul  Web  sia  da  esseri  umani  sia  da  applicazioni  sonware    

•  I  daF  come  propulsori  economici  per  la  creazione  di  nuove  app  e  servizi,  start  up,  e  posF  di  lavoro  

Occorre  avere  un  linguaggio  comune,  una  semanFca,  con  daF  struGuraF  e  chiavi  di  leGura  univoche,  e  un’ontologia  di  dominio  

LOD: Vantaggi

•  Esporre  daF  sul  Web,  non  solo  documenF  •  InterconneGere  i  nostri  daF  con  quelli  di  altre  fonF  arricchendone  il  valore  conosciFvo  

•  I  link  in  entrata  ai  nostri  daF  possono  aumentarne  la  visibilità  

•  Altri  esseri  umani  e  applicazioni  possono:    •  Accedere  ai  nostri  daF  uFlizzando  le  tecnologie  Web    

•  Seguire  i  link  in  modo  da  oGenere  ulteriori  informazioni  di  contesto    

La scala di Berners-Lee

Modello  di  catalogazione  dei  daF  1.   Una  Stella:  il  livello  base,  cosFtuito  da  file  non  struGuraF:  ad  esempio  

un’immagine  in  formato  grezzo  (.gif,  .jpg,  .png),  un  documento  in  formato  Word,  un  file  in  formato  pdf  

2.   Due  Stelle:  indica  daF  struGuraF  ma  codificaF  con  un  formato  proprietario,  ad  esempio  un  documento  in  formato  Excel  

3.   Tre  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non  proprietario,  ad  esempio  il  formato  .csv  (Comma  Separated  Values)  

4.   QuaAro  Stelle:  indica  daF  struGuraF  e  codificaF  in  un  formato  non  proprietario  che  sono  dotaF  di  un  URI  che  li  rende  indirizzabili  sulla  rete  e  quindi  uFlizzabili  direGamente  online,  aGraverso  l’inclusione  in  una  struGura  basata  sul  modello  RDF  (Resource  DescripFon  Framework)  

5.   Cinque  Stelle:  indica  quelli  che  vengono  definiF  Linked  Open  Data  (LOD)  

21

Linked Data, linee guida (5 stelle) 1

Dal  dato  grezzo  al  conceGo  interpretabile  dalle  macchine  •  I  daF  idenFficaF  con  indirizzi  Web  (URI)  

•  UFlizzo  della  semanFca  per  descrivere  daF  aGraverso  conceZ  (formalismi  interpretabili  dalle  macchine)  

•  Rappresentazione  dei  conceZ  aGraverso  triple  sogge=o  predicato  ogge=o  RDF:  “Università  è  un’is)tuzione,  Università  fa  formazione,  Università  fa  ricerca”  

•  Le  ontologie  sono  vocabolari  che  spiegano  alle  macchine  il  significato  dei  termini  delle  triple  (Università,  is)tuzione  ecc.)  e  forniscono  le  regole  per  dedurre  nuove  informazioni  

Linked Data, linee guida (5 stelle) 2

•  I  daF  struGuraF  sono  memorizzaF  in  apposiF  triplestore  RDF  interrogabili  via  SPARQL  endpoint  

•  Link  RDF  per  collegare  informazioni  di  dataset  diversi  •  Nel  creare  ontologie  bisogna  riusare  il  più  possibile  termini/

enFtà  di  vocabolari  noF;  creare  nuovi  termini  solo  se  streGamente  necessario  

Ontologie  riuFlizzabili  per  descrivere  conceZ:  •  Friend-­‐of-­‐a-­‐friend  (FOAF):  per  descrivere  persone  e  relazioni  tra  di  esse  •  Dublin  Core  (DC):  standard  metadaF  •  Geonames:  per  descrivere  enFtà  geografiche  •  Dbpedia:  per  descrivere  conoscenza  presente  in  Wikipedia  •  …  (vedremo  altre  nel  corso  della  presentazione)  

Triple RDF dagli annunci

<body>Azienda XYZ (Aut. Min. 26/11/04 Prot. n° 1101-SG) assume: ricerchiamo per azienda cliente operante nel settore della grande distribuzione ( nota catena di discount alimentare) un responsabile supermercato. Il candidato/a ideale deve avere maturato una pregressa esperienza di almeno tre anni nel settore GDO e nel ruolo di responsabile punto vendita. […] Richiesto: diploma di scuola media superiore; conoscenza del pc. […] Contratto iniziale di somministrazione.</body>

Discount  alimentare   Responsabile    punto  vendita    

assume  

Grande  distribuzione  

opera  

Esperienza  

avere   3  anni  

Diploma  sms  

Titolo  di  studio  

PC  

conoscere  

ContraGo    somministrazione  

offre  

Ontologie in sviluppo

Professione

Contratto

TitoloDiStudio

haTitolo

eAssociatoA

Skill

haSkill

Skill estratte/ESCO/tassonomia

haContratto

SettoreEconomico

Keyword

ISTAT/ESCO/ISCO Istanze

Stringhe estratte Tassonomia/EURES

Tassonomia/NACE

Tassonomia/ISCED

skillCrisp.owl lavoro.owl

SkillOnt.owl

has_experience_level

has_experience_level

Skill-lavoro.owl

Informatici_Telematici

has_skill

belongs belongs

Lavoratori

Professioni

Attività economiche Aziende

Dataset LOD collegati tra loro

28

Settori econ

Aziende

Professioni Lavoratori

Persona_1234

Contratto_TD avvia

Azienda_JBD

Professione_Informatico

nome_qual http://…/Professioni/#Informatico owl:sameAs

Settore_ICT

èAssociatoA

indirizzo

Milano Italia

Via Verdi

…/Professioni/#TecnicoInformatico èAssociatoA

apertoDa

ha

Quali  skill  collegate  al  seGore  economico  dell'ICT  sono  richieste  dalle  aziende  nella  zona  di  Milano?    

Possibile query su LOD Lavoro

Skill Ling. Programm.

http://…/Skill/#Java

http://…/Skill/#C++

ha

Java

C++

Si  oZene  una  nuova  fonte  daF  che  integrata  nei  sistemi  di  Business  Intelligence  permeGe:  

Al  ciGadino  e  alle  aziende:  e.g.,  fare  analisi  dello  stato  del  lavoro  nella  regione,  quali  sono  le  qualifiche  richieste,  quali  possono  essere  i  possibili  percorsi  professionalizzanF  ecc.  

Al  decisore:  

 e.g.,  valutare  e  visualizzare  in  modo  immediato  l’efficacia  delle  poliFche  sul  lavoro  e  l’occupazione  

Possibili utilizzi

Grazie!

Domande?  

[email protected]