sulla correzione ortografica automatica - Chiodini...∙ Wikipedia in italiano come sorgente di dati...

19
sulla correzione ortografica automatica Un’applicazione concreta partendo da Wikipedia Luca Chiodini Esame di Stato 2015 ITIS Paleocapa

Transcript of sulla correzione ortografica automatica - Chiodini...∙ Wikipedia in italiano come sorgente di dati...

sulla correzione ortografica automaticaUn’applicazione concreta partendo da Wikipedia

Luca ChiodiniEsame di Stato 2015

ITIS Paleocapa

Cosa c’è dietro le quinte?

1

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (ngrammi)

nuotano nel amre

Amore? Mare? Amare?

3

correzione (ngrammi)

nuotano nel amre

Amore? Mare? Amare?

3

correzione (n-grammi)

l’amre è cieco

Amore? Mare? Amare?

argmaxc∈D

P(w|ci)︸ ︷︷ ︸error

·P(ci−1|ci) · P(ci) · P(ci|ci+1︸ ︷︷ ︸language

)

4

correzione (n-grammi)

l’amre è cieco

Amore? Mare? Amare?

argmaxc∈D

P(w|ci)︸ ︷︷ ︸error

·P(ci−1|ci) · P(ci) · P(ci|ci+1︸ ︷︷ ︸language

)

4

wikipedia

∙ Wikipedia in italiano come sorgente di dati

∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!

∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)

∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)

∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)

∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

word cloud

6

architettura del sistema

7

architettura del sistema

8

Tutto ciò che è bello e nobile è il risultato dellaragione e di calcoli.

Baudelaire

9