sulla correzione ortografica automatica - Chiodini...∙ Wikipedia in italiano come sorgente di dati...

Post on 25-Jun-2020

3 views 0 download

Transcript of sulla correzione ortografica automatica - Chiodini...∙ Wikipedia in italiano come sorgente di dati...

sulla correzione ortografica automaticaUn’applicazione concreta partendo da Wikipedia

Luca ChiodiniEsame di Stato 2015

ITIS Paleocapa

Cosa c’è dietro le quinte?

1

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (unigrammi)

amre

Amore? Mare? Amare?

argmaxc∈D

P(w|c)︸ ︷︷ ︸error

· P(c)︸︷︷︸language

2

correzione (ngrammi)

nuotano nel amre

Amore? Mare? Amare?

3

correzione (ngrammi)

nuotano nel amre

Amore? Mare? Amare?

3

correzione (n-grammi)

l’amre è cieco

Amore? Mare? Amare?

argmaxc∈D

P(w|ci)︸ ︷︷ ︸error

·P(ci−1|ci) · P(ci) · P(ci|ci+1︸ ︷︷ ︸language

)

4

correzione (n-grammi)

l’amre è cieco

Amore? Mare? Amare?

argmaxc∈D

P(w|ci)︸ ︷︷ ︸error

·P(ci−1|ci) · P(ci) · P(ci|ci+1︸ ︷︷ ︸language

)

4

wikipedia

∙ Wikipedia in italiano come sorgente di dati

∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!

∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)

∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)

∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)

∙ ~ 41 000 000 coppie di parole diverse

5

wikipedia

∙ Wikipedia in italiano come sorgente di dati∙ Analizzare tutta Wikipedia non è banale!∙ ~ 10 GB di pagine (solo testo)∙ Elaborazione su Amazon EC2 (8 CPU, 15 GiB RAM)∙ ~ 311 000 000 parole (~ 2 600 000 diverse)∙ ~ 41 000 000 coppie di parole diverse

5

word cloud

6

architettura del sistema

7

architettura del sistema

8

Tutto ciò che è bello e nobile è il risultato dellaragione e di calcoli.

Baudelaire

9