Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e...

15
Text Mining con Rapidminer

Transcript of Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e...

Page 1: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Text Mining con Rapidminer

Page 2: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Caricare datiUsiamoleestensioniTextprocessingeWebMiningUtilizziamounfileexcel contweet scaricatiesalvati(vd.slideprecedenti)} Percaricaredati:

} operatoreReadExcel} Settareparametri:ImportConfiguration Wizard ->selezionarecelledaimportare

} Finish} Eseguireprocessononprimadiavercollegatol’operatoreallaportaRes

Page 3: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Nominal to Text} Collegare alla porta uscita di Read Excel l’operatore

Nominal to Text} Settare parametri:

} Attribute filter type: Single} Attribute: dal menu a tendina individuare il nome della colonna

dei testi (es. Text)

} Fondamentale per poter passare i testi nel formato corretto all’operatore Process Documents from Data

Page 4: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Process Documents from Data

} OperatoreProcess Documents fromData(collegarelaportaexadiNtT aexa diPDFD)

} Creavettorediparoledaidati(listaparole),es.TF-IDF} Necessitadisotto-processoconoperatoridipre-processing(cliccando2voltesull’operatore)

} Collegareleportediuscitadell’operatoreProcess DocfromDataares

Page 5: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Parametri PDfD

createwordvector:creavettore,es.TF-IDF

addmetainformation:aggiungemetadaticomecolonneneirisultati

keeptext:testoèpresocomeSpecialattributeneirisultati

prunebelowabsolute/percentual:Ignoraleparolecheappaionoinmenodiunrangedidocumenti

pruneaboveabsolute/percentual:Ignoraleparolecheappaionoinpiùdiunrangedidocumenti

Page 6: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Pre-processing

} Tokenize ->Run (primeosservazionifreq parole)

} Transform Cases:lower cases (trasformatuttoinminuscolo)} Filter stopwords (English)

} Filter stopwords (Dictionary)peritaliano(+filestopword-ita.txt dascaricaredallapiattaforma)

} Filter tokens (byLenght):} Param:min 2max 25

} Run (eliminatestopwords)

Page 7: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Analisi occorrenze parole e n-grammi

Cerchiamofrasisignificativeneitestiprocessati:n-grammi(serieditokens consecutividilunghezzan)compostida2o+parole

Aggiungerenelsotto-processodipre-processing:} OperatorGeneraten-Grams (Terms),postotraStopwords eFilter tokens} Param:max lenght 3

} Run} Opzionale:operatorStem (Porter)

Page 8: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Parametri PDfD (2)

Binary Term Occ

Page 9: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Salvataggio dei risultati} Utilizzando operatore Write Excel possiamo salvare su

file excel i risultati di tutti i processi, sia l’ExampleSet sia la Wordlist (con operatore WordList to Data)

Page 10: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Pulire tweets: problema di partenza

} Tweetsscaricatiesalvatiinunfileexcelpossonoesserecaratterizzatidamoltementions(@...)e/ohashtags(#...)e/olinks(http://…)chedisturbanolaletturadeltesto

} Obiettivoèpulireperconservaresololaparteditestosignificativa

Page 11: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Processo con operatore Replace

N.B.L’operatoreSubprocess èstatorinominato“processodipulizia”.All’internodelprocessodipulizial’operatoreReplace siripete5volteedèstatorinominatoperevidenziarecosarimuoveognioperatore.

Page 12: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Rimuovere parti di un tweet

ParametricomuniatuttiglioperatoriReplace:} Attribute filter type:Single} Attribute:Text(ilnomedellacolonnadeltesto)

ParametridiversipersingoloReplace:1.Replace what:RT rimuovelastringaall’iniziodeiretweet2.Replace what:@[a-zA-Z0-9/d\-_]*rimuovelementions3.Replace what:#rimuoveilcancellettodeglihashtags4.Replace what:http://[a-zA-Z0-9/d\-_].* rimuovelink5.Replace what:https://[a-zA-Z0-9/d\-_].* rimuovelink

Page 13: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Aggiunta di pre-processing (opzionale)

Page 14: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Finale

PRIMA:@musicassettaAognunosecondoipropribisognihttps://t.co/r8aAB8MAqRDOPO:Aognunosecondoipropribisogni

Page 15: Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e salvati (vd. slide precedenti)}Per caricare dati: } operatore Read Excel } Settare parametri:

Alcuni suggerimenti

} Lasentiment èmeglioapplicarladopoaverripulitoiltweetmasenzailpre-processing

} Altreanalisiditextmining (wordoccurrence,TF-IDF,similarità,clustering ecc.)èmeglioapplicarledopolafasedipre-processing