Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e...

Post on 28-Jun-2020

10 views 1 download

Transcript of Text Miningcon Rapidminer - e-Learning€¦ · Utilizziamo un file excelcon tweetscaricati e...

Text Mining con Rapidminer

Caricare datiUsiamoleestensioniTextprocessingeWebMiningUtilizziamounfileexcel contweet scaricatiesalvati(vd.slideprecedenti)} Percaricaredati:

} operatoreReadExcel} Settareparametri:ImportConfiguration Wizard ->selezionarecelledaimportare

} Finish} Eseguireprocessononprimadiavercollegatol’operatoreallaportaRes

Nominal to Text} Collegare alla porta uscita di Read Excel l’operatore

Nominal to Text} Settare parametri:

} Attribute filter type: Single} Attribute: dal menu a tendina individuare il nome della colonna

dei testi (es. Text)

} Fondamentale per poter passare i testi nel formato corretto all’operatore Process Documents from Data

Process Documents from Data

} OperatoreProcess Documents fromData(collegarelaportaexadiNtT aexa diPDFD)

} Creavettorediparoledaidati(listaparole),es.TF-IDF} Necessitadisotto-processoconoperatoridipre-processing(cliccando2voltesull’operatore)

} Collegareleportediuscitadell’operatoreProcess DocfromDataares

Parametri PDfD

createwordvector:creavettore,es.TF-IDF

addmetainformation:aggiungemetadaticomecolonneneirisultati

keeptext:testoèpresocomeSpecialattributeneirisultati

prunebelowabsolute/percentual:Ignoraleparolecheappaionoinmenodiunrangedidocumenti

pruneaboveabsolute/percentual:Ignoraleparolecheappaionoinpiùdiunrangedidocumenti

Pre-processing

} Tokenize ->Run (primeosservazionifreq parole)

} Transform Cases:lower cases (trasformatuttoinminuscolo)} Filter stopwords (English)

} Filter stopwords (Dictionary)peritaliano(+filestopword-ita.txt dascaricaredallapiattaforma)

} Filter tokens (byLenght):} Param:min 2max 25

} Run (eliminatestopwords)

Analisi occorrenze parole e n-grammi

Cerchiamofrasisignificativeneitestiprocessati:n-grammi(serieditokens consecutividilunghezzan)compostida2o+parole

Aggiungerenelsotto-processodipre-processing:} OperatorGeneraten-Grams (Terms),postotraStopwords eFilter tokens} Param:max lenght 3

} Run} Opzionale:operatorStem (Porter)

Parametri PDfD (2)

Binary Term Occ

Salvataggio dei risultati} Utilizzando operatore Write Excel possiamo salvare su

file excel i risultati di tutti i processi, sia l’ExampleSet sia la Wordlist (con operatore WordList to Data)

Pulire tweets: problema di partenza

} Tweetsscaricatiesalvatiinunfileexcelpossonoesserecaratterizzatidamoltementions(@...)e/ohashtags(#...)e/olinks(http://…)chedisturbanolaletturadeltesto

} Obiettivoèpulireperconservaresololaparteditestosignificativa

Processo con operatore Replace

N.B.L’operatoreSubprocess èstatorinominato“processodipulizia”.All’internodelprocessodipulizial’operatoreReplace siripete5volteedèstatorinominatoperevidenziarecosarimuoveognioperatore.

Rimuovere parti di un tweet

ParametricomuniatuttiglioperatoriReplace:} Attribute filter type:Single} Attribute:Text(ilnomedellacolonnadeltesto)

ParametridiversipersingoloReplace:1.Replace what:RT rimuovelastringaall’iniziodeiretweet2.Replace what:@[a-zA-Z0-9/d\-_]*rimuovelementions3.Replace what:#rimuoveilcancellettodeglihashtags4.Replace what:http://[a-zA-Z0-9/d\-_].* rimuovelink5.Replace what:https://[a-zA-Z0-9/d\-_].* rimuovelink

Aggiunta di pre-processing (opzionale)

Finale

PRIMA:@musicassettaAognunosecondoipropribisognihttps://t.co/r8aAB8MAqRDOPO:Aognunosecondoipropribisogni

Alcuni suggerimenti

} Lasentiment èmeglioapplicarladopoaverripulitoiltweetmasenzailpre-processing

} Altreanalisiditextmining (wordoccurrence,TF-IDF,similarità,clustering ecc.)èmeglioapplicarledopolafasedipre-processing