La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

81
La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA. Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà. A cura di Michele De Capitani Prima Posizione Srl - Via dell’Industria, 60 – 35129 Padova – PD – www.prima- posizione.it 1

description

Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà. Algoritmi semantici di Google e gli altri motori di ricerca, basati sui modelli matematici di analisi semantica fra cui: LDA (Latent Dirichlet Allocation), HTMM (Hidden Topic Markov Models), PLSA (Probabilisti Latent Semantic Analysis). V Convegno GT 2010, le slide dell'intervento. Analisi e test sull'algoritmo semantico di Google.

Transcript of La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

Page 1: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA.Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà.

A cura di Michele De Capitani

Prima Posizione Srl - Via dell’Industria, 60 – 35129 Padova – PD – www.prima-posizione.it 1

Page 2: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

“La SEO è come la Fisica, solo quando la governi comprendi che ti servirà ad ottenere solamente

una nuova prospettiva dell’universo quantistico.”Michele De Capitani - 2010

La SEOMantica - Page 1 2

Page 3: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Evoluzione della formule del ranking nella SEO:

1996-2000 = CONTENUTI

2000-2003 = CONTENUTI + LINK POPULARITY (LP)

2003-2006 = (CONTENUTI + LP) / PENALTY (PNY)

2006-2008 = (CONTENUTI + LP + TRUST (TR)) / PNY

2008-2010 = [(CONTENUTI + LP + TR) x SPEED)] / PNY

La SEOMantica - Page 1 3

Page 4: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

1996-2000 = CONTENUTI

Fattori determinanti per il ranking

• Tag Title• Meta tag (Keywords)• Ripetizioni e frequenze della

keyword all’interno del tag body (keyword density/frequency)

La SEOMantica - Page 1 4

Page 5: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

2000-2003 = CONTENUTI + LINK POPULARITY (LP)

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità dei backlinks ricevuti• Google PageRank• Anchor text dei backlinks

La SEOMantica - Page 1 5

Page 6: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 6

2003-2006 = (CONTENUTI + LP) / PENALTY (PNY)

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità dei backlinks ricevuti• Google PageRank• Anchor text dei backlinks• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking. • Utilizzo moderato di tutti i fattori

Page 7: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 7

2006-2008 = (CONTENUTI+LP+TRUST (TR)) / PNY

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità Qualità dei backlinks ricevuti• Google PageRank + TrustRank - BadRank• Anchor text dei backlinks - Boombing• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking + filtraggio serrato sui duplicati. • Utilizzo moderato di tutti i fattori

Page 8: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 8

2008-2010 = [(CONTENUTI+LP+TR) x SPEED)]/PNY

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description solo duplicazione)• Qualità dei backlinks ricevuti• Google PageRank + TrustRank - BadRank• Anchor text dei backlinks - Boombing• Velocità e riduzione tempi di caricamento/accesso alle

pagine web (Google Caffeine)• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking + filtraggio serrato sui duplicati. • Utilizzo moderato di tutti i fattori

Page 9: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Tutte queste conoscenze e ogni esperienza acquisita fanno il

bagaglio professionale di ciascun SEO…

La SEOMantica - Page 1 9

Page 10: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Ma…La SEOMantica - Page _ 10

SEOMantica

Page 11: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

…essendo esseri umani (sembra strano a dirsi ma lo siamo ) …

La SEOMantica - Page 1 11

Page 12: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

tutte queste CREDENZE decuplicano le nostre PAURE!

La SEOMantica - Page 1 12

Page 13: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 13

Quali sono le nostre Paure?

Breve, ma significativa classifica..

Page 14: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 14

CERTEZZA“… ma sei proprio sicuro?!”

Page 15: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 15

Le MAPPE“… azz.. Sempre queste fra le

pillole!!”

Page 16: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 16

SCRIVERE TESTI A MANO“… sti benedetti contenuti unici,

originali e interessanti!!”

Page 17: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 17

LA FINE DELLA SEO“… Google mi odia e mi vuole

mandare in pensione...”

Page 18: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 18

STO SBAGLIANDO TUTTO“… Le mie tecniche sono

obsolete ...”

Page 19: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 19

Potremmo andare avanti all’infinito, basta pensare un po’

ai nostri clienti..

Page 20: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 20

E’ risaputo, le Paure sono degli ostacoli al raggiungimento di

nuovi traguardi

Page 21: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Ora, qui in questo preciso momento, sei di fronte ad una

scelta…

La SEOMantica - Page 1 21

Page 22: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 22

Page 23: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 23

E’ la tua ultima occasione, se rinunci non ne avrai altre:

Pillola Azzurra – “Fine della storia, domani ti troverai alla tua scrivania e continuerai a fare SEO così come l’hai sempre fatta.”

Pillola Rossa – “Resti nel paese delle meraviglie e vedrai quant’è profonda la tana del Bianconiglio…”

Page 24: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 24

Ricorda, ti sto offrendo solo la verità!

Page 25: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 25

Metti da parte le credenze e apri le porte a nuove prospettive

Page 26: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 26

Page 27: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 27

Istantanea dei fattori che determinano il ranking:

Valutazione interna ed esterna

• LINK e TRUST = calcolo quantitativo e qualitativo dei backlinks. Potenzialità Sviluppo: poche, perché già a buon livello

• PENALTY = penalizzare significa giudicare, per giudicare occorre scrivere delle leggi e formare giudici imparziali. Potenzialità Sviluppo: buone, ma faticano a stare al passo coi tempi e l’esplosione esponenziale del web e delle tecnologie.

Page 28: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 28

Istantanea dei fattori che determinano il ranking:

Valutazione interna ed esterna

• CONTENUTI = basata su parametri matematici superficiali e soprattutto legati alla presenza o meno delle keywords in tag/punti particolari della pagina (tag title, h1, h2, etc.).Potenzialità Sviluppo: Enormi, perché attualmente la “macchina è stupida”, ma mediante l’applicazione di appositi modelli matematici si può trasformare da STUPID a INTELLIGENT (IA – Intelligenza Artificiale) la comprensione dei contenuti, grazie alla semantica

Page 29: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 29

Information Retrieval (IR)

L’analisi del contenuto in ambito di ricerca delle informazioni

Page 30: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 30

La “SEOMantica”

Page 31: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 31

Cos’è la SEOMantica?

Si tratta dell’utilizzo dell’analisi semantica (IR) ai fini della SEO e

quindi del Ranking sui motori

Page 32: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 32

Le keywords di oggi legate alla SEOMantica:

• IR (Information Retrieval) = composta da 7 sottosezioni: Psicologia Cognitiva, Ontologia, Design, Linguistica, Semiotica, Informazione e Informatica

• TF/IDF (Term Frequency / Inverse Document Frequency) = Frequenza del termine / Frequenza del documento

inversa • LSA (Latent Semantic Analysis) = Analisi Semantica Latente• LSI (Latent Semantic Indexing) = Indicizzazione Semantica• PLSA (Probabilistic Latent Semantic Analysis) =

Analisi Semantica Probabilistica Latente• LDA (Latent Dirichlet Analysis) = Analisi Latente di Dirichlet• HTMM (Hidden Topic Markov Models) =

Modelli di Markov sugli argomenti nascosti

Page 33: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 33

Ricorda, ti sto offrendo solo la verità…

Page 34: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 34

TF/IDF (Term Frequency / Inverse Document Frequency)

Passato

• Keyword Frequency = Nr. di ripetizioni di una keywords all’interno di un testoFormula: Conteggio delle ripetizioni

• Keyword Density = Ripetizioni della Keywords rapportate al numero totale di parole presenti nel documentoFormula: Keyword Frenquency * 100 / Totale Keywords

Page 35: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 35

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF

• TF/IDF = Indica la frequenza del termine ponderata in quanto è inversamente proporzionale alla frequenza del documento e misura quanto importate è una determinata parola in un documento e nel corpus di analisi totale, cioè in tutti i documenti nell’ambiente analizzato.

Formula: Frequenza del termine * Frequenza inversa del documento

Page 36: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 36

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF

Formula: Frequenza del termine * Frequenza inversa documento

Frequenza del termine = Nr. ripetizioni/Tot. Parole Documento

Frequenza inversa = log(tot. doc. / tot. doc. che contengono la key)

x

Page 37: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF - ESEMPIO

• Testo = parole totali 1.000• Keyword osservata = marketing• Occorrenze Keyword = 9

Calcolo TF = 9/1.000 = 0,009

• Totale documenti del corpus = 10 Mld (indicizzate da Google)• Documenti con “Marketing” = 535 Mil

Calcolo IDF = log(10.000.000.000/535.000.000) = 1,27

TF/IDF = TF * IDF = 0,009 * 1,27 = 0,01143

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 37

Page 38: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

TF/IDF (Term Frequency / Inverse Document Frequency)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 38

TF/IDF Calculator Ver. 1.0

Il mio tool per velocizzare il calcolo del TF/IDF

LINK

Scaricalo gratis qui: http://lab.prima-posizione.it/seo-tools/tf-idf.zip

Page 39: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LSA (Latent Semantic Analysis)

• Tecnica di elaborazione del linguaggio naturale (semantica vettoriale basata su matrici matematiche)

• Analizza le relazioni fra insiemi di documenti e le condizioni in essi contenuti

• Produce un insieme di concetti correlati ai documenti e ai termini utilizzati

• La TF/IDF è un esempio reale di LSA

LIMITAZIONI e SVANTAGGI

• LSA non rileva la polisemia dei termini (parole che hanno più significati: formazione, subito, etc.)

• Le variabili non sono osservabili, quindi sono LATENTI

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 39

Page 40: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LSI (Latent Semantic Indexing)

• Non è altro che l’applicazione della LSA in ambito IR, cioè di recupero delle informazioni

Queste analisi semantiche, hanno comunque grosse limitazioni legate appunto ai problemi della LSA, quindi per quanto riguarda la SEO, ho rivolto i miei studi agli altri modelli matematici di Analisi Semantica dei contenuti.

Vediamole…

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 40

Page 41: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

PLSA (Probabilistic Latent Semantic Analysis)

• Tecnica statistica utilizzata per l’analisi di due metodologie e co-occorrenze di dati.

• E’ un miglioramento della LSA apportando un calcolo probabilistico ai risultati. Infatti è basata su una decomposizione miscelata da un modello di classe latente, questo permette appunto un approccio più probabilistico e quindi più saldo statisticamente

• E’ stata introdotta nel 1999 da Jan Puzicha e Thomas Hofmann

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 41

Page 42: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

K

PLSA (Probabilistic Latent Semantic Analysis)

Schematizzazione del concetto (tratto da Amit Gruber, 08 Agosto 2007 – GoogleTechTalks)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 42

D Nd

θ

Z

W

Φ

1. Selezionare 1 documento “d” con probabilità → P(d)

2. Scegliere una classe latente “Z” con probabilità → θd(Z) = P(Z|d)

3. Generare una parola “W” con probabilità → Φz(W) = P(W|Z)

Page 43: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

PLSA (Probabilistic Latent Semantic Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 43

K

D Nd

θ

Z

W

Φ

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti

nel documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

PROBLEMA: elevata generazione di collegamenti/correlazioni

Page 44: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

PLSA (Probabilistic Latent Semantic Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 44

K

D Nd

θ

Z

W

Φ

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti

nel documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

PROBLEMA: elevata generazione di RUMORE CASUALE (Overfitting)Variabili Osservabili Variabili Latenti

Page 45: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LDA (Latent Dirichlet Analysis)

In statistica è un modello generativo che permette di effettuare una serie di osservazioni per spiegare la correlazione fra le parole chiave e topic (argomenti) simili fra loro. Infatti si presume che un documento sia una miscela di un piccolo numero di argomenti e che l’utilizzo di ogni parola è attribuibile a uno dei temi del documento.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 45

1. Scegliere θd ~ Dirichlet (α)

2. Scegliere Φz ~ Dirichlet (β)

3. Per ogni WN (Parola osservata fra le parole del documento):

• Scegliere un topic Z ~ multinomiale (θd)• Scegliere una parola WN ~ multinomiale (Φz)

Page 46: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 46

Aggiunge alla formula della PLSA, le variabili latenti Dirichlet.

α

β

α → Dirichlet preliminare su θd

β → Dirichlet preliminare su Φk

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti nel

documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

Page 47: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 47

1. In questo modo, il modello coerente riesce a superare l’overfitting (generazione di rumore)

2. Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento.

Lettura semplificata by Stefano Griggio:“La probabilità che la parola W appartenga all’argomento Z all’interno di un documento è proporzionale a quanto l’argomento è già stato trattato nel documento e al numero di volte che la parola è stata usata per quell’argomento.”

Page 48: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 48

Esempio correlazione semantica individuati tramite LDA

Parole chiavi e astronomia e geologia

La navetta spaziale ha viaggiato a lungo nello spazio prima di arrivare sulla luna. Una volta arrivata, le sonde esamineranno il suolo per cercare di stabilire se si trova del ghiaccio nelle profondità dei crateri lunari.

Il significato semantico delle parole chiave, anche se non indicate esplicitamente, vengono evidenziate dal topic di ogni singola frase.

Page 49: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

HTMM (Hidden Topic Markov Model)

1. Il presupposto Markoviano sulla dinamica dell’argomento all’interno di un documento:

• Argomenti di frasi consecutive tendono a mantenersi (una sorta di INERZIA che lega i topic dalla frase a quella successiva). ALTA PROBABILITA’ → (1-ε)

• Bruschi cambiamenti di argomento fra frasi consecutive sono rari. BASSA PROBABILITA’ → ε

2. Esplicita rappresentazione per il topic di ogni frase:

• Distingue fra le diverse istanze di alcune parole in base al contesto (risolve il problema legato alla Polisemia)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 49

Page 50: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

HTMM (Hidden Topic Markov Model)

Descrizione matematica del modello HTMM:

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 50

1. Scegliere θd ~ Dirichlet (α)

2. Scegliere Φz ~ Dirichlet (β)

3. Per N=1 … Nsd:

• Scegliere ψN ~ Binomiale (1) ψ1 settato sempre 1

• Se ψN == 0• ZN = ZN+1

• Altrimenti • Scegliere un argomento ZN ~ Multinomiale (θd)

Page 51: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

HTMM (Hidden Topic Markov Model)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 51

W1 → Le parole “i’th”ψ1 → E’ l’argomento “i’th” redatto dalla lotteria ε → Pr(ψk – 1)α → Dirichlet preliminare su θd

β → Dirichlet preliminare su Φk

D → numero dei documentiNd → numero delle parole nel documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti nel documento

“d”Z → argomento latente (topic) della frasi “i’th” W → parola osservataΦk → distribuzione delle parole generate

all’argomento latente “Z”

Page 52: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

HTMM (Hidden Topic Markov Model)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 52

Segmentazione del documento in frasi e da queste viene generato il relativo argomento (topic)!

Page 53: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 53

Alcuni cenni e anticipazioni sugli esperimenti condotti da Amit Gruber1. NIPS Dataset (1740 documenti, 1557 per pratica, 183 per test)

• Pre-elaborazione dei datiEstrazione parole dal vocabolario (J=12113, no stop words)Suddiviso il testo in frasi in corrispondenza di “.?!”

• Comparazione fra i modelli LDA, HTTM e VHTMM1 (una variante di HTTM dove ε=1)

VEDIAMO I RISULTATI …

Page 54: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 54

K=100 N=10

Più bassa è la perplessità, migliore è il modello nella previsione delle parole invisibili.

Page 55: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 55

Migliori parole per argomento

HTMM

LDA

Page 56: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 56

Conclusioni significative dell’esperimento

1. HTMM è un’altra estensione dell’LDA, che facilita la selezione delle parole assumendo parte della modellazione dinamica dell’argomento tipica delle catene di Markov.

2. Questa estensione porta ad un netto miglioramento della perplessità e rende possibili 2 deduzioni:

• Segmentazione in argomenti• Disambiguazione del senso della parola

3. Viene richiesto un grosso salvataggio dell’intero documento che deve essere inserito come input nell’algoritmo, grande capacità di calcolo richiesta

4. E’ applicabile esclusivamente su dati strutturati, in cui le frasi sono ben definite

Page 57: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 57

Mappa mentale

Page 58: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 58

Passiamo alla pratica!

Page 59: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 59

Cosa fanno e cosa intendono fare i motori?

1. GOOGLE ne parla dal 2007, lo dimostra questo post: http://googleresearch.blogspot.com/2007/09/openhtmm-released.html sul Google Research Blog.

Inoltre ricordiamoci che Google ha acquisito Applied Semantics nel 2003 dove ha studiato approfonditamente la semantica per tematizzare gli annunci Adsense.

Alcuni interessanti brevetti sull’analisi semantica by GOOGLE:• http://tinyurl.com/396uole: LDA applicata alla IR per le

immagini• http://tinyurl.com/335l8jg: 2004 pubblicato nel 2010, sulla

correlazione semantica fra i termini di un documento

Page 60: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 60

Cosa fanno e cosa intendono fare i motori?

Altri brevetti da studiare:• http://tinyurl.com/396uole: LDA applicata alla IR per le

immagini• http://tinyurl.com/335l8jg: 2004 pubblicato nel 2010, sulla

correlazione semantica fra i termini di un documento• http://tinyurl.com/36zlpdl: Identificazione delle unità semantiche

Paper dei Googlers:• http://tinyurl.com/34puxzr: test di correlazione semantica

tramite modelli LDA (molto interessante)• http://tinyurl.com/2w4o67x: Utilizzo del modello Multi-Grain LDA

(MG-LDA, un’ulteriore estensione dell’LDA)• http://tinyurl.com/35u47qx: Utilizzo del modello HTMM per la

segmentazione in argomenti di testo e voce

Page 61: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 61

Cosa fanno e cosa intendono fare i motori?

2. Anche YAHOO! e BING (Microsoft) si stanno muovendo, col consueto ritardo:

• http://research.yahoo.com/pub/3279• http://research.microsoft.com/en-us/um/people/mattri/

papers/speech/hamm.pdf

Brevetti e pubblicazioni (Y! e Microsoft)• http://tinyurl.com/353299c: Meccanismo per il processo

automatico delle informazioni utilizzando modelli probabilistici LDA e HTMM.

Page 62: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 62

Cosa fanno e cosa intendono fare i motori?

3. Anche l’ingegneria informatica lavora sulla SEMANTICA (non solo in ambito search):

• PAM (Pachinko Allocation Models), studiati da tecnici IBM

• CTM (Correlated Topic Models)• IFTM (Independet Factor Topic Models)Cerca su Google! Ci sono video e relazioni davvero interessanti, dove si confrontano tutti questi modelli matematici.

Come vedi c’è gran fermento!

Page 63: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 63

Ora però rendiamo le cose semplici e capiamone di più!

Page 64: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 64

Il mio esperimento sulla SEOMantica

Obiettivo dell’esperimento: SEO vs SEOManticaMettere a confronto (in competizione) le tecniche SEO Tradizionali

(Fattori on-page: Title, H1, H2, Bold, Em, etc.) con testi non ottimizzati ma costruiti secondo logiche semantiche simili a quelle dei modelli legati all’LDA e HTMM.

Premessa: • Il test è tuttora in corso, per tanto si tratta di considerazioni

parziali da prendere con le dovute precauzioni• Effettuato su keywords nuove non competitive• Fonti non rilevabili (per ovvi motivi di “alterazione dei risultati”)

Page 65: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 65

Il mio esperimento sulla SEOMantica

Strumenti per il test:• Nr. 3 domini vergini (nuovi, registrati appositamente e con

numerazione progressiva)• Nr. 3 domini ad elevato TRUST (PR 5 e in forte tema)• Nr. 2 pagine vergini SEO per ogni dominio (pagine nuove)• Nr. 2 pagine vergini SEOMantica per ogni dominio (pagine nuove)• Nr. 6 index page per velocizzare l’indicizzazione e distribuire ≈ PR• Utilizzo di un browser vergine per il controllo del ranking• Utilizzo di 3 keywords principali composte da 2 termini altamente

competitivi uniti fra loro con un numero. Es.: web96semantico• Utilizzo di 3 keywords di controllo: inesistenti

Page 66: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 66

Il mio esperimento sulla SEOManticaStruttura HTML pagine SEO:

Keyword primaria

Keyword di controllo

Keywords TRUST

Page 67: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 67

Il mio esperimento sulla SEOManticaStruttura HTML pagine SEOMantica:

Keyword primaria

Keyword di controllo

Keywords TRUST

Page 68: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 68

Il mio esperimento sulla SEOManticaProcesso di individuazione semantica (semplificata all’osso) del topic by Dechigno

Come posso scoprire le correlazioni esistenti per Google sulle varie parole chiave? Ecco gli strumenti che abbiamo a disposizione senza fondere il cervello nella risoluzione di modelli matematici complessi:

REVERSE ENGINEERING• Google Adwords Keywords Suggestion - LINK• Suggerimenti per le ricerche correlate – LINK• Espansione della Query – LINK• Vocabolario dei sinonimi - LINK

Page 69: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 69

Il mio esperimento sulla SEOManticaUltime note prima di passare ai risultati ottenuti

• Le pagine SEO e le pagine SEOMantica hanno tutte lo stesso numero di parole all’interno del documento (nelle rispettive competizioni). Esempio: PagSEO1 vs PagSEOMantica01 = 96words

• Le coppie di pagine SEO sono pressoché identiche (studiate appositamente per evitare i filtri antiduplicazione, ma nella sostanza sono UGUALI)

• Le coppie di pagine SEOMantica sono differenti a) versione SEOMantica base = utilizzo di quasi tutti i

sinonimi/correlazioni ma non organizzati in frasi significantib) versione SEOMantica avanzata = utilizzo corretto delle

correlazioni semantiche (minor quantità ma maggior qualità)

Page 70: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 70

I risultati

Page 71: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 71

Il mio esperimento sulla SEOManticaI risultati

• Giorno 0: pubblicazione delle pagine, linking alle pagine index da portali Trust ad elevata spiderizzazione, nessun risultato in SERP.

• Giorno 1: Indicizzate pagine di 2 su 3 dei domini in TRUST e solo 1 pagina indicizzata di 1 su 3 domini VERGINI. Il ranking in SERP per le keywords primaria e di controllo sono: PagSEO1 e 2 – PagSEOMantica2 e 1

• Giorno 2: Indicizzate tutte le pagine (6x4 = 24 pagine), filtri antiduplicazione superati, inizia la rilevazione di risultati attendibili archiviati in forma tabellare…

Page 72: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 72

Il mio esperimento sulla SEOManticaI risultati

Page 73: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 73

Il mio esperimento sulla SEOManticaI risultati statistici

> Equilibrio> FORTE Squilibrio

> 61% vince A-1Base VS A-2Avanz (dato statistico)

Page 74: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 74

Il mio esperimento sulla SEOManticaI risultati osservabili e evidenti

> Ottime performance delle pagine A (SEOMantica) su keywords TRUST

> Buoni risultati delle pagine A-2Avanz (SEOMantica)

Page 75: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 75

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

1. Il Trust ha ancora la sua bella rilevanza, a parte qualche caso sporadico e temporaneo i siti TRUST hanno sempre avuto posizionamenti migliori dei siti VERGINI. Anche su keywords nuove e mai trattate.

2. L’ottimizzazione classica del contenuto (PagineSEO) ha ancora una buona rilevanza sul ranking, specialmente quando le keywords sono NUOVE, lo dimostra il fatto che nella maggior parte delle SERP con le keywords primarie e keywords di controllo le PagineSEO hanno superato le PagineSEOMantica

Page 76: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 76

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

3. Le PagineSEOMantica risultano più performanti nel momento in cui andiamo a verificare il ranking anche per keywords trust, questa è un’OTTIMA INDICAZIONE riguardo alla comprensione semantica dei topic e della relativa attribuzione di valore ai fini del RANKING.

4. Gli algoritmi di GOOGLE sulla semantica ESISTONO e competono con gli altri fattori nella determinazione del ranking, ma non sono ancora affinati. Lo dimostra il forte scompenso nel prediligere con un 61% di preferenza le PagineSEOMantica A-1Base, dove siamo in presenza di topic ricchi di correlazioni semantiche ma non significanti.

Page 77: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 77

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

5. Il Trust del dominio, aiuta a bilanciare l’algoritmo semantico, lo dimostrano i dati rilevati in equilibrio fra loro sui domini TRUST, cosa che non si è verificata sui siti VERGINI.

6. Questo test è ancora in corso e quindi ci saranno sicuramente aggiornamenti e forse anche qualche colpo di scena…

Ora un’ultima domanda…

Page 78: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 78

… se potessi, davvero torneresti indietro?

Page 79: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 79

Special thanks to:

Amit GruberFrancesco Tinti

Franco LucchettiGiorgio Tarverniti

Giuliano De DanieliMarco Quadrella

Silvia LandoStefano Griggio

(* Rigorosamente in ordine alfabetico )

Page 80: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Skype: dechigno

Messenger: [email protected]

Google: [email protected]

Twitter: http://twitter.com/dechigno

Facebook: Michele De Capitani

Diventa mio amico su:

Slideshare: http://www.slideshare.net/dechigno/

Youtube: http://www.youtube.com/user/dechigno

Sito: http://www.prima-posizione.it/

Blog: http://blog.prima-posizione.it/

Contatti

La SEOMantica - Page 1 80

Page 81: La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Internet è un sistema Binarioo sei 1 o sei

0 !

…tante Grazie!

La SEOMantica - Page 1 81