La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

Post on 24-May-2015

4.106 views 5 download

description

Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà. Algoritmi semantici di Google e gli altri motori di ricerca, basati sui modelli matematici di analisi semantica fra cui: LDA (Latent Dirichlet Allocation), HTMM (Hidden Topic Markov Models), PLSA (Probabilisti Latent Semantic Analysis). V Convegno GT 2010, le slide dell'intervento. Analisi e test sull'algoritmo semantico di Google.

Transcript of La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA e HTMM

La SEOmantica: misteri, potenzialità e sviluppi per il seo del futuro con la LDA.Tutto ciò che non avresti mai voluto sentirti dire sulla SEO, oggi è sempre più realtà.

A cura di Michele De Capitani

Prima Posizione Srl - Via dell’Industria, 60 – 35129 Padova – PD – www.prima-posizione.it 1

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

“La SEO è come la Fisica, solo quando la governi comprendi che ti servirà ad ottenere solamente

una nuova prospettiva dell’universo quantistico.”Michele De Capitani - 2010

La SEOMantica - Page 1 2

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Evoluzione della formule del ranking nella SEO:

1996-2000 = CONTENUTI

2000-2003 = CONTENUTI + LINK POPULARITY (LP)

2003-2006 = (CONTENUTI + LP) / PENALTY (PNY)

2006-2008 = (CONTENUTI + LP + TRUST (TR)) / PNY

2008-2010 = [(CONTENUTI + LP + TR) x SPEED)] / PNY

La SEOMantica - Page 1 3

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

1996-2000 = CONTENUTI

Fattori determinanti per il ranking

• Tag Title• Meta tag (Keywords)• Ripetizioni e frequenze della

keyword all’interno del tag body (keyword density/frequency)

La SEOMantica - Page 1 4

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

2000-2003 = CONTENUTI + LINK POPULARITY (LP)

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità dei backlinks ricevuti• Google PageRank• Anchor text dei backlinks

La SEOMantica - Page 1 5

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 6

2003-2006 = (CONTENUTI + LP) / PENALTY (PNY)

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità dei backlinks ricevuti• Google PageRank• Anchor text dei backlinks• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking. • Utilizzo moderato di tutti i fattori

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 7

2006-2008 = (CONTENUTI+LP+TRUST (TR)) / PNY

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description)• Keyword density/frequency• Quantità Qualità dei backlinks ricevuti• Google PageRank + TrustRank - BadRank• Anchor text dei backlinks - Boombing• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking + filtraggio serrato sui duplicati. • Utilizzo moderato di tutti i fattori

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 8

2008-2010 = [(CONTENUTI+LP+TR) x SPEED)]/PNY

Fattori determinanti per il ranking

• Tag Title• Meta tag (Description solo duplicazione)• Qualità dei backlinks ricevuti• Google PageRank + TrustRank - BadRank• Anchor text dei backlinks - Boombing• Velocità e riduzione tempi di caricamento/accesso alle

pagine web (Google Caffeine)• Lotta allo SPAM: in particolare a Keyword Stuffing,

Doorways e cloaking + filtraggio serrato sui duplicati. • Utilizzo moderato di tutti i fattori

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Tutte queste conoscenze e ogni esperienza acquisita fanno il

bagaglio professionale di ciascun SEO…

La SEOMantica - Page 1 9

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Ma…La SEOMantica - Page _ 10

SEOMantica

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

…essendo esseri umani (sembra strano a dirsi ma lo siamo ) …

La SEOMantica - Page 1 11

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

tutte queste CREDENZE decuplicano le nostre PAURE!

La SEOMantica - Page 1 12

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 13

Quali sono le nostre Paure?

Breve, ma significativa classifica..

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 14

CERTEZZA“… ma sei proprio sicuro?!”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 15

Le MAPPE“… azz.. Sempre queste fra le

pillole!!”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 16

SCRIVERE TESTI A MANO“… sti benedetti contenuti unici,

originali e interessanti!!”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 17

LA FINE DELLA SEO“… Google mi odia e mi vuole

mandare in pensione...”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 18

STO SBAGLIANDO TUTTO“… Le mie tecniche sono

obsolete ...”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 19

Potremmo andare avanti all’infinito, basta pensare un po’

ai nostri clienti..

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 20

E’ risaputo, le Paure sono degli ostacoli al raggiungimento di

nuovi traguardi

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Ora, qui in questo preciso momento, sei di fronte ad una

scelta…

La SEOMantica - Page 1 21

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 22

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 23

E’ la tua ultima occasione, se rinunci non ne avrai altre:

Pillola Azzurra – “Fine della storia, domani ti troverai alla tua scrivania e continuerai a fare SEO così come l’hai sempre fatta.”

Pillola Rossa – “Resti nel paese delle meraviglie e vedrai quant’è profonda la tana del Bianconiglio…”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 24

Ricorda, ti sto offrendo solo la verità!

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 25

Metti da parte le credenze e apri le porte a nuove prospettive

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 26

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 27

Istantanea dei fattori che determinano il ranking:

Valutazione interna ed esterna

• LINK e TRUST = calcolo quantitativo e qualitativo dei backlinks. Potenzialità Sviluppo: poche, perché già a buon livello

• PENALTY = penalizzare significa giudicare, per giudicare occorre scrivere delle leggi e formare giudici imparziali. Potenzialità Sviluppo: buone, ma faticano a stare al passo coi tempi e l’esplosione esponenziale del web e delle tecnologie.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 28

Istantanea dei fattori che determinano il ranking:

Valutazione interna ed esterna

• CONTENUTI = basata su parametri matematici superficiali e soprattutto legati alla presenza o meno delle keywords in tag/punti particolari della pagina (tag title, h1, h2, etc.).Potenzialità Sviluppo: Enormi, perché attualmente la “macchina è stupida”, ma mediante l’applicazione di appositi modelli matematici si può trasformare da STUPID a INTELLIGENT (IA – Intelligenza Artificiale) la comprensione dei contenuti, grazie alla semantica

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 29

Information Retrieval (IR)

L’analisi del contenuto in ambito di ricerca delle informazioni

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 30

La “SEOMantica”

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 31

Cos’è la SEOMantica?

Si tratta dell’utilizzo dell’analisi semantica (IR) ai fini della SEO e

quindi del Ranking sui motori

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 32

Le keywords di oggi legate alla SEOMantica:

• IR (Information Retrieval) = composta da 7 sottosezioni: Psicologia Cognitiva, Ontologia, Design, Linguistica, Semiotica, Informazione e Informatica

• TF/IDF (Term Frequency / Inverse Document Frequency) = Frequenza del termine / Frequenza del documento

inversa • LSA (Latent Semantic Analysis) = Analisi Semantica Latente• LSI (Latent Semantic Indexing) = Indicizzazione Semantica• PLSA (Probabilistic Latent Semantic Analysis) =

Analisi Semantica Probabilistica Latente• LDA (Latent Dirichlet Analysis) = Analisi Latente di Dirichlet• HTMM (Hidden Topic Markov Models) =

Modelli di Markov sugli argomenti nascosti

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 33

Ricorda, ti sto offrendo solo la verità…

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 34

TF/IDF (Term Frequency / Inverse Document Frequency)

Passato

• Keyword Frequency = Nr. di ripetizioni di una keywords all’interno di un testoFormula: Conteggio delle ripetizioni

• Keyword Density = Ripetizioni della Keywords rapportate al numero totale di parole presenti nel documentoFormula: Keyword Frenquency * 100 / Totale Keywords

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 35

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF

• TF/IDF = Indica la frequenza del termine ponderata in quanto è inversamente proporzionale alla frequenza del documento e misura quanto importate è una determinata parola in un documento e nel corpus di analisi totale, cioè in tutti i documenti nell’ambiente analizzato.

Formula: Frequenza del termine * Frequenza inversa del documento

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 36

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF

Formula: Frequenza del termine * Frequenza inversa documento

Frequenza del termine = Nr. ripetizioni/Tot. Parole Documento

Frequenza inversa = log(tot. doc. / tot. doc. che contengono la key)

x

TF/IDF (Term Frequency / Inverse Document Frequency)

L’evoluzione TF/IDF - ESEMPIO

• Testo = parole totali 1.000• Keyword osservata = marketing• Occorrenze Keyword = 9

Calcolo TF = 9/1.000 = 0,009

• Totale documenti del corpus = 10 Mld (indicizzate da Google)• Documenti con “Marketing” = 535 Mil

Calcolo IDF = log(10.000.000.000/535.000.000) = 1,27

TF/IDF = TF * IDF = 0,009 * 1,27 = 0,01143

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 37

TF/IDF (Term Frequency / Inverse Document Frequency)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 38

TF/IDF Calculator Ver. 1.0

Il mio tool per velocizzare il calcolo del TF/IDF

LINK

Scaricalo gratis qui: http://lab.prima-posizione.it/seo-tools/tf-idf.zip

LSA (Latent Semantic Analysis)

• Tecnica di elaborazione del linguaggio naturale (semantica vettoriale basata su matrici matematiche)

• Analizza le relazioni fra insiemi di documenti e le condizioni in essi contenuti

• Produce un insieme di concetti correlati ai documenti e ai termini utilizzati

• La TF/IDF è un esempio reale di LSA

LIMITAZIONI e SVANTAGGI

• LSA non rileva la polisemia dei termini (parole che hanno più significati: formazione, subito, etc.)

• Le variabili non sono osservabili, quindi sono LATENTI

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 39

LSI (Latent Semantic Indexing)

• Non è altro che l’applicazione della LSA in ambito IR, cioè di recupero delle informazioni

Queste analisi semantiche, hanno comunque grosse limitazioni legate appunto ai problemi della LSA, quindi per quanto riguarda la SEO, ho rivolto i miei studi agli altri modelli matematici di Analisi Semantica dei contenuti.

Vediamole…

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 40

PLSA (Probabilistic Latent Semantic Analysis)

• Tecnica statistica utilizzata per l’analisi di due metodologie e co-occorrenze di dati.

• E’ un miglioramento della LSA apportando un calcolo probabilistico ai risultati. Infatti è basata su una decomposizione miscelata da un modello di classe latente, questo permette appunto un approccio più probabilistico e quindi più saldo statisticamente

• E’ stata introdotta nel 1999 da Jan Puzicha e Thomas Hofmann

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 41

K

PLSA (Probabilistic Latent Semantic Analysis)

Schematizzazione del concetto (tratto da Amit Gruber, 08 Agosto 2007 – GoogleTechTalks)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 42

D Nd

θ

Z

W

Φ

1. Selezionare 1 documento “d” con probabilità → P(d)

2. Scegliere una classe latente “Z” con probabilità → θd(Z) = P(Z|d)

3. Generare una parola “W” con probabilità → Φz(W) = P(W|Z)

PLSA (Probabilistic Latent Semantic Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 43

K

D Nd

θ

Z

W

Φ

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti

nel documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

PROBLEMA: elevata generazione di collegamenti/correlazioni

PLSA (Probabilistic Latent Semantic Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 44

K

D Nd

θ

Z

W

Φ

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti

nel documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

PROBLEMA: elevata generazione di RUMORE CASUALE (Overfitting)Variabili Osservabili Variabili Latenti

LDA (Latent Dirichlet Analysis)

In statistica è un modello generativo che permette di effettuare una serie di osservazioni per spiegare la correlazione fra le parole chiave e topic (argomenti) simili fra loro. Infatti si presume che un documento sia una miscela di un piccolo numero di argomenti e che l’utilizzo di ogni parola è attribuibile a uno dei temi del documento.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 45

1. Scegliere θd ~ Dirichlet (α)

2. Scegliere Φz ~ Dirichlet (β)

3. Per ogni WN (Parola osservata fra le parole del documento):

• Scegliere un topic Z ~ multinomiale (θd)• Scegliere una parola WN ~ multinomiale (Φz)

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 46

Aggiunge alla formula della PLSA, le variabili latenti Dirichlet.

α

β

α → Dirichlet preliminare su θd

β → Dirichlet preliminare su Φk

D → numero dei documentiNd → numero delle parole nel

documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti nel

documento “d”Z → argomento latente (topic)W → parola osservataΦk → distribuzione delle parole

generate dall’argomento latente “Z”

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 47

1. In questo modo, il modello coerente riesce a superare l’overfitting (generazione di rumore)

2. Genera tutti i collegamenti fra gli argomenti latenti e le parole osservate, basandosi sulla probabilità di correlazione e la distribuzione delle parole generate da quell’argomento.

Lettura semplificata by Stefano Griggio:“La probabilità che la parola W appartenga all’argomento Z all’interno di un documento è proporzionale a quanto l’argomento è già stato trattato nel documento e al numero di volte che la parola è stata usata per quell’argomento.”

LDA (Latent Dirichlet Analysis)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 48

Esempio correlazione semantica individuati tramite LDA

Parole chiavi e astronomia e geologia

La navetta spaziale ha viaggiato a lungo nello spazio prima di arrivare sulla luna. Una volta arrivata, le sonde esamineranno il suolo per cercare di stabilire se si trova del ghiaccio nelle profondità dei crateri lunari.

Il significato semantico delle parole chiave, anche se non indicate esplicitamente, vengono evidenziate dal topic di ogni singola frase.

HTMM (Hidden Topic Markov Model)

1. Il presupposto Markoviano sulla dinamica dell’argomento all’interno di un documento:

• Argomenti di frasi consecutive tendono a mantenersi (una sorta di INERZIA che lega i topic dalla frase a quella successiva). ALTA PROBABILITA’ → (1-ε)

• Bruschi cambiamenti di argomento fra frasi consecutive sono rari. BASSA PROBABILITA’ → ε

2. Esplicita rappresentazione per il topic di ogni frase:

• Distingue fra le diverse istanze di alcune parole in base al contesto (risolve il problema legato alla Polisemia)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 49

HTMM (Hidden Topic Markov Model)

Descrizione matematica del modello HTMM:

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 50

1. Scegliere θd ~ Dirichlet (α)

2. Scegliere Φz ~ Dirichlet (β)

3. Per N=1 … Nsd:

• Scegliere ψN ~ Binomiale (1) ψ1 settato sempre 1

• Se ψN == 0• ZN = ZN+1

• Altrimenti • Scegliere un argomento ZN ~ Multinomiale (θd)

HTMM (Hidden Topic Markov Model)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 51

W1 → Le parole “i’th”ψ1 → E’ l’argomento “i’th” redatto dalla lotteria ε → Pr(ψk – 1)α → Dirichlet preliminare su θd

β → Dirichlet preliminare su Φk

D → numero dei documentiNd → numero delle parole nel documento (d)K → numero di argomenti latentiθd → distribuzione di argomenti nel documento

“d”Z → argomento latente (topic) della frasi “i’th” W → parola osservataΦk → distribuzione delle parole generate

all’argomento latente “Z”

HTMM (Hidden Topic Markov Model)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 52

Segmentazione del documento in frasi e da queste viene generato il relativo argomento (topic)!

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 53

Alcuni cenni e anticipazioni sugli esperimenti condotti da Amit Gruber1. NIPS Dataset (1740 documenti, 1557 per pratica, 183 per test)

• Pre-elaborazione dei datiEstrazione parole dal vocabolario (J=12113, no stop words)Suddiviso il testo in frasi in corrispondenza di “.?!”

• Comparazione fra i modelli LDA, HTTM e VHTMM1 (una variante di HTTM dove ε=1)

VEDIAMO I RISULTATI …

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 54

K=100 N=10

Più bassa è la perplessità, migliore è il modello nella previsione delle parole invisibili.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 55

Migliori parole per argomento

HTMM

LDA

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 56

Conclusioni significative dell’esperimento

1. HTMM è un’altra estensione dell’LDA, che facilita la selezione delle parole assumendo parte della modellazione dinamica dell’argomento tipica delle catene di Markov.

2. Questa estensione porta ad un netto miglioramento della perplessità e rende possibili 2 deduzioni:

• Segmentazione in argomenti• Disambiguazione del senso della parola

3. Viene richiesto un grosso salvataggio dell’intero documento che deve essere inserito come input nell’algoritmo, grande capacità di calcolo richiesta

4. E’ applicabile esclusivamente su dati strutturati, in cui le frasi sono ben definite

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 57

Mappa mentale

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 58

Passiamo alla pratica!

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 59

Cosa fanno e cosa intendono fare i motori?

1. GOOGLE ne parla dal 2007, lo dimostra questo post: http://googleresearch.blogspot.com/2007/09/openhtmm-released.html sul Google Research Blog.

Inoltre ricordiamoci che Google ha acquisito Applied Semantics nel 2003 dove ha studiato approfonditamente la semantica per tematizzare gli annunci Adsense.

Alcuni interessanti brevetti sull’analisi semantica by GOOGLE:• http://tinyurl.com/396uole: LDA applicata alla IR per le

immagini• http://tinyurl.com/335l8jg: 2004 pubblicato nel 2010, sulla

correlazione semantica fra i termini di un documento

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 60

Cosa fanno e cosa intendono fare i motori?

Altri brevetti da studiare:• http://tinyurl.com/396uole: LDA applicata alla IR per le

immagini• http://tinyurl.com/335l8jg: 2004 pubblicato nel 2010, sulla

correlazione semantica fra i termini di un documento• http://tinyurl.com/36zlpdl: Identificazione delle unità semantiche

Paper dei Googlers:• http://tinyurl.com/34puxzr: test di correlazione semantica

tramite modelli LDA (molto interessante)• http://tinyurl.com/2w4o67x: Utilizzo del modello Multi-Grain LDA

(MG-LDA, un’ulteriore estensione dell’LDA)• http://tinyurl.com/35u47qx: Utilizzo del modello HTMM per la

segmentazione in argomenti di testo e voce

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 61

Cosa fanno e cosa intendono fare i motori?

2. Anche YAHOO! e BING (Microsoft) si stanno muovendo, col consueto ritardo:

• http://research.yahoo.com/pub/3279• http://research.microsoft.com/en-us/um/people/mattri/

papers/speech/hamm.pdf

Brevetti e pubblicazioni (Y! e Microsoft)• http://tinyurl.com/353299c: Meccanismo per il processo

automatico delle informazioni utilizzando modelli probabilistici LDA e HTMM.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 62

Cosa fanno e cosa intendono fare i motori?

3. Anche l’ingegneria informatica lavora sulla SEMANTICA (non solo in ambito search):

• PAM (Pachinko Allocation Models), studiati da tecnici IBM

• CTM (Correlated Topic Models)• IFTM (Independet Factor Topic Models)Cerca su Google! Ci sono video e relazioni davvero interessanti, dove si confrontano tutti questi modelli matematici.

Come vedi c’è gran fermento!

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 63

Ora però rendiamo le cose semplici e capiamone di più!

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 64

Il mio esperimento sulla SEOMantica

Obiettivo dell’esperimento: SEO vs SEOManticaMettere a confronto (in competizione) le tecniche SEO Tradizionali

(Fattori on-page: Title, H1, H2, Bold, Em, etc.) con testi non ottimizzati ma costruiti secondo logiche semantiche simili a quelle dei modelli legati all’LDA e HTMM.

Premessa: • Il test è tuttora in corso, per tanto si tratta di considerazioni

parziali da prendere con le dovute precauzioni• Effettuato su keywords nuove non competitive• Fonti non rilevabili (per ovvi motivi di “alterazione dei risultati”)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 65

Il mio esperimento sulla SEOMantica

Strumenti per il test:• Nr. 3 domini vergini (nuovi, registrati appositamente e con

numerazione progressiva)• Nr. 3 domini ad elevato TRUST (PR 5 e in forte tema)• Nr. 2 pagine vergini SEO per ogni dominio (pagine nuove)• Nr. 2 pagine vergini SEOMantica per ogni dominio (pagine nuove)• Nr. 6 index page per velocizzare l’indicizzazione e distribuire ≈ PR• Utilizzo di un browser vergine per il controllo del ranking• Utilizzo di 3 keywords principali composte da 2 termini altamente

competitivi uniti fra loro con un numero. Es.: web96semantico• Utilizzo di 3 keywords di controllo: inesistenti

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 66

Il mio esperimento sulla SEOManticaStruttura HTML pagine SEO:

Keyword primaria

Keyword di controllo

Keywords TRUST

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 67

Il mio esperimento sulla SEOManticaStruttura HTML pagine SEOMantica:

Keyword primaria

Keyword di controllo

Keywords TRUST

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 68

Il mio esperimento sulla SEOManticaProcesso di individuazione semantica (semplificata all’osso) del topic by Dechigno

Come posso scoprire le correlazioni esistenti per Google sulle varie parole chiave? Ecco gli strumenti che abbiamo a disposizione senza fondere il cervello nella risoluzione di modelli matematici complessi:

REVERSE ENGINEERING• Google Adwords Keywords Suggestion - LINK• Suggerimenti per le ricerche correlate – LINK• Espansione della Query – LINK• Vocabolario dei sinonimi - LINK

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 69

Il mio esperimento sulla SEOManticaUltime note prima di passare ai risultati ottenuti

• Le pagine SEO e le pagine SEOMantica hanno tutte lo stesso numero di parole all’interno del documento (nelle rispettive competizioni). Esempio: PagSEO1 vs PagSEOMantica01 = 96words

• Le coppie di pagine SEO sono pressoché identiche (studiate appositamente per evitare i filtri antiduplicazione, ma nella sostanza sono UGUALI)

• Le coppie di pagine SEOMantica sono differenti a) versione SEOMantica base = utilizzo di quasi tutti i

sinonimi/correlazioni ma non organizzati in frasi significantib) versione SEOMantica avanzata = utilizzo corretto delle

correlazioni semantiche (minor quantità ma maggior qualità)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 70

I risultati

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 71

Il mio esperimento sulla SEOManticaI risultati

• Giorno 0: pubblicazione delle pagine, linking alle pagine index da portali Trust ad elevata spiderizzazione, nessun risultato in SERP.

• Giorno 1: Indicizzate pagine di 2 su 3 dei domini in TRUST e solo 1 pagina indicizzata di 1 su 3 domini VERGINI. Il ranking in SERP per le keywords primaria e di controllo sono: PagSEO1 e 2 – PagSEOMantica2 e 1

• Giorno 2: Indicizzate tutte le pagine (6x4 = 24 pagine), filtri antiduplicazione superati, inizia la rilevazione di risultati attendibili archiviati in forma tabellare…

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 72

Il mio esperimento sulla SEOManticaI risultati

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 73

Il mio esperimento sulla SEOManticaI risultati statistici

> Equilibrio> FORTE Squilibrio

> 61% vince A-1Base VS A-2Avanz (dato statistico)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 74

Il mio esperimento sulla SEOManticaI risultati osservabili e evidenti

> Ottime performance delle pagine A (SEOMantica) su keywords TRUST

> Buoni risultati delle pagine A-2Avanz (SEOMantica)

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 75

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

1. Il Trust ha ancora la sua bella rilevanza, a parte qualche caso sporadico e temporaneo i siti TRUST hanno sempre avuto posizionamenti migliori dei siti VERGINI. Anche su keywords nuove e mai trattate.

2. L’ottimizzazione classica del contenuto (PagineSEO) ha ancora una buona rilevanza sul ranking, specialmente quando le keywords sono NUOVE, lo dimostra il fatto che nella maggior parte delle SERP con le keywords primarie e keywords di controllo le PagineSEO hanno superato le PagineSEOMantica

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 76

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

3. Le PagineSEOMantica risultano più performanti nel momento in cui andiamo a verificare il ranking anche per keywords trust, questa è un’OTTIMA INDICAZIONE riguardo alla comprensione semantica dei topic e della relativa attribuzione di valore ai fini del RANKING.

4. Gli algoritmi di GOOGLE sulla semantica ESISTONO e competono con gli altri fattori nella determinazione del ranking, ma non sono ancora affinati. Lo dimostra il forte scompenso nel prediligere con un 61% di preferenza le PagineSEOMantica A-1Base, dove siamo in presenza di topic ricchi di correlazioni semantiche ma non significanti.

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 77

Il mio esperimento sulla SEOManticaConsiderazioni sui risultati ottenuti dal TEST

5. Il Trust del dominio, aiuta a bilanciare l’algoritmo semantico, lo dimostrano i dati rilevati in equilibrio fra loro sui domini TRUST, cosa che non si è verificata sui siti VERGINI.

6. Questo test è ancora in corso e quindi ci saranno sicuramente aggiornamenti e forse anche qualche colpo di scena…

Ora un’ultima domanda…

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 78

… se potessi, davvero torneresti indietro?

SEOMantica

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata La SEOMantica - Page 1 79

Special thanks to:

Amit GruberFrancesco Tinti

Franco LucchettiGiorgio Tarverniti

Giuliano De DanieliMarco Quadrella

Silvia LandoStefano Griggio

(* Rigorosamente in ordine alfabetico )

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Skype: dechigno

Messenger: dechigno@hotmail.it

Google: dechigno@gmail.com

Twitter: http://twitter.com/dechigno

Facebook: Michele De Capitani

Diventa mio amico su:

Slideshare: http://www.slideshare.net/dechigno/

Youtube: http://www.youtube.com/user/dechigno

Sito: http://www.prima-posizione.it/

Blog: http://blog.prima-posizione.it/

Contatti

La SEOMantica - Page 1 80

© Prima Posizione Srl – Vietata la copia e la distribuzione non autorizzata

Internet è un sistema Binarioo sei 1 o sei

0 !

…tante Grazie!

La SEOMantica - Page 1 81