Paocavo's SEO Blog

Indicizzazione, posizionamento e text-mining sui motori di ricerca

Nuovo brevetto di Google sulle Top Keywords

sabato 28 marzo 2009

pictures/letter-patent.jpg

Lo scorso 12 Marzo Google ha depositato un nuovo brevetto, relativo alle modalità di identificazione delle "top keywords" presenti nei vostri ipertesti.





Il nuovo brevetto descrive le modalità in cui Google assegnerà determinate keywords ai siti web indicizzati.
Tale modalità si basa, come già anticipato in precedenti brevetti, a nuovi algoritmi di indicizzazione contemplanti non più singole parole ma gruppi di parole o intere frasi. Il nuovo metodo descritto permetterà ai gestori di contenuti "seo-enabled" di apportare keywords strategiche addizionali.

Come farà Google a trovare le parole chiave più rilevanti del tuo sito web?

Tutti i principali motori di ricerca indicizzano le pagine web sulla base delle singole parole che trovano sulle pagine (dopo averle opportunamente scremate da stop-words generiche e specifiche per ogni cluster).
Se però alcune parole o gruppi di parole o intere frasi appaiono insieme sulla stessa pagina, Google assegnerà un topic a tale set di parole se tutto ciò accede in un consistente  numero di documenti.

Google dispone di miliardi di pagine web nel proprio indice, pertanto se rileva che molte pagine web contengono sia la parola "Paris" che la parola "Hilton" allora potrebbe supporre che queste 2 termini siano correlati ed identifichino un nuovo concetto. Le altre parole presenti su queste pagine permetteranno a google di caratterizzare tale concetto fino a scoprire che si tratta di una donna (e che donna ;)) e non di una città ed un albergo.

La fase più critica ed interessante del brevetto è quella relativa alla modalità di determinazione delle frasi più rilevanti.
Si parla di frasi "buone" e frasi "cattive" (o inutili) in base al loro "potere predittivo". Le frasi buone sono, ovviamente, quelle che ricorrono più frequentemente in tutto il corpus di documenti analizzati e/o che si distinguono per la formattazione (bold, italic, blockquote, ...) o per la presenza di marcatori grammaticali (virgolette, virgole, punti, parentesi, ...).
Non solo, una frase è tanto più "buona" quanto più ...predice altre buone frasi.
Ad esempio la frase "Il presidente degli Stati uniti d'America" predice altre frasi/concetti del tipo "Barak Obama" o "George Bush".
D'altro canto le frasi cattive sono quelle che hanno un basso potere predittivo, ad esempio: "è sceso giù per le scale", perchè connesse a troppe frasi tra loro non relazionate.

Il brevetto di Google specifica che potrebbe anche pianificare di comunicare al webmaster le top keywords rilevate insieme a consigli su come eventualmente modificarle o estenderle!

Condividi