Translate

sabato 24 settembre 2016

MOTORI DI RICERCA


I siti presenti sul web risultano essere oltre 1 miliardo (fonte: Internet Live Stats).
Come possono gli oltre 3 miliardi di utilizzatori del web riuscire a trovare il sito che gli interessa?
Un ruolo importantissimo in questo contesto lo svolgono i motori di ricerca. Infatti le statistiche parlano chiaro: il 93 % (fonte: Search Engine Journal) dell'esperienza degli utenti online inizia proprio con una query (ricerca) su uno dei tanti search engine (motori di ricerca) messi a disposizione dal web.
Ma come funzionano i motori di ricerca?
Proviamo a scorprilo in questo articolo!

Tutti i motori di ricerca svolgono tre funzioni fondamentali:

  1. Scansione dei documenti online;
  2. Indicizzazione nei loro data center;
  3. Posizionamento dei documenti scansionati nelle pagine dei risultati.
Per capire la complessità di questi tre passaggi basti pensare che Google (certamente il motore di ricerca più conosciuto nel mondo) dichiara:
  • Di avere un totale di documenti scansionati che supera di gran lunga i 100 milioni di gigabyte,
  • Che per realizzarne l'indicizzazione ci sono volute oltre 1 milione di ore di elaborazione
  • Che ogni ricerca degli utenti effettuata nel suo search engine percorre, mediamente, una distanza di 2.400 km tra i vari data center ad una velocità paragonabile a quella della luce.
Per capire la logica dei motori di ricerca dobbiamo entrare nel dettaglio delle tre funzioni elencate precedentemente.

Lo faremo semplificando molto i processi e avendo come riferimento ciò che avviene dietro il motore di ricerca Google, sapendo che gli altri search engine (Yandex, Baidu, Bing, etc.) potrebbero funzionare in modo un po' diverso, ma con le stesse logiche. 
Procediamo.

SCANSIONE
È il primo step con il quale il motore di ricerca entra in contatto con una pagina web presente su internet. 
Per Google la scansione parte da uno scheduler. Dobbiamo immaginarlo come un'agenda in cui sono segnate le pagine web da scansionare, con che frequenza e quante pagine scansionare per un determinato sito. Questo lavoro è facilitato dalle sitemap. 
Lo scheduler istruisce il crawler di Google conosciutop con il nome di Googlebot
Questo non è altro che un programma che esegue le scansioni in base a quanto stabilito dallo scheduler. Rileva i link delle varie pagine web e li invia nuovamente allo scheduler per organizzare le successive agende di scansione.
Googlebot inoltre identifica tutti gli elementi presenti nelle pagine web scansionate e li invia ai data center per la fase successiva dell'indicizzazione.

INDICIZZAZIONE
Ogni elemento di pagina è identificato da un codice univoco (ID). A questo punto viene usato quello che è chiamato indice invertito: l'organizzazione dei documenti non parte dal documento scansionato ma da parole chiave per le quali viene indicata, tra le altre cose:
  1. la presenza nei documenti scansionati, 
  2. la frequenza con cui appare in ogni documento.
  3. la posizione in cui appare in ogni documento.
In questo modo tutti i documenti sono pronti per essere consultati nella fase successiva del posizionamento.

POSIZIONAMENTO 
Il cuore del posizionamento o ranking è costituito da un algoritmo che nello stato attuale delle cose analizza, per Google, oltre 200 fattori per ricercare e offrire i risultati migliori per la query dell'utente.
Tra gli elementi considerati da questo algoritmo abbiamo certamente:
  1. La categoria di ricerca
  2. Lo storico delle ricerche effettuate dall'utente
  3. L'area geografica da cui proviene la ricerca
  4. La presenza, nei documenti indicizzati, delle parole utilizzate nella ricerca
  5. La credibilità e autorevoleza del sito internet in cui è presente il documento indicizzato.
Sulla base di tutti questi fattori il motore di ricerca individua i risultati più attinenti alla ricerca effettuata dall'utente e li classifica per ordine d'importanza in quella che viene chiamata SERP (search engine results page) cioè la pagina dei risultati. 

L'algoritmo di Google subisce continue trasformazioni finalizzate a rendere sempre più alto il livello qualitativo dei risultati della SERP.