Capire Google per spiegarlo ai bambini

Entra in Giunti Scuola

Hai dimenticato i dati di accesso?

Non sei ancora registrato?

Entra anche tu a far parte della più grande community di insegnanti italiani sul web!

Perché dovrei registrarmi?

Array
(
    [cmg_userData] => Array
        (
            [localhost%%gs_prod] => Array
                (
                    [profile] => ANONYMOUS
                    [groups] => Array
                        (
                            [-2] => SanchoEverybody
                        )

                )

        )

    [cmg_channels] => Array
        (
            [FK7CRHXV] => Array
                (
                    [type] => method
                    [methodName] => cmg_processURL
                )

            [AFINDXFN] => Array
                (
                    [type] => method
                    [methodName] => sancho_Object_showUp
                )

            [N53XQYN5] => Array
                (
                    [type] => method
                    [methodName] => sancho_Object_showUp
                )

        )

    [cmg_lang] => 
)

È possibile spiegare ai bambini come funziona Google? E perché dovremmo farlo? Qualche notizia utile per genitori e insegnanti. 

Google spiegato ai bambini

Di un robot chiamato Google e dei suoi algoritmi

I data center di Google contengono una quantità di dati equivalente a quella di tremilacinquecento miliardi di bibbie, che impilate coprirebbero la distanza da qui al sole. Come fa Google a darci (a noi e ad altre 50.000 persone nello stesso istante) una risposta in meno di un secondo? In base a quali criteri mette in fila le risposte, perché considera una pagina più rilevante di un'altra e ce la propone ai primi posti dei risultati di una ricerca? E perché tutto questo dovrebbe interessarci?

Partiamo dall'ultima domanda. Google è lo strumento più utilizzato per la ricerca di informazione, anche in ambito educativo. Ne apprezziamo quotidianamente la straordinaria efficienza e semplicità. È lo strumento che più di ogni altro fornisce risposte alle nostre domande, mettendoci in comunicazione con le sorgenti dalle quali attingiamo informazioni e conoscenza. Provare a capire "come funziona" può aiutarci come prima cosa a utilizzarlo meglio. Ma soprattutto a non dare per scontate le logiche con le quali ci propone quei risultati in quell'ordine: in fondo, quando chiediamo un consiglio a qualcuno, attribuiamo implicitamente un valore alla risposta in base a quanto riteniamo informata, obiettiva e autorevole la persona a cui ci rivolgiamo. Cosa possiamo dire in proposito di un robot chiamato Google e dei suoi algoritmi?

La democrazia sul Web funziona?

"Google valuta l'importanza di ogni pagina web utilizzando più di 200 segnali e svariate tecniche, compreso l'algoritmo brevettato PageRank™, in grado analizzare i siti che sono stati "votati" come migliori fonti di informazioni da altre pagine sul Web".  Così Google descrive il proprio modus operandi, in un paragrafo della sua "filosofia" significativamente intitolato La democrazia sul Web funziona.

Abbiamo dunque a che fare - secondo Google - con un "algoritmo democratico".

In una democrazia è importante capire cosa si vota, chi vota e come lo si fa. Cosa significa per Google che una pagina è stata "votata" più di un'altra? Quando mi capita di discutere di questo argomento, la risposta più frequente (dopo "boh") è "mah, saranno le visite che riceve quella pagina, no?".

No?

No.

Il meccanismo di "voto" primario di Google, quello che Google utilizza per assegnare un "valore" ad una pagina e che ha reso famoso il suo algoritmo, è il numero di link a quella pagina, non il numero di accessi che la pagina riceve.

Torniamo su questo fra poco, ma in pratica il principio alla base è questo: "se a una certa pagina puntano tante altre (riceve tanti link), allora questa pagina contiene probabilmente qualcosa di rilevante".

E come fa Google - uno potrebbe chiedersi - a contare tutti i link? Semplice: Google scandaglia continuamente la rete servendosi dei cosiddetti crawler, dei programmi (noti anche come spider, ragnetti, curiosi e meticolosi) che visitano le pagine del Web, spesso anche più di una volta al giorno, per riportare a casa una grande quantità di informazioni. Fra cui quelle relative ai link contenuti in una certa pagina: quanti sono, a quali altre pagine puntano.

Bruto, Cesare, l'imperatore e l'avvocato: questione di link

Facciamo un esempio. Supponiamo di avere su Wikipedia tre pagine fra loro collegate, le pagine dal titolo "Imperatore romano", "Giulio Cesare" e "Marco Giunio Bruto", per le quali:

  • La pagina "Imperatore romano" contiene un link verso la pagina "Giulio Cesare"
  • La pagina "Giulio Cesare" contiene un link verso la pagina "Imperatore romano"
  • La pagina "Marco Giunio Bruto" contiene un link verso la pagina "Giulio Cesare".

Quale pagina riceve il numero maggiore di link? Il conto è facile: è la pagina "Giulio Cesare" alla quale puntano le due altre pagine. Mentre "Imperatore romano" ha un solo link e la pagina dedicata a Bruto nessuno.

Lo spider di Google (che ha anche un nome, si chiama Googlebot) riporterà indietro (poi vediamo meglio dove) queste informazioni:

  • C'è una pagina (chiamiamola P1) dal titolo "Giulio Cesare" alla quale puntano 2 altre pagine
  • C'è una pagina (P2) dal titolo "Imperatore romano" alla quale punta 1 altra pagina
  • C'è una pagina (P3) dal titolo "Marco Giunio Bruto" alla quale non punta alcuna pagina

Per Google questo significa che, in valore assoluto, la pagina "Giulio Cesare" conta un po' più delle altre. Ma cosa accade se un giorno un avvocato un po' narcisista di nome Giulio Cesare decide di pubblicare su Wikipedia una pagina (P4) anche quella dal titolo "Giulio Cesare" che narra non dell'imperatore romano ma delle sue imprese nel foro? Molto probabilmente, la pagina di "Giulio Cesare avvocato" avrà molte meno pagine che puntano ad essa rispetto a quella di "Giulio Cesare imperatore", come nel caso illustrato dalla figura seguente.

Dal punto di vista di Google, questo significa che, se deve mettere in ordine di importanza tutte le pagine "Giulio Cesare" quella dell'imperatore verrà prima di quella dell'avvocato, con buona pace di quest'ultimo. Per Google, "mettere in ordine di importanza" significa assegnare a ogni pagina un punteggio, in relazione al suo contenuto. E questo punteggio, che prende il nome di Page Rank dall'algoritmo omonimo che lo calcola, dipende, come accennato prima, dal numero dei link che una pagina riceve.

L'indice di Google

Abbiamo capito fin qui che Google è in grado di scandagliare la rete con i suoi crawler, di "leggere" le pagine del Web e di riportare indietro una serie di informazioni che consentono di attribuire un punteggio, un valore, il Page Rank, ad una pagina. Per capire fino in fondo come stanno le cose dobbiamo introdurre un terzo fondamentale elemento: l'indice.

L'incessante lavoro dei crawler serve a costruire e a tenere aggiornato un enorme indice. "Ricercare in Google" significa in effetti "ricercare nell'indice di Google". Torniamo al nostro esempio: i dati recuperati dai crawler, di ritorno dalle loro esplorazioni, consentono di costruire una tabella (appunto un indice, concettualmente simile a un indice analitico) che dice, in relazione a determinate parole, quali sono le pagine in cui queste parole si trovano (per semplicità consideriamo solo il titolo, il concetto di base non cambia), come nell'esempio qui di seguito.

Parole chiave Si trova in
Giulio Cesare Pagine P1 (punteggio: 2) e P4 (0)
Imperatore romano     Pagina P2 (1)
Marco Giunio Bruto Pagina P3 (0)

Quando viene effettuata la query "Giulio Cesare", per rispondere Google cerca nell'indice e si accorge che ci sono due pagine, P1 e P4. E restituisce di conseguenza le due pagine nell'ordine determinato dal Page Rank (2 per la pagina P1 e 0 per la pagina P4), e in definitiva dal numero di link che puntano verso quella pagina - l'indice di "popolarità" che per Google è indice di rilevanza.

Buona reputazione e buon appetito

Naturalmente il reale algoritmo di Google non è così semplice. Se la popolarità di un sito dipendesse unicamente dal numero di link che le sue pagine ricevono, per aumentare il Page Rank - potrebbe osservare qualcuno - basterebbe creare artificialmente pagine che contengono molti link verso il sito che vogliamo promuovere et voilà... apparirebbe nei primi posti della ricerca!

In realtà, per assicurare il massimo equilibrio e rendere difficoltose manipolazioni artificiali del ranking, Google tiene conto di due altri aspetti fondamentali. Primo, non tutti i link contano ugualmente: fermo restando il fatto che ricevere un link contribuisce alla crescita del Page Rank di una pagina, ricevere un link da una pagina "importante" (una pagina con alto Page Rank) dà più punteggio che riceverlo da una pagina con un Page Rank basso. Secondo, il potere di una pagina di incrementare il punteggio di quelle a cui punta viene suddiviso fra tutti i suoi link.

L'immagine sopra, tratta dal paper originale in cui i fondatori di Google, Sergey Brin e Larry Page, introdussero l'algoritmo PageRank, illustra logicamente questi concetti. La pagina con Page Rank (PR) 100 contiene due link, che "valgono" quindi 100/2 = 50 "punti". La pagina con PR = 9 contiene tre link, che contribuiscono per 9/3 = 3 "punti" alle pagine che li ricevono. Motivo per cui la pagina in alto a destra ha 53 punti e la pagina in basso a destra 50 (riceve un link solo da quella con PR = 100).

Complicato? Matematicamente sì, concettualmente forse un po' meno. Se ci pensiamo, le logiche dell'algoritmo di Google richiamano concetti di "reputazione" e "raccomandazione" (nel senso di consiglio, non di "spintarella"), dove la "reputazione" può essere assimilata al punteggio di una pagina (al suo Page Rank) e la "raccomandazione" al link che ci "invia" verso qualcosa o qualcuno.

Consideriamo il caso nella figura: una persona di cui mi fido mi propone un paio di alternative, un'altra - anch'essa di fiducia - me ne propone dieci. Una invece di cui non mi fido mi indica un solo posto per una buona cena. Probabilmente, seguiremmo il consiglio della persona di cui ci fidiamo che ci propone il numero minore di alternative, perché "spendendo" la sua reputazione su un numero minore di ristoranti, in qualche modo li qualifica maggiormente. Mentre non daremmo ascolto alla persona di cui non ci fidiamo anche se ci ha proposto un solo ristorante.

Insomma, la genialità di Google è quella di aver creato un algoritmo per misurare con un punteggio la "reputazione" di una pagina rispetto a una chiave di ricerca in funzione del numero di "raccomandazioni" (link) e della reputazione delle pagine da cui questa raccomandazione proviene.
In pratica, la determinazione del punteggio di una pagina è legata a moltissimi altri fattori (più di duecento, secondo Google che li custodisce gelosamente), che includono ad esempio indicatori basati sul contenuto e la sua presentazione (leggibilità sui vari dispositivi, ricorrenze delle parole chiave..), su aspetti più tecnici (velocità di caricamento), sul numero di click in corrispondenza a una determinata query... ma i fattori di base rimangono quelli definiti dai link, dal loro numero, dalla loro qualità.

Continua...

In base a quello che abbiamo visto prima, possiamo dunque immaginare Google come un sistema costituito da:

  • un esercito di crawler che scandagliano continuamente il Web;
  • un enorme indice, costruito e aggiornato in base alle informazioni recuperate dai crawler;
  • un criterio per ordinare le pagine in relazione a una ricerca...

Ogni volta che digitiamo qualcosa nella famosa casella di ricerca di Google, la ricerca avviene dunque nell'indice, non (per chi avesse ancora questo dubbio) "nelle pagine" sparse per il Web. L'indice "è" Google, risiede "sui server" di Google, ed è organizzato in una maniera talmente efficiente che gli algoritmi che lo attraversano sono in grado di restituire risultati in mezzo secondo.

Possiamo immaginarci un'attività in classe che simula e spiega questo meccanismo? Penso di sì. Ne parleremo in un prossimo post. Intanto, se avete idee al proposito, potete aggiungere un commento o scrivermi qui... a presto!

Condividi:

Commenti

Solo gli utenti registrati possono scrivere commenti.
Entra in Giunti Scuola