Cos’è il crawl budget e come migliorarlo

Tutti noi oggi usiamo Google, spesso anche con la ricerca vocale, per cercare informazioni e soprattutto ottenere risposte ai nostri dubbi o curiosità.

Ma in che modo Google produce quei risultati? Come arriva a definire quale pagina rispetto a un’altra risponde meglio alle richieste di un utente?

Scopriamolo insieme in questo articolo.

Come funziona la ricerca di Google? Scansione, indicizzazione e posizionamento di un sito

Google utilizza un algoritmo di ricerca per trovare i risultati più rilevanti per le query degli utenti. L'algoritmo tiene conto di molti fattori, tra cui la pertinenza del contenuto della pagina, la popolarità del sito e la presenza di parole chiave pertinenti.

In particolare Google utilizza un algoritmo chiamato PageRank, che valuta la qualità e l'importanza delle pagine web. PageRank utilizza i link tra le pagine per determinare il loro valore: una pagina con molti link che puntano verso di essa avrà un valore più alto rispetto a una pagina con pochi link.

Inoltre Google utilizza anche il machine learning per capire il contesto e la semantica delle parole chiave utilizzate dall'utente e mostrare i risultati più pertinenti.

Oltre a questo Google utilizza anche vari segnali come la posizione geografica dell'utente, la lingua e la cronologia di ricerca per personalizzare i risultati di ricerca.

In sintesi la ricerca di Google utilizza un algoritmo complesso che tiene conto di molte variabili per mostrare i risultati più rilevanti per l'utente.

La scansione (crawling)

La scansione (nota anche come crawling) è un processo fondamentale per il funzionamento di Google. Il crawling consiste nel visitare e analizzare i siti web per raccogliere informazioni su di essi. Queste informazioni vengono poi utilizzate per creare gli indici di Google, che vengono utilizzati per fornire risultati di ricerca pertinenti agli utenti.

Il processo di scansione inizia con Google che invia i propri bot (noti come spider o crawler) per visitare i siti web. I bot seguono i link presenti sulle pagine per navigare da un sito all'altro, raccogliendo informazioni su ogni pagina visitata. Durante questo processo, i bot acquisiscono informazioni come il testo delle pagine, le immagini e i video, i metadati e i link presenti sulle pagine.

Google utilizza poi queste informazioni per creare una copia della pagina web (nota come versione cache) e per determinare la pertinenza e l'importanza della pagina rispetto a una determinata query di ricerca.

Il processo di crawling è in continua evoluzione, con Google che aggiorna regolarmente i propri algoritmi per migliorare la qualità dei risultati di ricerca e per evitare il crawling di pagine non pertinenti. Inoltre, Google utilizza anche i feedback degli utenti per capire se una pagina web non è più valida e rimuoverla dai propri indici.

In sintesi, la scansione di Google è un processo fondamentale per il funzionamento del motore di ricerca che permette a Google di raccogliere informazioni sui siti web e fornire risultati di ricerca pertinenti agli utenti.

L’indicizzazione (indexing)

L'indicizzazione (indexing) su Google è il processo di raccolta, analisi e archiviazione del contenuto di un sito web da parte di Google. Durante questo processo, Google utilizza i propri bot (noti come spider o crawler) per visitare i siti web, raccogliere informazioni sulle pagine e creare una copia della pagina web (nota come versione cache). Queste informazioni vengono quindi utilizzate per creare gli indici di Google, che vengono utilizzati per fornire risultati di ricerca pertinenti agli utenti.

Una volta che una pagina è stata indicizzata, essa può essere visualizzata nei risultati di ricerca di Google. Ciò significa che quando un utente effettua una ricerca utilizzando parole chiave pertinenti, la pagina indicizzata può essere visualizzata nei risultati di ricerca.

Inoltre, l'indicizzazione permette a Google di comprendere la struttura e il contenuto del sito web, così come il modo in cui le pagine sono correlate tra loro. Ciò consente a Google di fornire risultati di ricerca più pertinenti e di migliorare l'esperienza degli utenti.

In sintesi, l'indicizzazione è il processo attraverso cui Google raccoglie, analizza e archivia il contenuto di un sito web per fornire risultati di ricerca pertinenti agli utenti. Una volta che una pagina è stata indicizzata, essa può essere visualizzata nei risultati di ricerca di Google.

Il posizionamento (ranking o serving)

Il posizionamento (noto anche come ranking o serving) è il processo attraverso cui Google determina la posizione di una pagina nei risultati di ricerca per una determinata query. Il posizionamento si basa sull'algoritmo di ranking di Google, che utilizza una serie di fattori per determinare la pertinenza e l'importanza di una pagina rispetto a una determinata query.

I fattori utilizzati dall'algoritmo di ranking di Google possono includere la pertinenza del contenuto della pagina, la popolarità del sito, la presenza di parole chiave pertinenti, la qualità del link che puntano verso la pagina, la qualità della user experience, tra gli altri.

Il posizionamento è in continua evoluzione, con Google che aggiorna regolarmente i propri algoritmi per migliorare la qualità dei risultati di ricerca e per evitare il posizionamento di pagine non pertinenti. Google utilizza anche i feedback degli utenti per capire se una pagina web non è più valida e aggiornare il posizionamento.

In sintesi, il posizionamento è il processo attraverso cui Google determina la posizione di una pagina nei risultati di ricerca per una determinata query, utilizzando un algoritmo di ranking che tiene conto di diversi fattori di pertinenza e importanza. Il posizionamento è in continua evoluzione e Google utilizza i feedback degli utenti per migliorare la qualità dei risultati di ricerca.

Mettere tutto insieme

Per poter indicizzare, cioè inserire nell’indice del suo database le risorse di un sito web, Google deve prima eseguire una scansione di queste risorse.

La scansione viene effettuata attraverso un crawler, cioè un software chiamato bot, Googlebot nel caso di Google. Il bot ha il compito di recuperare tutti gli URL di un sito.

Per URL si intendono non solo le pagine web di un sito, ma anche le immagini, i documenti pdf e qualsiasi documento raggiungibile via web.

Per eseguire questa scansione, il bot deve “arrivare” su un URL del sito e può giungerci:

Se hai fatto conoscere a Google l’esistenza delle tue pagine, tipicamente tramite l’invio di una mappa del sito in formato XML su Search Console.

Se un sito diverso dal tuo ha un link verso il tuo sito.

Atterrato su uno dei tuoi URL, Googlebot inizia la scansione passando di URL in URL grazie alla rete di link presenti nel sito.

Il crawl budget

Nel 2017 Google ha reso noto attraverso una comunicazione ufficiale, l’esistenza del concetto di crawl budget, definendolo come “il numero di URL che Googlebot può e vuole scansionare”.

Ciò significa che il bot di Google ha un budget di tempo entro il quale eseguire la sua scansione per un sito.

Ora, mentre per siti con un basso numero di contenuti ha poco senso preoccuparsi di questo parametro, per siti con un numero elevato di risorse come portali di news o e-commerce, siccome questo tempo è limitato, bisogna “indirizzare” il crawler verso le risorse più importanti del sito.

Come ottimizzare il crawl budget di Google?

Il crawl budget è la quantità di risorse che Google utilizza per scansionare e indicizzare un sito web. Il crawl budget è limitato e se non viene utilizzato in modo efficiente, può portare a una scarsa indicizzazione del sito web e a risultati di ricerca non pertinenti.

Come puoi “richiamare l’attenzione” del crawler di Google in modo che concentri la sua scansione sulle risorse più importanti del tuo sito?

Ci sono diverse strategie che è possibile utilizzare per ottimizzare il crawl budget di Google:

Utilizzare un file sitemap: Un file sitemap è un file XML che elenca tutte le pagine del sito web e aiuta i crawler di Google a capire la struttura del sito. Includere un file sitemap nel proprio sito web può aiutare Google a scoprire e indicizzare più facilmente le pagine importanti.
Utilizzare i tag rel=canonical: I tag rel=canonical indicano ai crawler di Google quali pagine sono duplicate e quali sono le versioni originali. Ciò consente a Google di evitare di sprecare il crawl budget indicizzando pagine duplicate.
Utilizzare i tag robots.txt: I tag robots.txt indicano ai crawler di Google quali pagine del sito web non devono essere scansionate. Ciò consente a Google di evitare di sprecare il crawl budget indicizzando pagine non importanti o duplicate.
Utilizzare i link interni: Utilizzare link interni per collegare le pagine del sito web tra loro può aiutare i crawler di Google a navigare il sito web e a scoprire più facilmente le pagine importanti.
Utilizzare i link esterni: Utilizzare link esterni per collegare il proprio sito web con siti web di qualità può aiutare i crawler.

Sebbene non si applichi a tutte le tipologie di siti web, l’ottimizzazione del tempo che il crawler mette a disposizione per scansionare il tuo sito è un’attività molto importante per permettere al bot di capire quali sono i contenuti da valorizzare nelle sue pagine dei risultati (o SERP).

Se vuoi effettuare un’analisi del tuo sito e per sfruttare le sue potenzialità al meglio, contattaci senza impegno, i professionisti della nostra Web Agency sono a tua completa disposizione per migliorare le performance del tuo sito in modo da farlo rientrare tra le prime posizioni di Google.