Crawling Google: cos’è e come funziona

Google crawling

Crawler e Crawlability SEO: la scansione dei contenuti web secondo Google

Ti sei mai chiesto in che modo riesce Google a conoscere le pagine di un sito internet? Google trova i nuovi contenuti di un sito web inviando i suoi crawler noti anche come Googlebot.

Il Crawler (chiamato anche Bot o Spider) è un programma di scansione automatizzato che consente ai motori di ricerca di analizzare i contenuti e le informazioni di un sito web. I contenuti scansionati vengono in prima battuta archiviati e dopo la valutazione algoritmica vengono classificati e posizionati nelle pagine dei risultati di ricerca.

Crawability è un termine SEO che serve a determinare quanto sia facile per il crawler analizzare le informazioni contenute in una pagina web.

Oggigiorno il Crawling Google è in grado di scansionare: HTML, file audio, PDF ed è anche capace di comprendere il significato delle immagini.

L’importanza del Google crawling per i motori di ricerca

Per la SEO, il Crawling permette di indicizzare i contenuti di un sito web e per questo motivo influisce sul numero di click che un sito internet può ricevere. Se la frequenza di scansione è elevata, il crawler può cogliere le informazioni del sito Web in modo più accurato e le possibilità di indicizzare tutti contenuti sono maggiori. Al contrario, se la frequenza di scansione è bassa, è più difficile per i crawler raccogliere informazioni sul sito web e posizionare i contenuti nelle pagine dei risultati di ricerca.

Come migliorare il crawling per i motori di ricerca

Senza crawling non avviene indicizzazione e posizionamento su Google ma la potenza è nulla senza il controllo. Per velocizzare il processo di scansione crawling è necessario far sì che il sito web soddisfi struttura, parametri e metadati SEO. Ecco cosa fare per velocizzare il processo di scansione per i motori di ricerca:

  1. Inserisci URL semplici di facile comprensione: Google consiglia di ” mantenere una struttura URL semplice “, quindi di non creare gerarchie URL non necessarie.
  2. Ottimizza i link interni: un link interno è un collegamento ipertestuale che punta ad un’altra pagina del tuo sito web. Il crawler di Google utilizza i collegamenti per navigare ed eseguire la scansione del sito web. Inoltre, quando Google esegue una scansione è in grado di valutare la pertinenza tra il link e la pagina di destinazione. Ricorda che i link inseriti “senza pertinenza” possono comportare una svalutazione SEO.
  3. Elimina le pagine duplicate: i contenuti duplicati sono pagine web che condividono le stesso intento di ricerca. Per Google, le pagine duplicate sono classificate come ” contenuti di bassa qualità” e talvolta possono causare anche penalizzazioni algoritmiche. Per risolvere il problema dovuto a possibili contenuti duplicati ti consiglio di impostare correttamente il canonical tag.
  4. Riduci il peso delle pagina web: i crawler scansionano le pagine web e registrano i dati nei database. Se la dimensione del file è importante, il carico sul crawler sarà elevato e di conseguenza diminuirà il numero di pagine scansionate. Le pagine web includono file immagine, e risorse CSS e JavaScript. Riduci le dimensioni di file e risorse comprimendoli e mantieni il codice sorgente più pulito e ordinato possibile.  Inoltre, comprimere file ed eliminare risorse inutili ti permetterà di velocizzare il sito web, a migliorare l’user experience e a diminuire la frequenza di rimbalzo.
  5. Configura i Breadcrumb: i breadcrumb (briciole di pane) sono i collegamenti che consentono agli utenti di comprendere la struttura gerarchica di una pagina web e di facilitare il percorso di navigazione su un sito internet. I breadcrumb solitamente si trovano nella parte superiore della pagina appena sotto la barra di navigazione.
  6. Aggiorna i contenuti: la pubblicazione di nuovi contenuti farà sì di rafforzare l’autorevolezza del sito web e di aumentare la frequenza di scansione del crawl.
  7. Ottimizza il crawl budget: stabilisci una gerarchia di navigazione e posiziona in cima i contenuti più importanti. Inoltre puoi limitare e bloccare la scansione di alcuni contenuti utilizzando il Meta Tag Noindex o inserendo istruzioni specifiche sul file Robots.txt.
  8. Ottimizza il file Robots.txt: il file robots.txt indica ai crawler quali percorsi URL devono essere scansionati. Per convalidare le istruzioni inserite nel file Robots puoi avvalerti dello strumento ufficiale di Google: tester robots.txt.
  9. Genera ed invia una Sitemap: la mappa del sito in XML è un file che elenca le pagine e la struttura URL di un sito Web con lo scopo di facilitare il processo di scansione dei motori di ricerca. Inoltre, la sitemap indica a Google quali pagine e file sono stati aggiornati di recente.

Crawling Google

Come verificare il crawling Google sul sito web

Per verificare il crawling di un sito web puoi utilizzare il comando “site: url” nella ricerca Google oppure lo strumento “ispeziona URL” presente in  Google Search console.

  • Verificare il crawling e l’indicizzazione utilizzando il comando “site”: posizionati nella barra di ricerca google e digita il comando “site:” seguito dall’URL pagina che desideri controllare . Esempio: site: www.tuodominio/tua-url/. Questo comando ti permetterà di verificare l’indicizzazione e lo stato di crawling della pagina web.
  • Verificare il crawling con Google Search Console: puoi controllare lo stato dell’attività dei crawler di Google sul tuo sito seguendo i passaggi seguenti su Search console.
    1) Accedi a Google Search Console
    2) Fai clic su “Impostazioni” e clicca su “APRI RAPPORTO” nella tab “statistiche di scansione“. Questo ti permetterà di acquisire informazioni preziose sul rapporto di scansione e di analizzare in modo dettagliato le statistiche.
  • Verifica il crawling analizzando i log di accesso manualmente o con uno strumento SEO: puoi utilizzare ScreamingFrog che è uno strumento tecnico SEO in grado di analizzare i log di accesso e generare un rapporto di come GoogleBot esegue la scansione sul sito web. I rapporti log ti permettono di analizzare permanenza e indirizzi IP dei crawler che hanno accesso al tuo sito web.

Google crawl documentazione ufficiale

Di seguito alcuni link utili di approfondimento Google Search Central:

Crawling Google e Consulenza SEO dedicata

Il sito non viene indicizzato o addirittura rimosso dalle pagine dei risultati di ricerca Google?

Il professionista più adatto a risolvere queste problematiche è il SEO Esperto che dopo aver individuato la causa che ha determinato i problemi di crawling è in grado di risolvere i problemi di indicizzazione su Google.

Se hai domande sulla SEO e desideri ottenere risultati concreti su Google, ti invito a contattarmi e a richiedere una prima Consulenza SEO gratuita.

Leonardo Spada Web Designer e Consulente SEO
Articoli correlati