I ragni (spider / crawler) dei motori di ricerca: chi sta visitando il nostro sito e perché?

Gli spider o crawler dei motori di ricerca: chi sta visitando il nostro sito e perché?

Le aziende che applicano strategie di ottimizzazione dei siti per i motori di ricerca (SEO) prima o poi decidono, giustamente, di controllare le scansioni effettuate dai motori di ricerca. Infatti prima che una pagina web appaia nei risultati della ricerca, il contenuto deve essere stato individuato dai motori di ricerca attraverso un processo di scansione. La scansione viene fatta con un software che percorre Internet in automatico per trovare e scaricare i contenuti dei siti affinché il motore di ricerca li analizzi, li indicizzi e li classifichi.

Il controllo fa parte del posizionamento nei Motori di Ricerca in base al Merito™, cioè essere primo su Google.

Ragno (spider) di un motore di ricerca
Un ragno noto anche come spider, crawler, robot o semplicemente bot, è un software che trova e recupera pagine web e altri contenuti, tipo pdf, doc, da un sito. Una volta che un motore di ricerca trova un sito, solitamente attraverso un collegamento da un altro sito o mediante un modulo di registrazione, il «ragno» inizierà a visitare periodicamente il sito esaminandone i contenuti.

L’attività di scansione è il primo segno che i tentativi di SEO stanno funzionando; la mancanza di tale segnale indica invece che vi sono probabilmente problemi tali da impedire la scoperta del suo contenuto.

  • Una scansione frequente e profonda indica che un motore di ricerca ha rilevato che il contenuto viene di solito aggiornato ed è appetibile per gli utenti della rete. Fornisce anche la prima indicazione del successo di una operazione SEO – la scansione si verifica prima che gli aggiornamenti dell’indice del motore siano visibili in linea.
  • Poca attività di scansione è un preavviso che i miglioramenti SEO di un sito non stanno dando esito e che, di conseguenza, non saranno presto in linea – forse perché i miglioramenti non sono sufficientemente mirati?

Alcuni strumenti commerciali di analisi delle statistiche dei siti basati sui log file del web server come ClickTracks, forniscono dei report che permettono di verificare:

  • Quali robot stanno analizzando il contenuto di un sito
  • La percentuale di pagine trovate
  • Quanto siano recenti le visite dei robot (il che implica un aggiornamento continuo della pagina di un sito nei risultati che appaiono in un motore di ricerca)

Strumenti gratuiti di statistiche come Analog e AWStats possono fornire un sottoinsieme di queste informazioni.

Principali Robot dei Motori di Ricerca

Nel seguito diamo una lista dei principali motori di ricerca e dei relativi ragni (robot) che abbiamo individuato, con una breve nota sul loro utilizzo. Consigliamo di usare queste informazioni, in base alle caratteristiche del proprio sito, per monitorare le attività di scansione specifiche.

Google

  • AdsBot-Google · Ragno per le AdWords che esamina e misura una pagina di destinazione dei piccoli annunci AdWords
  • Feedfetcher-Google Ragno RSS Feed · Utilizzato per l’home page personalizzata di Google e il Reader (Lettore) di Google.
  • Googlebot · Ragno standard per il web.
  • Googlebot-Image · Ragno per le immagini
  • Googlebot-Mobile per i contenuti Mobile · Googlebot Mobile
  • Google-Sitemaps · Cerca il file di autenticazione per le sitemaps. Prima individuazione agosto 2006.
  • gsa-crawler · Robot di Google Search Appliance. Il traffico generato da utenti Google che hanno installato strumenti di ricerca aziendali.
  • Mediapartners-Google · Robot AdSense. Alimenta anche il database standard.

NotaGoogle Wireless Transcoder · Browser proxy per Google Mobile. Non si tratta di un robot dal momento che il traffico deriva da richieste per pagine fatte da persone. Rif: http://www.google.com/xhtml.

Yahoo!

Microsoft MSN / Windows Live

  • msnbot · Ragno del web standard (Nome Host: livebot-(indirizzo ip).search.live.com, già msnbot.msn.com)
  • msnbot-media · MSN Cerca Immagini. Microsoft fornisce una pagina di riferimento ma questo bot specifico non risulta documentato alla data di redazione di questa pagina.
  • psbot · Ragno di Immagine Picsearch. Ragno per Immagini Picsearch. Le immagini sono utilizzate, sotto licenza, da Ask e MSN.
  • msnbot-products · MSN Shopping
  • msnbot-news · MSN Notizie
  • msnbot-NewsBlogs · Notizie & blog
  • msnbot-Academic · Ricerca Academica

Ask

  • Ask Jeeves/Teoma · Ragno per il web standard
  • Bloglines · Servizio Ask per i blog e i lettore di Feed RSS.
  • psbot · Ragno per Immagini Picsearch. Le immagini sono utilizzate, sotto licenza, da Ask e MSN.

Risorse aggiuntive sui Robot

Numerosi siti forniscono elenchi di robot:

Nota Suggerimento per la configurazione del sistema di statistiche dei siti: i report sui ragni non sono solitamente preconfigurati nei sistemi di statistiche web. Per fortuna, sono abbastanza facili da aggiungere. Il trucco è quello di impostare un report di Pagine per User Agent, in cui lo User Agent coincida con il nome del robot del motore di ricerca. Le soluzioni con il codice inserito nelle pagine possono non essere in grado di tracciare in automatico tale traffico – occorre tener presente queste limitazioni prima di scegliere una soluzione; nonostante le soluzioni con il codice inserito nelle pagine offrano alcuni vantaggi significativi rispetto a sistemi di analisi dei log file, in questo caso, nonostante quello che vi possono raccontare, non è così.

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.