Gli spider o crawler dei Motori di Ricerca: chi sta visitando il nostro sito e perché?

Scritto da parte di sean · Nessun Commento

Le aziende che applicano strategie di ottimizzazione dei siti per i motori di ricerca (SEO) prima o poi decidono, giustamente, di controllare le scansioni effettuate dai motori di ricerca. Infatti prima che una pagina web appaia nei risultati della ricerca, il contenuto deve essere stato individuato dai motori di ricerca attraverso un processo di scansione. La scansione viene fatta con un software che percorre Internet in automatico per trovare e scaricare i contenuti dei siti affinché il motore di ricerca li analizzi, li indicizzi e li classifichi.

Il controllo fa parte del posizionamento nei Motori di Ricerca in base al Merito™, cioè essere primo su Google.

Ragno (spider) di un motore di ricerca: Un ragno noto anche come spider, crawler, robot o semplicemente bot, è un software che trova e recupera pagine web e altri contenuti, tipo pdf, doc, da un sito. Una volta che un motore di ricerca trova un sito, solitamente attraverso un collegamento da un altro sito o mediante un modulo di registrazione, il «ragno» inizierà a visitare periodicamente il sito esaminandone i contenuti.

L’attività di scansione è il primo segno che i tentativi di SEO stanno funzionando; la mancanza di tale segnale indica invece che vi sono probabilmente problemi tali da impedire la scoperta del suo contenuto.

Una scansione frequente e profonda indica che un motore di ricerca ha rilevato che il contenuto viene di solito aggiornato ed è appetibile per gli utenti della rete. Fornisce anche la prima indicazione del successo di una operazione SEO – la scansione si verifica prima che gli aggiornamenti dell’indice del motore siano visibili in linea.
Poca attività di scansione è un preavviso che i miglioramenti SEO di un sito non stanno dando esito e che, di conseguenza, non saranno presto in linea – forse perché i miglioramenti non sono sufficientemente mirati?

Alcuni strumenti commerciali di analisi delle statistiche dei siti basati sui log file del web server come ClickTracks, forniscono dei report che permettono di verificare:

Quali robot stanno analizzando il contenuto di un sito
La percentuale di pagine trovate
Quanto siano recenti le visite dei robot (il che implica un aggiornamento continuo della pagina di un sito nei risultati che appaiono in un motore di ricerca)

Strumenti gratuiti di statistiche come Analog e AWStats possono fornire un sottoinsieme di queste informazioni.

Principali Robot dei Motori di Ricerca

Nel seguito diamo una lista dei principali motori di ricerca e dei relativi ragni (robot) che abbiamo individuato, con una breve nota sul loro utilizzo. Consigliamo di usare queste informazioni, in base alle caratteristiche del proprio sito, per monitorare le attività di scansione specifiche.

Google

· Ragno per le AdWords che esamina e misura una pagina di destinazione dei piccoli annunci AdWords
Ragno RSS Feed · Utilizzato per l’home page personalizzata di Google e il Reader (Lettore) di Google.
· Ragno standard per il web.
· Ragno per le immagini
per i contenuti Mobile · Googlebot Mobile
· Cerca il file di autenticazione per le sitemaps. Prima individuazione agosto 2006.
· Robot di Google Search Appliance. Il traffico generato da utenti Google che hanno installato strumenti di ricerca aziendali.
· Robot AdSense. Alimenta anche il database standard.

Nota · Browser proxy per Google Mobile. Non si tratta di un robot dal momento che il traffico deriva da richieste per pagine fatte da persone. Rif: .

Yahoo!

· Prova da Yahoo! Cina
· Robot per indicizzare i Blog.
· Ragno di Feed RSS
· Tecnologia di apprendimento automatica che ordina i risultati delle ricerche di Yahoo! in base alle idee dei ricercatori che effettuano le richieste.
· Robot per trovare video
· Utilizzato da Yahoo! per la ricerca di immagini.
· ricerca di prodotti di Yahoo!
· Ragno per il Web standard per la Cina
· Ragno del Web standard (un tempo da inktomisearch.com; oggi da crawl.yahoo.net)
Yahoo-VerticalCrawler · È stato visto scandire i siti della directory di Yahoo!
Y!J; for robot study; keyoshid · Versione di prova attiva in Giappone; è stato visto l’ultima volta nel 2005.

Microsoft MSN / Windows Live

msnbot · Ragno del web standard (Nome Host: livebot-(indirizzo ip).search.live.com, già msnbot.msn.com)
msnbot-media · MSN Cerca Immagini. Microsoft fornisce una pagina di riferimento ma questo bot specifico non risulta documentato alla data di redazione di questa pagina.
psbot · Ragno di Immagine Picsearch. Ragno per Immagini Picsearch. Le immagini sono utilizzate, sotto licenza, da Ask e MSN.
msnbot-products · MSN Shopping
msnbot-news · MSN Notizie
msnbot-NewsBlogs · Notizie & blog
msnbot-Academic · Ricerca Academica

Ask

Ask Jeeves/Teoma · Ragno per il web standard
Bloglines · Servizio Ask per i blog e i lettore di Feed RSS.
psbot · Ragno per Immagini Picsearch. Le immagini sono utilizzate, sotto licenza, da Ask e MSN.

Risorse aggiuntive sui Robot

Numerosi siti forniscono elenchi di robot:

Nota Suggerimento per la configurazione del sistema di statistiche dei siti: i report sui ragni non sono solitamente preconfigurati nei sistemi di statistiche web. Per fortuna, sono abbastanza facili da aggiungere. Il trucco è quello di impostare un report di Pagine per User Agent, in cui lo User Agent coincida con il nome del robot del motore di ricerca. Le soluzioni con il codice inserito nelle pagine possono non essere in grado di tracciare in automatico tale traffico – occorre tener presente queste limitazioni prima di scegliere una soluzione; nonostante le soluzioni con il codice inserito nelle pagine offrano alcuni vantaggi significativi rispetto a sistemi di analisi dei log file, in questo caso, nonostante quello che vi possono raccontare, non è così.

Post correlate:

Se sei qui da poco, ti prego di iscriverti al mio feed RSS oppure di seguirmi su , che viene aggiornato più frequentemente – e talvolta in modo più casual – in inglese e/o in italiano. Grazie per la visita!

Originariamente pubblicato 28 Jun 2006

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Web Analytics Association. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

0 risposte finora ↓

Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..

Lascia un commento

Avviso: commenti sono benvenuti nella misura in cui essi aggiungono qualcosa al discorso. Commenti senza nome e cognome e/o con toni negativi senza giustificazione razionale di una propria posizione e/o per terzi fini, corrono il rischio di essere cancellati senza pietà ad imprescindibile discrezione dell'amministratore. Ebbene sì, la vita è dura.

Gli spider o crawler dei Motori di Ricerca: chi sta visitando il nostro sito e perché?

Scritto da parte di sean · Nessun Commento

Principali Robot dei Motori di Ricerca

Google

Yahoo!

Microsoft MSN / Windows Live

Ask

Risorse aggiuntive sui Robot

Post correlate:

0 risposte finora ↓

Lascia un commento

Cerca nel sito

Abbonati al feed!

Post Recenti

Commenti recenti

Blogroll

Corsi

Consulenza