Il cruscotto Google per i webmaster, meglio noto come Google Sitemaps

Il cruscotto Google per i webmaster, meglio noto come Google Sitemaps

I , allo scopo di indicizzare e mostrare contenuto del web nei loro risultati, hanno bisogno di essere in grado di trovare il contenuto. La prima generazione dei di Internet attendeva che i webmaster indicassero la Url principale del loro sito, la pagina «home», al database di siti conosciuti dal motore di ricerca. Il robot del motore, crawler, quindi dovrebbe seguire ogni collegamento che ha trovato sulla pagina home. Ma i problemi sono emersi presto – molto contenuto di un sito può essere nascosto involontariamente dai crawler, come quello dietro moduli e liste a tendina.

Aggiornamento: Google Sitemaps è stato rinominato Google Webmaster Tools il 5-ago-2005 per rendere meglio il suo ruolo più esteso.

Ma passiamo al 2005. I crawler dei motori di ricerca hanno migliorato la loro capacità di trovare siti attraverso altri siti – la segnalazione / iscrizione di un sito non è più pertinente. Tuttavia, molti siti Web sono programmati in modi che inibiscono l’individualizione automatica da parte dei motori di ricerca del contenuto ricco spesso disponibile in siti Web più grandi, complessi.

Come parte della loro missione per indicizzare le informazioni del mondo, gli ingegneri di Google, spinti dalla necessità di scoprire continuamente i contenuti nuovi ed aggiornati dei siti web, sono arrivati ad una soluzione elegante, e come molte soluzioni eleganti, semplice nella sua natura. Essi si sono domandati, «E se creassimo un meccanismo per i webmaster capace di fornirci una lista completa di Url?»

Google ha deciso per un formato di file xml con il quale i webmaster possono fornire una lista dei file pubblicamente disponibili dei loro siti; per ogni file vengono indicate la data e l’ora di quando il file è stato modificato. Google ha così un panorama completo su quali pagine è possibile effettuare la scansione e quanto recenti esse siano – informazioni estremamente utili per ottimizzare questa operazione.

Un programma python per generare la mappe di un sito nel formato xml è stato reso disponibile per amministratori di siti web. Google ha rilasciato il generatore di mappe sito su una licenza di sorgente aperta (open source), come stimolo per incoraggiare i webmaster e l’industria di ricerca più estesa al fine di utilizzare questo formato; il codice sorgente è disponibile sul Repository di progetti di sorgente aperta Source Forge.

Molte terze parti hanno sviluppato programmi con un’interfaccia utente grafica che svolgerà lo stesso compito per quelli che non si sentono a loro agio con la riga dei comandi di un sistema operativo. Moduli sono anche disponibili per la maggior parte di sistemi di pagine dinamiche (php, asp) e sistemi CMS. Il file xml risultante, che può e dovrebbe essere compresso, viene caricato sul server del sito (se non già generato lì). Il file xml dovrebbe essere generato ogni qualvolta i contenuti del sito vengono aggiornati.

NotaGoogle supporta anche altri formati strutturati per le sitemap. Questi formati di dati non devono essere confusi con una mappa del sito Html che un sito può avere. I formati Html non sono supportati.

Google non inizierà a cercare la presenza di una sitemap a meno che non gli venga indicato di fare così. Questo richiede una registrazione presso Google e fornisce un accesso al cruscotto webmaster Google. Appena connesso (loggato), all’utente verrà presentato un modulo classico per «specificare un’Url»; la sitemap.xml.gz appena caricata dovrebbe essere indicata utilizzando un’Url completa, cioè http://www.ilmiosito.it/sitemap.xml.gz. Dopo che il file è stato reperito da Google, un cruscotto minimalista appare e fornisce informazioni sull’elaborazione dei file sitemaps.xml.gz da parte di googlebot. Un pulsante “Reinvia selezione” permette ai webmaster di notificare Google in modo propositivo per gli aggiornamenti ai file sitemaps; tutto questo diventa superfluo quando Google esegue una scansione frequente di un sito.

Scheda “Verifica”

Per ottenere il massimo dal Cruscotto Google, Google richiede ai proprietari di siti di dimostrare la loro identità mettendo un file vuoto sul loro sito web. Google fornisce il nome del file in istruzioni che appaiono sulla scheda “Verifica”. Questo processo è abbastanza semplice. In molti casi la verifica è istantanea. Comunque, ci sono stati ritardi dovuti a server Google sovraccaricati. Google controlla anche per il trattamento corretto dello stato Http 404 (File non trovato) per assicurare di aver davvero trovato il file corretto e non soltanto un messaggio di errore generico erroneamente identificato dallo stato Http 200 (successo). Se un sito sta gestendo impropriamente lo stato File non trovato, il Cruscotto Google non convaliderà. La scheda “Verifica” appare solo quando un sito ha bisogno di essere verificato (e occasionalmente, riverificato).

Scheda “Statistiche” – Il Cruscotto Google

Alcuni mesi dopo che Google ha rilasciato le prima funzionalità delle Google Sitemaps, essi hanno iniziato ad aggiungere ulteriori informazioni alla scheda d’amministrazione sitemaps. È così nato «Il Cruscotto Google», meglio noto come Scheda “Statistiche” che contiene attualmente

Statistiche “ricerche”

Il pannello Statistiche ricerche può contenere le seguenti informazioni, a seconda della completezza del profilo del sito in Google per un sito. Sembra che questo sia collegato alla priorità «generale» (leggete: PageRank) che Google ha assegnato ad un sito. In alcuni casi, il messaggio «I dati non sono disponibili in questo momento» appare; in altri, non appare nemmeno la categoria.

Le categorie disponibili comprendono:

  • Prime 20 ricerche principali
  • Primi 20 clic sulle ricerche principali
  • Prime 20 ricerche da dispositivi mobili
  • Prime 20 ricerche dal web mobile

Le richieste di ricerca principali indicano quali ricerche da parte degli utenti abbiano restituito pagine dal tuo sito – evidentemente all’interno dei primi 100 risultati in Google. Una prima domanda per quelli che vogliono ottimizzare la visibilità nei motori di ricerca del loro sito è «Compaiono in assoluto le mie pagine per le mie parole chiave principali?». Fino a poco tempo fa, i siti hanno dovuto contare su strumenti come il Web Position Gold per rispondere a questa domanda. Sfortunatamente, molti non sono consapevoli del fatto che questo strumento, promosso da una rinomata società di Web Analytics, viola i Termini e le condizioni di Servizio Google. Una seconda domanda è «Per pagine che appaiono nei primi 10 risultati, gli utenti scelgono questi link per arrivare al mio sito?» La risposta a questa domanda si trova nella seconda colonna, «clic sulle ricerche principali». Se gli utenti non cliccano sulle tue pagine, perché?

Ci sono sfumature su questi dati che richiedeno un po’ di riflessione. Ad esempio, una frase di ricerca può apparire alla sinistra alla posizione media di 31. La stessa frase apparirà alla destra alla posizione media di 28. Perché? Sembrerebbe che gli utenti facciano clic su quella frase se appare all’interno delle prima 3 pagine di risultati (la maggior parte degli utenti probabilmente non hanno cambiato il default di 10 risultati per pagina). Essi non farebbero clic su di esso se apparisse alla terza pagina o successiva. Allo stesso modo, le frasi possono apparire sulla lista a destra ma non nell’elenco di ricerche principali alla sinistra – perché essi non erano nelle prime 20 ricerche che hanno trovato pagine del sito, ma hanno innescato un clic lo stesso.

Il pannello statistiche ricerche offre una ricchezza di informazioni sia mediante i dati presenti sia mediante quelli non presenti. I siti che puntano sul marketing mediante i motori di ricerca dovrebbero dedicarsi all’analisi significativa di questi dati.

I dati possono essere scaricati per uso in programmi di foglio elettronico come la multipiattaforma OpenOffice Calc o per importazione in una base dati, permettendo un’analisi dell’andamento nel tempo.

Google dice che i dati ricoprono le «ultime tre settimane». Sembra che la frequenza di aggiornamento sia almeno quotidiana.

Statistiche “scansione”

Le tue pagine su Google

La sezione Statistiche “scansione” è estremamente utile per vedere a colpo d’occhio la percentuale della scansione di un sito e per scoprire errori che evitano l’indicizzazione del contento in Google. Ogni link di errore apre la scheda degli Errori che fornisce un panorama dettagliato su pagine e sorgenti di errori nella scansione di Google. Gli errori attribuiti al file della sitemap indicheranno un problema vero con il sito o semplicemente un problema nella generazione della sitemap (hai inserito contenuto vietato dal file ?). Gli errori trovati dalla scansione del web sono di solito dovuti a collegamenti vecchi o errati su siti esterni. Una soluzione a breve termine consiste nell’aggiungere reindirizzamenti 301 permanenti verso i contenuti attuali per indirizzi non più validi. La soluzione definitiva è quella di chiedere ai webmaster di correggere i loro link verso il tuo sito.

Distribuzione PageRank

Questa sezione mostra la distribuzione delle tue pagine in tre gradi di PageRank: Alto, Medio e Basso, il cui è probabilmente livello troppo alto per essere di grande utilizzo. Ricorda che la frequenza di aggiornamento non è chiara – il PR nella barra degli strumenti viene aggiornata solo ogni tot mesi.

La tua pagina con il più alto PageRank (mensile)

Indica la prima pagina Url per un Mese dato. In molti casi, questa sarà la tua home page. In modo abbastanza interessante, l’effettivo PR non è incluso. Non sembra che questa informazione appaia attualmente per siti con un PR 3 o meno.

Analisi della pagina

Questo pannello è dedicato a informazioni trattate dal programma di indicizzazione Google.

Contenuto

Una sezione di Contenuto fornisce la distribuzione di file elaborati per tipo di contenuto mime cioè

  • text/html
  • text/plain
  • application/x-shockwave-flash
  • application/octet-stream

La distribuzione del tipo di codificazione testo viene anche presentata, cioè ascii e utf-8.

Parole comuni

Mentre i dettagli tecnici probabilmente non interesseranno la maggior parte degli analisti, i dati per alcuni siti comprenderanno le prime 20 parole chiave singole trovate nelle pagine (un tipo di analisi di densità di parole chiave sull’intero sito) e, forse ancor più interessanti, in link esterni verso il sito. Attualmente le parole basilari come «il» e «con» stanno comparendo – liste di parole «stop», se utilizzate, sembrano limitate. Questi dati, anche se interessanti, sono già disponibili per i webmaster poiché essi sono già in grado di eseguire questo tipo di analisi sulle loro pagine. Per quelle persone che cominciano dall’analisi di parole chiave per la prima volta, le informazioni possono essere una rivelazione. È da ricordare che gli algoritmi dei motori di ricerca sono interessati a proprietà linguistiche più complesse come l’ordine delle parole e prossimità di parole. Come con i dati di richiesta di ricerca, queste liste possono essere salvate in formato csv.

Statistiche indice

Un pannello è dedicato alle ricerche avanzate già disponibili mediante l’interfaccia Google normale. Le richieste sono qui predisposte come collegamenti con il nome del sito:

Pagine indicizzate nel tuo sitosite:www.ilmiosito.it
Pagine che fanno riferimento all’Url del tuo sitoallinurl:www.ilmiosito.it
Pagine con link al tuo sitolink:www.ilmiosito.it
La cache corrente del tuo sitocache:www.ilmiosito.it
Informazioni che possediamo sul tuo sitoinfo:www.ilmiosito.it
Pagine che sono simili all’Url del tuo sitorelated:www.ilmiosito.it

NotaRicorda che alcune di queste ricerche non funzionano come atteso. Ad esempio, il comando di ricerche di link indicizzati da Google presenta solo un piccolo sottoinsieme di link totali nell’indice Google, per motivi noti solo a Google. Sarebbe meglio non fornire alcuna informazione invece di informazioni ingannevoli.

Il file robots.txt

Google ha aggiunto le informazioni sul file di indicazioni per i robot che ha trovato durante la sua scansione insieme ad una simulazione dell’impatto di un robots.txt modificato. Molti siti, siti aziendali famosi compresi, hanno rattoppato l’uso di robots.txt.

Defacto Cruscotto Google Webmaster

Anche se non è chiaro che Google immaginasse originariamente il pannello di gestione sitemap come un Cruscotto Google Webmaster, la realtà è che sta diventando proprio quello. Per siti che gestiscono attivamente la loro ottimizzazione sito per i motori di ricerca, l’iscrizione in Google Sitemaps è un dovere.

Google ha lanciato le sitemaps come standard aperto – lo script per la generazione della mappa è disponibile dalla nota repository di programmi sorgente aperta Source Forge. Gli altri motori di ricerca seguiranno questa tendenza?

Anch’io!

Yahoo! ha risposto aggiungendo una nota breve al suo modulo per la segnalazione di un sito, indicando che i siti potrebbero fornire anche un file di testo di Url di un sito – il programma è stato soprannominato «lista Url Yahoo!». Sembra sfortunatamente che la funzionalità sia più una reazione di marketing al programma Google delle sitemaps piuttosto che innovazione vera nella scansione Yahoo!. La lista Url viene scaricata una sola volta; attualmente Yahoo! non controlla versioni aggiornate di questo file durante la sua scansione – non come le sitemaps di Google. La lista non contiene informazioni relativa alla modifica dei file – Yahoo! non può ottimizzare il lavoro di scansione di un sito in base a questa lista – esso ha bisogno ancora di controllare le informazioni nelle testata Http di ogni file.

Anche se Yahoo! non ha fornito ancora un cruscotto webmaster definitivo, sta facendo alcune cose molto belle con il suo Cruscotto Yahoo! Italia Site Explorer. Permetteteci di sperare che Yahoo! decida di estendere l’esploratore di sito con statistiche sulla scansione e ricerca.

SuggerimentoConsidera la creazione di uno script breve per convertire una sitemap Google a una Lista Url Yahoo!. Il seguente esempio, uno script “rapido e grezzo” per Linux, può facilmente essere riscritto (e migliorato) per altri sistemi operativi. Inviaci le tue versioni e noi le metteremo qui.

#!/bin/bash
# -- Linux script to convert Google's sitemap to Yahoo!'s URL list.
# -- must be run from  containing sitemap.xml.gz
# -- (c) 2006 by Sean Carlos, www.antezeta.it
# -- check sitemap.xml.gz exists
if [ ! -e sitemap.xml.gz ] ; then
     echo "Did not find sitemap.xml.gz in current .  Exiting."
     exit
fi
# -- copy sitemap.xml.gz to new file
echo "  copying sitemap.xml.gz urllist.gz"
cp sitemap.xml.gz urllist.gz
# -- Unzip
gunzip urllist.gz
# -- find all URLs in file - they end in </loc>.  Put them in the file urllist
grep "</loc>" urllist > urllist.tmp
mv -f urllist.tmp  urllist
# -- Strip out xml <loc> tags
sed -i -e 's/  <loc>//g' urllist
sed -i -e 's/<\/loc>//g' urllist
# -- Zip file
gzip urllist

MSN (Windows Live), Ask, A9/Alexa: Non ancora

Nessuno degli altri motori di ricerca principali ha sviluppato né un cruscotto webmaster né una funzione di mappe di sito. Permetteteci di sperare che le cose cambino presto.

Risorse

Documentazione ufficiale

Gruppi di discussione

Il Sito ufficiale Software di Generazione Mappa Sito

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.