Tracciare le pagine viste dalla cache dei motori di ricerca con i programmi per l'analisi delle statistiche dei siti: esempio Google

Tracciare le pagine viste dalla cache dei motori di ricerca con i programmi per l’analisi delle statistiche dei siti

Una piccola percentuale degli utenti dei motori di ricerca visualizza la pagina di un sito web utilizzando la copia salvata da un motore di ricerca, cioè la versione cache. La copia cache che il motore di ricerca presenta all’utente contiene di solito il verso oggetti presenti sul sito stesso: immagini, fogli di stile CSS, JavaScript, etc. Le società che si concentrando sulle attività di marketing mediante il web, come l’ottimizzazione dei siti per i motori di ricerca, desiderano tracciare l’intera attività dei motori di ricerca, comprese la visualizzazione delle pagine cache.

Gli accessi provenienti dalla copia cache di un motore di ricerca vengono tracciati nei log file del web server del sito, comprese le parole chiave e le frasi di parole chiave utilizzate dall’utente per trovare la copia cache. In alcuni casi, l’utente cliccherà sulla copia cache invece che sul il sito originale, visualizzando una pagina «vera». Il log file del web server conterrà le informazioni sull’accesso a questa pagina.

Le pagine visualizzate della cache sono più difficili da riconoscere per i software di statistiche per siti (web analytics), ma si tratta comunque di un procedimento fattibile.

Uno strumento di deve poter sezionare l’ di rimando dal motore di ricerca, come nell’esempio:

http://64.233.179.104/search?q=cache:l5D4yOKeZaYJ:www.antezeta.com/search-engines-site-
localization-duplicate-content.html+google+dialect&hl=en&ct=clnk&cd=9
ItemDescrizione
http://64.233.179.104/Un indirizzo IP Google noto.
searchIl Servizio Google. Altre possibilità includono translate_c
q=cache:l5D4yOKeZaYJ:Indica una richiesta inoltrata a una pagine in cache. L’ID di cache è una stringa alfanumerica di 12 caratteri.
www.antezeta.comDominio che contiene la pagina che corrisponde ai termini della ricerca
search-engines-site-localization-duplicate-content.htmlOggetto che corrisponde ai termini della ricerca (pagina html, pdf)
google dialectparole chiave di ricerca immesse dall’utente
hl=encodice d’interfaccia Human Language Google (inglese)
ct=clnkNon necessario
cd=9Non necessario

In alcuni casi, un utente può visualizzare la copia cache di una pagina da un motore di ricerca senza utilizzare parole chiave. Come? Mediante la barra degli strumenti per il browser rilasciata dal motore di ricerca stesso. Un tale accesso (referrer) assomiglierà al seguente esempio:

http://72.14.207.104/search?sourceid=navclient&ie=UTF-8&rls=GGLG,GGLG:2005-50,GGLG:
en&q=cache:http%3A%2F%2Fwww.antezeta.com%2Fawstats.html

Abbiamo aggiunto il codice all’applicazione di Web Analytics AWStats Modulo di Riconoscimento dei Motori di Ricerca per riconoscere meglio i termini di richiesta provenienti delle cache dei Motori di Ricerca, le pagine viste e i clic che arrivano fino al sito.

  1. La lista IP dei Servizi Google è stata ampliata. Da fare: trovare una lista definitiva.
  2. È stata introdotto il codice per analizzare le parole chiave della ricerca. Attualmente è funzionante solo per ID di cache Google senza numeri. Il modulo principale di AWStats dovrà essere probabilmente modificato per riconoscere ID alfanumerici di cache.
  3. Google Translate (Traduce): attualmente il traffico è incluso nel traffico della cache di Google. Idealmente, dovrebbe essere separato. Sembra però che sarà necessario un cambiamento al modulo principale di AWStats.

Yahoo!, e Microsoft (MSN/Windows Live)

Anche gli altri principali motori di ricerca permettono agli utenti di visualizzare una copia cache delle pagine di un sito. Visto che Google è il protagonista principale in Italia, abbiamo concentrato il nostro sforzo sulla cache di Google tralasciando per ora gli altri motori di ricerca. È nostra intenzione aggiungere codice ad AWStats per migliorare il tracciamento di traffico delle cache di Yahoo!, Ask e Microsoft Windows Live.

  • Le pagine nel cache Ask cominciano con l’URL http://www.askcache.com/webcp?q=, seguiti dalle parole chiave cercate, alcuni altri parametri come la lingua, e l’URL di destinazione (&url=).
  • Per Microsoft MSN, l’URL cache è del tipo http://cc.msnscache.com/cache.aspx?q=3886101896816 dove il numero di 13 cifre dopo l’q è ID della pagina in cache. Le parole chiave cercate non sono disponibile.

Monitorare le Pagine Tradotte con un ExtraSection AWStats

In molti mercati, il traffico internazionale è di grande interesse. Monitorare le richieste di traduzioni degli utenti e combinando tali informazioni con la loro posizione geografica (geo location), può essere utile per decidere se tradurre o meno le pagine di un sito in altre lingue. La facilità di creare report personalizzati (AWStats ExtraSection), permette a un sito che utilizza AWStats di monitorare quali pagine del sito sono state tradotte dagli utenti utilizzando i servizi di traduzione Google. ExtraSection simili possano essere creati per identificare gli altri principali servizi di traduzione automatica in linea, ad esempio Babelfish e Free Translation.

ExtraSectionName1="Rimandi da Google Translate - Primi 50"
ExtraSectionCodeFilter1="200 304"
ExtraSectionCondition1="REFERER,(.*\/translate_c\/?)"
ExtraSectionFirstColumnTitle1="Coppie di lingue e Pagine"
ExtraSectionFirstColumnValues1="REFERER,(langpair=([^&]+).*u=([^&]+))||REFERER,u=([^&]+)"
ExtraSectionStatTypes1=PHL
ExtraSectionAddAverageRow1=2
ExtraSectionAddSumRow1=1
MaxNbOfExtra1=50
MinHitExtra1=1

Nota Non tutti gli URL di rimando contengono una coppia di lingue per cui il numero di accessi conteggiato non è del tutto significativo. Ogni oggetto legato ad una pagina tradotta, come immagini, CSS ecc., verrà conteggiato come un accesso. Il numero di pagine rappresenta gli utenti che fanno clic su un link nella pagina tradotta, per arrivare al sito originale. La sintassi potrebbe essere migliorata per rimuovere le stringhe langpair= e u= dal risultato. Eventuali contributi sono bene accetti!

Impedire la visualizzazione di pagine cache nei motori di ricerca

Alcuni siti possono voler impedire ai motori di ricerca di fornire copie cache delle proprie pagine. È ad esempio il caso di contenuti che vengono continuamente aggiornati. Un sito può anche voler esercitare un controllo più accurato sulla presentazione delle proprie pagine. Per fortuna, è facile consentire ai motori di ricerca di indicizzare le pagine di un sito, ma non fornire pagine cache nei risultati di una ricerca. È sufficiente aggiungere:

<meta name="robots" content="noarchive" />

nella sezione <head> di ogni pagina. Il cambiamento non sarà attivo fino a quando i motori di ricerca non faranno una nuova scansione e una nuova indicizzazione delle pagine.

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.