Una piccola percentuale degli utenti dei motori di ricerca visualizza la pagina di un sito web utilizzando la copia salvata da un motore di ricerca, cioè la versione cache. La copia cache che il motore di ricerca presenta all’utente contiene di solito il link verso oggetti presenti sul sito stesso: immagini, fogli di stile CSS, JavaScript, etc. Le società che si concentrando sulle attività di marketing mediante il web, come l’ottimizzazione dei siti per i motori di ricerca, desiderano tracciare l’intera attività dei motori di ricerca, comprese la visualizzazione delle pagine cache.
Gli accessi provenienti dalla copia cache di un motore di ricerca vengono tracciati nei log file del web server del sito, comprese le parole chiave e le frasi di parole chiave utilizzate dall’utente per trovare la copia cache. In alcuni casi, l’utente cliccherà sulla copia cache invece che sul il sito originale, visualizzando una pagina «vera». Il log file del web server conterrà le informazioni sull’accesso a questa pagina.
Le pagine visualizzate della cache sono più difficili da riconoscere per i software di statistiche per siti (web analytics), ma si tratta comunque di un procedimento fattibile.
Uno strumento di Web Analytics deve poter sezionare l’URL di rimando dal motore di ricerca, come nell’esempio:
http://64.233.179.104/search?q=cache:l5D4yOKeZaYJ:www.antezeta.com/search-engines-site-
localization-duplicate-content.html+google+dialect&hl=en&ct=clnk&cd=9
Item | Descrizione |
http://64.233.179.104/ | Un indirizzo IP Google noto. |
search | Il Servizio Google. Altre possibilità includono translate_c |
q=cache:l5D4yOKeZaYJ: | Indica una richiesta inoltrata a una pagine in cache. L’ID di cache è una stringa alfanumerica di 12 caratteri. |
www.antezeta.com | Dominio che contiene la pagina che corrisponde ai termini della ricerca |
search-engines-site-localization-duplicate-content.html | Oggetto che corrisponde ai termini della ricerca (pagina html, pdf) |
google dialect | parole chiave di ricerca immesse dall’utente |
hl=en | codice d’interfaccia Human Language Google (inglese) |
ct=clnk | Non necessario |
cd=9 | Non necessario |
In alcuni casi, un utente può visualizzare la copia cache di una pagina da un motore di ricerca senza utilizzare parole chiave. Come? Mediante la barra degli strumenti per il browser rilasciata dal motore di ricerca stesso. Un tale accesso (referrer) assomiglierà al seguente esempio:
http://72.14.207.104/search?sourceid=navclient&ie=UTF-8&rls=GGLG,GGLG:2005-50,GGLG:
en&q=cache:http%3A%2F%2Fwww.antezeta.com%2Fawstats.html
Abbiamo aggiunto il codice all’applicazione di Web Analytics AWStats Modulo di Riconoscimento dei Motori di Ricerca per riconoscere meglio i termini di richiesta provenienti delle cache dei Motori di Ricerca, le pagine viste e i clic che arrivano fino al sito.
- La lista IP dei Servizi Google è stata ampliata. Da fare: trovare una lista definitiva.
- È stata introdotto il codice per analizzare le parole chiave della ricerca. Attualmente è funzionante solo per ID di cache Google senza numeri. Il modulo principale di AWStats dovrà essere probabilmente modificato per riconoscere ID alfanumerici di cache.
- Google Translate (Traduce): attualmente il traffico è incluso nel traffico della cache di Google. Idealmente, dovrebbe essere separato. Sembra però che sarà necessario un cambiamento al modulo principale di AWStats.
Yahoo!, Ask e Microsoft (MSN/Windows Live)
Anche gli altri principali motori di ricerca permettono agli utenti di visualizzare una copia cache delle pagine di un sito. Visto che Google è il protagonista principale in Italia, abbiamo concentrato il nostro sforzo sulla cache di Google tralasciando per ora gli altri motori di ricerca. È nostra intenzione aggiungere codice ad AWStats per migliorare il tracciamento di traffico delle cache di Yahoo!, Ask e Microsoft Windows Live.
- Le pagine nel cache Ask cominciano con l’URL http://www.askcache.com/webcp?q=, seguiti dalle parole chiave cercate, alcuni altri parametri come la lingua, e l’URL di destinazione (&url=).
- Per Microsoft MSN, l’URL cache è del tipo http://cc.msnscache.com/cache.aspx?q=816 dove il numero di 13 cifre dopo l’q è ID della pagina in cache. Le parole chiave cercate non sono disponibile.
Monitorare le Pagine Tradotte con un ExtraSection AWStats
In molti mercati, il traffico internazionale è di grande interesse. Monitorare le richieste di traduzioni degli utenti e combinando tali informazioni con la loro posizione geografica (geo location), può essere utile per decidere se tradurre o meno le pagine di un sito in altre lingue. La facilità di creare report personalizzati (AWStats ExtraSection), permette a un sito che utilizza AWStats di monitorare quali pagine del sito sono state tradotte dagli utenti utilizzando i servizi di traduzione Google. ExtraSection simili possano essere creati per identificare gli altri principali servizi di traduzione automatica in linea, ad esempio e Free Translation.
ExtraSectionName1="Rimandi da Google Translate - Primi 50"
ExtraSectionCodeFilter1="200 304"
ExtraSectionCondition1="REFERER,(.*\/translate_c\/?)"
ExtraSectionFirstColumnTitle1="Coppie di lingue e Pagine"
ExtraSectionFirstColumnValues1="REFERER,(langpair=([^&]+).*u=([^&]+))||REFERER,u=([^&]+)"
ExtraSectionStatTypes1=PHL
ExtraSectionAddAverageRow1=2
ExtraSectionAddSumRow1=1
MaxNbOfExtra1=50
MinHitExtra1=1
Non tutti gli URL di rimando contengono una coppia di lingue per cui il numero di accessi conteggiato non è del tutto significativo. Ogni oggetto legato ad una pagina tradotta, come immagini, CSS ecc., verrà conteggiato come un accesso. Il numero di pagine rappresenta gli utenti che fanno clic su un link nella pagina tradotta, per arrivare al sito originale. La sintassi potrebbe essere migliorata per rimuovere le stringhe langpair= e u= dal risultato. Eventuali contributi sono bene accetti!
Impedire la visualizzazione di pagine cache nei motori di ricerca
Alcuni siti possono voler impedire ai motori di ricerca di fornire copie cache delle proprie pagine. È ad esempio il caso di contenuti che vengono continuamente aggiornati. Un sito può anche voler esercitare un controllo più accurato sulla presentazione delle proprie pagine. Per fortuna, è facile consentire ai motori di ricerca di indicizzare le pagine di un sito, ma non fornire pagine cache nei risultati di una ricerca. È sufficiente aggiungere:
nella sezione di ogni pagina. Il cambiamento non sarà attivo fino a quando i motori di ricerca non faranno una nuova scansione e una nuova indicizzazione delle pagine.
Ti potrebbero interessare:
Sono aperte le iscrizioni per il prossimo corso Seo del 16 e 17 novembre e per il del 26 e 27 ottobre. Cosa aspettate?
0 risposte finora ↓
Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..