Google "vede" CSS e JavaScript?

Come viene trattato JavaScript e CSS dai motori di ricerca, del tipo di Google?

Una domanda frequente nel processo di è “come viene trattato JavaScript e CSS dai motori di ricerca, del tipo di Google?

Storicamente, i motori di ricerca hanno trattato pagine web in modo molto simile a quello di un vecchio browser testuale tale Lynx. Un motore di ricerca " vedeva" solo quello che un browser povero ha potuto visualizzare – html basilare.

Spinti da questo ragionamento, i consulenti hanno da tempo sostenuto che gli sviluppatori web devono mantenere il codice di un sito più semplice possibile, evitando menu di navigazione nascosti in JavaScript e simili.

Oggi la situazione è più complessa. Google e gli altri motori di ricerca tenteranno di estrarre link da qualsiasi oggetto che trovano – da file PDF ai JavaScript inseriti in una pagina web. Questo processo non è tuttavia privo di difficoltà – un sito dovrebbe ancora evitare di contare esclusivamente su un sistema di navigazione programmato con JavaScript, particolarmente quando CSS rappresenta la scelta migliore.

Possiamo verificare che Google scarica appositamente codice JavaScript e CSS quando questo codice è inglobato in un file di inclusione esterno alle pagine html. Il processo di verifica è abbastanza semplice se avete accesso ai file web log dal server del vostro sito web. Alcune società di hosting, ad esempio l’altrimenti ben riconosciuto Aruba, non forniscono accesso ai server web log nei loro servizi di hosting condiviso. Potreste pensare di escludere società che non supportano completamente i processi di Web Analytics dalla vostra considerazione quando dovete scegliere una società di hosting.

Per verificare che Google sta scaricando i vostri file CSS e/o JavaScript, cercate Googlebot e il vostro file, cioè

grep Googlebot access.log | grep "\.js"

Dove access.log rappresenta il vostro web server log file, il vostro file JavaScript esterno ha un suffisso .js e il vostro sistema operativo sa cosa è grep (se non lo sa, potete usufruire di grep per Windows o cambiare il vostro sistema operativo!).

Il risultato sarà simile a questo:

66.249.66.73 – - [04/May/2007:16:09:36-0700] “GET /j/newslink.js HTTP/1.1″ 200 943 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Abbiamo solo un tipo di link a questo file, una dichiarazione script: <script type="text/javascript" src="/j/newslink.js"> (chiaramente riconoscibile come JavaScript). Il file non è elencato in una sitemap xml.

Quindi sembra che, sì, Googlebot rilevi e scarichi i nostri file JavaScript!

Sfortunatamente, non abbiamo ancora terminato le verifiche. Abbiamo bisogno di controllare che Googlebot sia davvero Googlebot e non “qualcuno” che finge di esserlo. Perché qualcuno vorrebbe “truffare” Googlebot costituisce il tema per un altro post; qui è sufficiente dire, che è semplice farlo, ad esempio sfruttando l’UserAgent Switcher per Firefox.

Quindi, come possiamo verificare che Googlebot provenga davvero da Google? Il modo più facile è assicurarsi che l’indirizzo IP corrisponda al Googlebot e viceversa. Questo è un esempio su Linux:

$ host 66.249.66.73

73.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-73.googlebot.com.

$ host crawl-66-249-66-73.googlebot.com

crawl-66-249-66-73.googlebot.com has address 66.249.66.73

Con questo processo, abbiamo verificato che Googlebot, da 66.249.66.73 (crawl-66-249-66-73.googlebot.com), cerca e scarica i nostri file JavaScript.

Per CSS:

grep Googlebot access.log | grep "\.css"

che risponde:

66.249.66.73 – - [07/May/2007:09:10:07-0700] “GET /c/screen.css HTTP/1.1″ 200 11056 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”

Certo, Googlebot probabilmente non fa una scansione dei vostri file JavaScript e CSS ogni giorno, cosicché dovete controllare file log per un certo lasso di tempo. Potete eseguire controlli simili per Yahoo! Slurp (crawl.yahoo.net) ed Ask Jeeves/Teoma (nome host tipico: egspd42146.ask.com; il numero di 5 cifre è variabile).

Attualmente l’utilizzo da parte di Google di questi file, oltre l’estrazione semplice di link, è probabilmente limitato ad un analisi di spam per i motori di ricerca.

Non abbiamo visto nessuna indicazione che il testo inserito nelle dichiarazioni “document.write” JavaScript, o nascosto da CSS, compaia nei risultati da un’interrogazione in Google. In altre parole, dal punto di vista della visibilità in un motore di ricerca, Google vedrà una pagina web come il browser Lynx. Fino a quando Google non offrirà un meccanismo per indicizzare solo parzialmente una pagina simile all’opzione robots-nocontent da Yahoo!, andrà probabilmente bene così. Google ha esperienza diretta con i problemi che saltano fuori quando i bot eseguono codice web, anche se i problemi di base sono dovuti a siti web mal costruiti.

È da tener presente che quello che è vero oggi può comunque cambiare domani. La capacità tecnica di Google non dovrebbe mai essere sottovalutata!

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.