Una domanda frequente nel processo di posizionamento nei motori di ricerca è “come viene trattato JavaScript e CSS dai motori di ricerca, del tipo di Google?“
Storicamente, i motori di ricerca hanno trattato pagine web in modo molto simile a quello di un vecchio browser testuale tale Lynx. Un motore di ricerca " vedeva" solo quello che un browser povero ha potuto visualizzare – html basilare.
Spinti da questo ragionamento, i consulenti SEO hanno da tempo sostenuto che gli sviluppatori web devono mantenere il codice di un sito più semplice possibile, evitando menu di navigazione nascosti in JavaScript e simili.
Oggi la situazione è più complessa. Google e gli altri motori di ricerca tenteranno di estrarre link da qualsiasi oggetto che trovano – da file PDF ai JavaScript inseriti in una pagina web. Questo processo non è tuttavia privo di difficoltà – un sito dovrebbe ancora evitare di contare esclusivamente su un sistema di navigazione programmato con JavaScript, particolarmente quando CSS rappresenta la scelta migliore.
Possiamo verificare che Google scarica appositamente codice JavaScript e CSS quando questo codice è inglobato in un file di inclusione esterno alle pagine html. Il processo di verifica è abbastanza semplice se avete accesso ai file web log dal server del vostro sito web. Alcune società di hosting, ad esempio l’altrimenti ben riconosciuto Aruba, non forniscono accesso ai server web log nei loro servizi di hosting condiviso. Potreste pensare di escludere società che non supportano completamente i processi di Web Analytics dalla vostra considerazione quando dovete scegliere una società di hosting.
Per verificare che Google sta scaricando i vostri file CSS e/o JavaScript, cercate Googlebot e il vostro file, cioè
grep Googlebot access.log | grep "\.js"
Dove access.log rappresenta il vostro web server log file, il vostro file JavaScript esterno ha un suffisso .js e il vostro sistema operativo sa cosa è grep (se non lo sa, potete usufruire di grep per Windows o cambiare il vostro sistema operativo!).
Il risultato sarà simile a questo:
66.249.66.73 – - [04/May/2007:16:09:36-0700] “GET /j/newslink.js HTTP/1.1″ 200 943 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Abbiamo solo un tipo di link a questo file, una dichiarazione script: (chiaramente riconoscibile come JavaScript). Il file non è elencato in una sitemap xml.
Quindi sembra che, sì, Googlebot rilevi e scarichi i nostri file JavaScript!
Sfortunatamente, non abbiamo ancora terminato le verifiche. Abbiamo bisogno di controllare che Googlebot sia davvero Googlebot e non “qualcuno” che finge di esserlo. Perché qualcuno vorrebbe “truffare” Googlebot costituisce il tema per un altro post; qui è sufficiente dire, che è semplice farlo, ad esempio sfruttando l’UserAgent Switcher per Firefox.
Quindi, come possiamo verificare che Googlebot provenga davvero da Google? Il modo più facile è assicurarsi che l’indirizzo IP corrisponda al crawler Googlebot e viceversa. Questo è un esempio su Linux:
$ host 66.249.66.73
73.66.249.66.in-addr.arpa domain name pointer crawl-66-249-66-73.googlebot.com.
$ host crawl-66-249-66-73.googlebot.com
crawl-66-249-66-73.googlebot.com has address 66.249.66.73
Con questo processo, abbiamo verificato che Googlebot, da 66.249.66.73 (crawl-66-249-66-73.googlebot.com), cerca e scarica i nostri file JavaScript.
Per CSS:
grep Googlebot access.log | grep "\.css"
che risponde:
66.249.66.73 – - [07/May/2007:09:10:07-0700] “GET /c/screen.css HTTP/1.1″ 200 11056 “-” “Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)”
Certo, Googlebot probabilmente non fa una scansione dei vostri file JavaScript e CSS ogni giorno, cosicché dovete controllare file log per un certo lasso di tempo. Potete eseguire controlli simili per Yahoo! Slurp (crawl.yahoo.net) ed Ask Jeeves/Teoma (nome host tipico: egspd42146.ask.com; il numero di 5 cifre è variabile).
Attualmente l’utilizzo da parte di Google di questi file, oltre l’estrazione semplice di link, è probabilmente limitato ad un analisi di spam per i motori di ricerca.
Non abbiamo visto nessuna indicazione che il testo inserito nelle dichiarazioni “document.write” JavaScript, o nascosto da CSS, compaia nei risultati da un’interrogazione in Google. In altre parole, dal punto di vista della visibilità in un motore di ricerca, Google vedrà una pagina web come il browser Lynx. Fino a quando Google non offrirà un meccanismo per indicizzare solo parzialmente una pagina simile all’opzione robots-nocontent da Yahoo!, andrà probabilmente bene così. Google ha esperienza diretta con i problemi che saltano fuori quando i , anche se i problemi di base sono dovuti a siti web mal costruiti.
È da tener presente che quello che è vero oggi può comunque cambiare domani. La capacità tecnica di Google non dovrebbe mai essere sottovalutata!
Ti potrebbero interessare:
- Gli spider o crawler dei motori di ricerca: chi sta visitando il nostro sito e perché?
- Posizionamento del codice JavaScript per la rilevazione delle statistiche nelle pagine Html: all’inizio o alla fine?
- Web Analytics: log file del web server oppure codice JavaScript da inserire nelle pagine Html?
- 6 metodi per controllare quali delle vostre pagine appaiono nei motori di ricerca e in che modo lo fanno
Sono aperte le iscrizioni per il prossimo corso Seo del 16 e 17 novembre e per il del 26 e 27 ottobre. Cosa aspettate?
0 risposte finora ↓
Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..