Diversi mesi fa un cliente mi ha ispirato a scrivere una guida comprensiva su come tenere i contenuti web fuori dai motori di ricerca. Di solito gli amministratori di siti web sono concentrati sull’aspetto opposto dell’ottimizzazione per i motori di ricerca e cioè: vogliono assicurarsi che i contenuti web siano ben indicizzati.
Tuttavia, come molti possono attestare, i motori di ricerca si dimostrano troppo efficienti alla rilevazione di documenti web che non dovrebbero trovare! Di conseguenza, l’esigenza di capire quali siano le opzioni per tenere i contenuti fuori i motori di ricerca, come funzionino le opzioni e quali motori di ricerca le riconoscano.
Un problema con le tecniche finora disponibili è che le scelte per i media digitali sono state limitate. Il modo ufficiale per tenere video, audio, immagini ed i file pdf fuori dai motori di ricerca si attuava mediante il protocollo robots.txt, uno strumento poco efficace per specificare le opzioni per l’indicizzazione nei motori di ricerca a livello di file.
Google, acutamente consapevole della popolarità crescente di video, immagini ed altri tipi di file non-html, ha risposto al divario introducendo . Qualsiasi valore previsto per le tag “meta robots” riconosciute da Google può essere specificato. Anche se la direttiva “X-Robots-Tag” è uno strumento eccellente, temo che l’utilizzo effettivo sarà piuttosto limitato: la maggior parte degli amministratori di siti web hanno probabilmente una scarsa familiarità con mod_headers (Apache) o customHeaders (Microsoft IIS).
Un secondo problema inerente al processo d’indicizzazione dai motori di ricerca è stato rappresentato dal ritardo tra quando una pagina è rimossa da un sito web e quando finalmente sparisce dall’indice di un motore di ricerca. Google affronta anche questo problema introducendo un attributo chiamato unavailable_after per le tag meta e la direttiva “X-Robots-Tag“. Con questa tag, i siti possono specificare quando una pagina dovrebbe essere rimossa dai risultati di ricerca. Sfortunatamente, Google dice che quest’etichetta è attualmente limitata soltanto alla “ricerca web” il che suona un poco strano visto che Google ha anche detto che la ricerca web è diventata la ““, integrando anche le immagini, i video e le mappe nella ricerca di documenti web standard come l’html e i pdf.
Non mi dispiacerebbe vedere i seguenti miglioramenti:
- Nel loro blog su unavailable_after, Google fa riferimento all’ambiguo ed obsoleto RFC 850 per specificare il formato per la data di scadenza. Sarebbe meglio se Google facesse riferimento ad una specifica attuale, come lo standard IETF RFC 3339, assicurando che una data corretta viene formata insieme all’unavailable_after.
- Il dovrebbe far visualizzare tutte le pagine di un sito e le loro data di scadenza, fornendo la conferma che l’intestazione http è stata correttamente impostata.
- La non riflette ancora queste opzioni nuove per l’indicizzazione, nonostante che Google stia parlando di queste opzioni già da qualche settimana.
- Yahoo!, Microsoft ed Ask: vi prego di continuare la cooperazione già dimostrata col e con l’introduzione della tag meta “noodp“. Per favore, adottate la direttiva X-Robots-Tag e l’attributo unavailable_after
Ti potrebbero interessare:
- SEO per multimediale audio e video
- 6 metodi per controllare quali delle vostre pagine appaiono nei motori di ricerca e in che modo lo fanno
- Non entrare: Un aspetto dell’ottimizzazione dei siti per i motori di ricerca spesso trascurato
- Come trarre il meglio da una brutta situazione: comunicare in modo intelligente i disservizi sul web
Sono aperte le iscrizioni per il prossimo corso Seo del 16 e 17 gennaio e per il del 9 e 10 febbraio. Cosa aspettate?
0 risposte finora ↓
Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..