X-Robots-Tag: Ora ci sono 6 modi per tenere i contenuti dei siti web fuori dai motori di ricerca

Scritto da parte di Sean Carlos · Nessun Commento ·

Diversi mesi fa un cliente mi ha ispirato a scrivere una guida comprensiva su come tenere i contenuti web fuori dai motori di ricerca. Di solito gli amministratori di siti web sono concentrati sull’aspetto opposto dell’ottimizzazione per i motori di ricerca e cioè: vogliono assicurarsi che i contenuti web siano ben indicizzati.

Tuttavia, come molti possono attestare, i motori di ricerca si dimostrano troppo efficienti alla rilevazione di documenti web che non dovrebbero trovare! Di conseguenza, l’esigenza di capire quali siano le opzioni per tenere i contenuti fuori i motori di ricerca, come funzionino le opzioni e quali motori di ricerca le riconoscano.

Un problema con le tecniche finora disponibili è che le scelte per i media digitali sono state limitate. Il modo ufficiale per tenere video, audio, immagini ed i file pdf fuori dai motori di ricerca si attuava mediante il protocollo robots.txt, uno strumento poco efficace per specificare le opzioni per l’indicizzazione nei motori di ricerca a livello di file.

Google, acutamente consapevole della popolarità crescente di video, immagini ed altri tipi di file non-html, ha risposto al divario introducendo . Qualsiasi valore previsto per le tag “meta robots” riconosciute da Google può essere specificato. Anche se la direttiva “X-Robots-Tag” è uno strumento eccellente, temo che l’utilizzo effettivo sarà piuttosto limitato: la maggior parte degli amministratori di siti web hanno probabilmente una scarsa familiarità con mod_headers (Apache) o customHeaders (Microsoft IIS).

Un secondo problema inerente al processo d’indicizzazione dai motori di ricerca è stato rappresentato dal ritardo tra quando una pagina è rimossa da un sito web e quando finalmente sparisce dall’indice di un motore di ricerca. Google affronta anche questo problema introducendo un attributo chiamato unavailable_after per le tag meta e la direttiva “X-Robots-Tag“. Con questa tag, i siti possono specificare quando una pagina dovrebbe essere rimossa dai risultati di ricerca. Sfortunatamente, Google dice che quest’etichetta è attualmente limitata soltanto alla “ricerca web” il che suona un poco strano visto che Google ha anche detto che la ricerca web è diventata la ““, integrando anche le immagini, i video e le mappe nella ricerca di documenti web standard come l’html e i pdf.

Non mi dispiacerebbe vedere i seguenti miglioramenti:

Nel loro blog su unavailable_after, Google fa riferimento all’ambiguo ed obsoleto RFC 850 per specificare il formato per la data di scadenza. Sarebbe meglio se Google facesse riferimento ad una specifica attuale, come lo standard IETF RFC 3339, assicurando che una data corretta viene formata insieme all’unavailable_after.
Il dovrebbe far visualizzare tutte le pagine di un sito e le loro data di scadenza, fornendo la conferma che l’intestazione http è stata correttamente impostata.
La non riflette ancora queste opzioni nuove per l’indicizzazione, nonostante che Google stia parlando di queste opzioni già da qualche settimana.
Yahoo!, Microsoft ed Ask: vi prego di continuare la cooperazione già dimostrata col e con l’introduzione della tag meta “noodp“. Per favore, adottate la direttiva X-Robots-Tag e l’attributo unavailable_after

Ti potrebbero interessare:

Originariamente pubblicato 29 Jul 2007

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Web Analytics Association. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

0 risposte finora ↓

Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..

Lascia un commento

Avviso: commenti sono benvenuti nella misura in cui essi aggiungono qualcosa al discorso. Commenti senza nome e cognome e/o con toni negativi senza giustificazione razionale di una propria posizione e/o per terzi fini, corrono il rischio di essere cancellati senza pietà ad imprescindibile discrezione dell'amministratore. Ebbene sì, la vita è dura :-).

X-Robots-Tag: Ora ci sono 6 modi per tenere i contenuti dei siti web fuori dai motori di ricerca

Scritto da parte di Sean Carlos · Nessun Commento ·

Ti potrebbero interessare:

0 risposte finora ↓

Lascia un commento

Cerca nel sito

Abbonati al feed!

Articoli Recenti

Grazie per la visita!

Commenti recenti

Blogroll

Corsi

Consulenza