6 metodi per controllare quali delle vostre pagine appaiono nei motori di ricerca e in che modo lo fanno

Scritto da parte di sean · Nessun Commento

Può sembrare paradossale, ma ci sono davvero molte occasioni in cui è possibile che vogliate escludere un sito, o parte di un sito, dalla scansione ed indicizzazione dei motori di ricerca. Una necessità tipica è quella di tenere pagine duplicate, come versioni da stampare, fuori da un motore di ricerca. Lo stesso vale per pagine disponibili sia in HTML che PDF. Altri esempi comprendono “pagine di servizio” come messaggi di errore e pagine di conferma di attività.

Ci sono numerosi modi per evitare l’indicizzazione delle pagine di un sito in , !, Microsoft Live o Ask. In questo articolo consideriamo diversi metodi per bloccare i motori di ricerca, tenendo conto dei pro e dei contra di ogni metodo.

A te basta solo verificare il supporto dei motori per le direttive REP? Vai a:

Tabella di supporto per le direttive REP / robots.txt da parte dei motori di ricerca
Tabella di riepilogo delle Meta Tag

1. Utilizzate un file di esclusione di robot, robots.txt

Nel lontano 1994 gli iscritti ad una lista di discussione di robot web hanno concordato un metodo per indicare ai robot che si comportano bene, ad esempio ai ragni dei motori di ricerca, che certi contenuti di un sito sono off-limits.

Lo standard di esclusione di robot, come articolato nel protocollo robots.txt, dice che i ragni (spider) dovrebbero cercare un file di testo semplice chiamato robots.txt nella directory (radice) principale di un sito. Per escludere che tutti i robot scansionino directory chiamate vendite e immagini, viene utilizzata la seguente sintassi:

User-agent: *
Disallow: /vendite/
Disallow: /immagini/

Un errore comune è dimenticare l’ultimo “/” – abbiamo individuato questo errore in un recente articolo postato su un .

User-agent: googlebot
Disallow: /vendite

Tale sintassi impedirà la scansione (e quindi l’indicizzazione) di qualsiasi file che inizi con vendite* – di solito quello che non volete. In questo caso, abbiamo limitato l’esclusione a googlebot. A tal riguardo consultate il nostro articolo ragni dei motori di ricerca per avere una lista di robot associati a ognuno dei motori di ricerca principali.

Suggerimento Consigliamo l’utilizzo di almeno un file robots.txt di norma per evitare messaggi di “404 Errore – File Non Trovato” nei vostri log di web server ogni volta che un robot ben educato cerchi un file robots.txt inesistente. Il file di norma contiene le seguenti righe:

User-Agent: *
Allow: /

Nota che Allow è la norma; l’unica ragione per utilizzare un tale file è finalizzata ad evitare di innescare errori di file non trovato.

Corrispondenza al modello

Alcuni motori di ricerca riconoscono estensioni alla specifica robots.txt originale che permettono corrispondenza al modello URL.

Carattere del modello	Descrizione	Esempio	Riconoscimento dei motori di ricerca
*	Corrisponde a una sequenza di caratteri	User-Agent: * Disallow: /stampa*/	Google, Yahoo, Microsoft
$	Corrisponde alla fine di un URL	User-Agent: * Disallow: /*.pdf$	Google, Yahoo, Microsoft

Rif: , Yahoo!, Microsoft. Al momento di questa stesura, Ask non riconosce ufficialmente queste estensioni.

Considerazioni sull’organizzazione delle directory di un sito

Progettando un nuovo sito, o rivedendo un sito esistente, suggeriamo di organizzare i contenuti da escludere dai motori di ricerca in apposite directory; altrimenti un file robots.txt diventa ingombrante. Al momento di questa scrittura, il file robots.txt per whitehouse.gov contiene quasi 2000 righe.

Pro

Il protocollo robots.txt è ampiamente adottato dai ragni (spider) web.
Le visite dei robot possono essere tracciate controllando gli accessi al file robots.txt con uno strumento di web analytics basato sui file log (sfortunatamente gli strumenti di statistiche siti basati sul codice JavaScript non possono tracciare la maggior parte dei robot).
Può essere applicato ad un intero sito o solo ad una sezione di esso.
Nessun codice supplementare da aggiungere a pagine del sito è necessario.

Contra

robots.txt è ignorato dai robot che si comportano male.
Chiunque può leggere il vostro file robots.txt – infatti c’è un blog robots.txt. Quindi, robots.txt non è il luogo adatto per elencare directory e file “segreti”.

Sommario Direttive robots.txt

Direttiva	Descrizione	Google	Bing	Yahoo	Teoma	Blekko	Naver	Yandex	Rambler	Baidu	Sogou
Allow	Consentire la scansione di un percorso particolare	✔	✔	✔	✔	✔	✔	✔	?	✔	✔
Disallow	Non consentire la scansione di un percorso particolare	✔	✔	✔	✔	✔	✔	✔	✔	✔	✔
Crawl-delay	Controlla il tempo tra due richieste successive verso un sito. In genere espresso in secondi.	✘	✔	✔	✔	✔	✔	✘	✘	✘	✘
Pattern Match *	* utilizzato per rappresentare più caratteri	✔	✔	✔	✘	✔	✘	✔	✘	✔	?
Pattern Match $	$ usato per terminare la stringa	✔	✔	✔	✘	✔	✘	✔	✘	✔	?
Sitemap	Utilizzato per indicare un percorso sitemap. Non è una buona idea – si dice al mondo intero dove si trova un elenco dei file del sito. Un approccio migliore è di eseguire il ping verso ciascun motore di ricerca quando questo file è variato.	✔	✔	✔	✔	✘	✘	✔	✘	✘	✘
searchpreview	Non consentire un’immagine di anteprima del sito nei risultati di una ricerca	✘	È stato utilizzato da Windows Live Search per disabilitare una miniatura di anteprima della pagina	✘	✘	✘	✘	✘	✘	✘	✘
Clean-param	Specificare uno o più parametri per essere rimosso dal percorso URL	✘	✘	✘	✘	✘	✘	✔	✘	✘	✘
Host	Utilizzato per identificare i siti mirror (specchio) che dovrebbero essere esclusi dall’indicizzazione	✘	✘	✘	✘	✘	✘	✔	✘	✘	✘
robots conosciuti	Elenco dei robot utilizzati dai motori di ricerca. Alcuni impiegano robot distinti per eseguire la scansione delle immagini, feed ed altri tipi di media. Google utilizza bot specifici per i suoi programmi pubblicitari AdWords ed AdSense. Alcuni bot sono specifiche a regioni, come Yahoo Slurp Cina. Non tutti i meta tag sono applicabili a tutti i robot.	adsbot-google, feedburner, feedfetcher-google, google wireless transcoder, google-site-verification, google-sitemaps, googlebot, googlebot-image, googlebot-mobile, googlebot-news, gsa-crawler, mediapartners-google	bingbot, bingbot-media, msnbot, msnbot-academic, msnbot-media, msnbot-newsblogs, msnbot-products, msnbot-udiscovery		teoma	scoutjet	naverbot, yeti	Yandex	StackRambler	baiduspider, baiduspider-cpro, baiduspider-favo, baiduspider-image, baiduspider-mobile, baiduspider-news, baiduspider-video	Sogou web spider
Geografia		Internazionale	Internazionale	Eccetto US/Canada	Fino a nov. 2010: USA, UK, Germania, Francia, Italia, Giappone, Paesi Bassi, Spagna	US	Corea	Russia	Russia	Cina	Cina

Fonti di approfondimento su robots.txt per i motori di ricerca

2. Utilizzate la tag meta “noindex” nelle pagine

Le pagine possono essere etichettate utilizzando “dati meta” per indicare che esse non dovrebbero essere indicizzate dai motori di ricerca. Aggiungete semplicemente i seguenti codici a qualsiasi pagina che non volete venga indicizzata da un motore di ricerca:

È da tenere presente che i ragni dei motori di ricerca continueranno a scansionare queste pagine. La scansione delle pagine etichettate “noindex” è necessaria allo scopo di controllare lo stato attuale dei meta tag per i robot di una pagina.

Suggerimento Non c’è alcuna necessità di utilizzare un’etichetta index; index è l’opzione di norma. L’utilizzo di un’etichetta di norma aggiunge peso alle vostre pagine web senza aggiungerne valore. L’unico caso in cui potreste utilizzarle è quando si intende sovrascrivere un’impostazione globale:

Pro

Permette di specificare comandi robot a livello di pagina.

Contra

L’uso di una tag meta noindex è possibile solo con pagine html (che comprendono pagine dinamiche come php, jsp ed asp). Non è possibile escludere altri tipi di file come pdf, doc, odt.
Le pagine saranno ancora scansionate dai motori di ricerca per controllare le impostazioni attuali dei tag meta. Appoggiarsi al file di robots.txt evita questo traffico aggiuntivo.

3. Proteggete contenuto sensibile con una password

Il contenuto sensibile viene di solito protetto richiedendo ai visitatori di immettere un nome utente (username) e una password. Tale contenuto sicuro non sarà scansionato dai motori di ricerca. Le password possono essere impostate al livello di server web o al livello di applicazione. Nel caso di logon gestito dai server web, consultate la documentazione di autenticazione Apache o la documentazione di Microsoft IIS.

Pro

È un modo efficace per nascondere contenuto, destinato a un pubblico limitato, ai motori di ricerca, ad altri robot ed a un pubblico vasto.

Contra

I visitatori faranno lo sforzo di accedere ad aree protette solo se questi sono fortemente motivati a visionare quel contenuto.

4. Nofollow: Dite ai motori di ricerca di ignorare alcuni o tutti i link in una pagina

Come risposta a “spam” nei commenti sui blog, i motori di ricerca hanno introdotto un modo con il quale i siti possono indicare ad un ragno di un motore di ricerca di ignorare uno o più link in una pagina. In teoria, i motori di ricerca non “seguono” un link che è stato “protetto” facendone la scansione. Per tenere tutti i link su una pagina lontani dai motori, utilizzate una tag meta nofollow:

Per specificare nofollow al livello di link, aggiungete l’attributo rel con il valore nofollow al link:

Contra

Le nostre prove dimostrano che alcuni motori di ricerca seguono ed indicizzano link targati nofollow. L’etichetta nofollow diminuirà probabilmente il valore che un link fornirà ma non può essere utilizzata in modo attendibile per impedire ai motori di ricerca di seguire un link.

5. Non collegatevi a pagine che volete tenere fuori dai motori di ricerca

I motori di ricerca non indicizzeranno contenuto a meno che essi non ne siano a conoscenza. Così, se nessuno si collega a pagine né le segnala a un motore di ricerca, un motore di ricerca non le troverà. Almeno questa è la teoria. In realtà, il web è così grande, si può facilmente immaginare che, prima o poi, un motore di ricerca sarà in grado di trovare una pagina – qualcuno farà un link alla pagina.

Contra

Chiunque può collegarsi alle vostre pagine in qualsiasi momento.
Alcuni motori di ricerca possono controllare le pagine viste attraverso le barre degli strumenti installate presso i pc dei molti navigatori web. Essi possono impiegare in futuro queste informazioni come mezzi per scoprire e indicizzare nuovo contenuto (pagine html, pdf, doc, etc.).

6. Utilizzare la X-Robots-Tag nelle intestazioni http

Nella soluzione 1 sopra, abbiamo notato che l’utilizzo di robots.txt espone esplicitamente almeno una parte della struttura del vostro sito, qualcosa che si potrebbe volere evitare. Sfortunatamente, la soluzione 2, l’utilizzo di meta tag, funzione soltanto per i documenti html – non c’è un modo per specificare le istruzioni di indicizzazione per i PDF, odt, doc ed altro file non-html.

Nel luglio 2007, a questo problema: la capacità di consegnare le istruzioni di indicizzazione nelle informazioni dell’intestazione http che sono inviate dal server web con un file. Yahoo! ha annunciato supporto per X-Robots in dicembre 2007.

Il server web deve semplicemente aggiungere X-Robots-Tag e qualunque dei valori meta tag riconosciuti da Google o Yahoo! all’intestazione http per un file:

X-Robots-Tag: noindex

Pro

Un modo elegante per specificare le istruzioni per la scansione di file non-html ai motori di ricerca senza dover utilizzare robots.txt.
Facile da configurare utilizzando la sintassi Apache mod_headers.

Contra

La maggior parte dei webmaster probabilmente non si trovano a loro adagio nello specificare le intestazioni http.
Il supporto per aggiungere le intestazioni http in Microsoft IIS tradizionalmente è stato molto limitato.
Supporto per X-Robots-Tag è attualmente limitato a Google ed Yahoo!. Speriamo che Microsoft ed Ask abbracciano questo approccio.

aggiunto li 2007-07-27. Aggiornato 2007-12-05.

Bloccare parzialmente l’apparizione di contenuto di una pagina nei motori di ricerca.

Ci sono casi dove solo una sezione di una pagina è da tenere fuori di un motore di ricerca. Da maggio 2007 Yahoo! offre un attributo html class=”robots-nocontent” per questo scopo. Vedete la nostra discussione di class=”robots-nocontent” per maggior dettagli.

Rimozione di pagine che sono già state indicizzate

La soluzione migliore è quella di utilizzare uno dei metodi già discussi. Nel tempo i motori di ricerca aggiorneranno i loro indici mediante la normale scansione. Se volete rimuovere contenuto subito, appositamente pensato a tale scopo. Le pagine indicate saranno rimosse per almeno sei mesi. Questo processo non è privo di rischio: se inserite un URL errato, potete scoprire che il vostro intero sito è stato rimosso da Google.

Rimozione del vostro contenuto che appare su siti di terzi

Ci sono occasioni in cui potete trovare un sito nella classifica dei risultati di una ricerca in un motore di ricerca che ha copiato pagine dal vostro sito senza autorizzazione. In questi casi, si applicano le procedure di violazione dei diritti di autore. L’approccio migliore è chiedere direttamente al sito colpevole di rimuovere il materiale tutelato dal diritto di autore. Nel caso che questa procedura non si dimostri efficace, dovreste notificare a ciascun motore di ricerca la violazione del diritto di autore. La maggior parte dei motori di ricerca americani modellano le loro procedure di segnalazione di violazione del diritto di autore sulle richieste nell’americano Atto Millennium dei Diritti di autore” (pdf).

Procedura di Violazione dei diritti di autore

Ogni motore di ricerca prevede una procedura da seguire nel caso in cui il trasgressore dei diritti di autore si dimostri non sensibile ad una richiesta diretta.

Google
Yahoo!
Ask Notifica di marchio registrato e copyright
Microsoft Windows Live Come presentare una comunicazione di violazione dei diritti di autore

Protocollo di Accesso Automatizzato a Contenuto

Numerose associazioni editoriali si sono unite in un progetto per definire una specifica che permetterebbe restrizioni più mirate sull’uso dei contenuti da parte dei motori di ricerca. Il progetto, Automated Content Access Protocol, sembra essere mosso soltanto dal desiderio di partecipare agli utili che i motori di ricerca derivano quando presentano sommari di contenuto da vari editori, invece di una risposta a limitazioni nelle soluzioni di robots.txt e meta tag attuali.

Al momento di questa stesura (febbraio 2007), nessun motore di ricerca ha annunciato un coinvolgimento in questo progetto. Senza un sostegno da parte dei motori di ricerca, il progetto non può partire.

Controllo aggiuntivo sulla visualizzazione di contenuto nei Motori di Ricerca

Numerosi motori di ricerca sostengono anche modi che i webmaster possono controllare ulteriormente sull’utilizzo dei loro contenuti da parte di motori di ricerca.

Noarchive

La maggior parte dei motori di ricerca permettono a un visitatore di esaminare una copia della pagina web effettivamente indicizzata dal motore di ricerca. Questa fotografia di una pagina nel tempo viene definita la copia cache. I visitatori Internet possono trovare queste funzionalità veramente utili, particolarmente se il link non è più disponibile o il sito è giù.

Ci sono diversi motivi per disabilitare la visualizzazione della copia cache per una pagina o un intero sito web.

Il proprietario di un sito può non volere che i visitatori prendano in esame dati, come listini prezzi, che non sono necessariamente aggiornati.
Le pagine web visualizzate da una cache di un motore di ricerca possono non comparire correttamente se le immagini integrate non sono disponibili e/o il codice client per il browser come CSS e JS non esegue correttamente.
Le visualizzazioni di pagine cache non vengono tracciate in un sistema di web analytics basato sui web server log. Si potrebbero verificare problemi di tracciamento in sistemi basati sui tag javascript visto che il codice verrà eseguito su un dominio di terzi, ad esempio google.com.

Se volete che un motore di ricerca indicizzi le vostre pagine senza permettere la visualizzazione di una copia cache, utilizzate l’attributo noarchive che viene riconosciuto ufficialmente da Google, Yahoo!, Windows Live ed Ask:

Microsoft documenta l’attributo nocache, che è equivalente a noarchive, anche riconosciuto da Microsoft; non c’è alcun motivo per utilizzarlo.

Opzione per nessun sommario: nosnippet

Google offre un’opzione per sopprimere la generazione di sommari di pagine nei risultati di una ricerca, chiamati snippet ossia frammenti. Utilizzate la seguente tag meta nelle vostre pagine:

Google nota che questa opzione imposta anche l’opzione noarchive. Vi suggeriamo di utilizzarla esplicitamente se è quello che volete.

Opzione per il titolo di una pagina: noodp

I motori di ricerca si appoggiano generalmente al titolo html di una pagina quando creano il titolo del risultato di una ricerca, il link su cui un utente può cliccare per arrivare a un sito web. In alcuni casi, i motori di ricerca possono utilizzare un titolo alternativo preso da una directory come dmoz, o la Yahoo! directory. Storicamente, molti siti hanno utilizzato titoli deboli – in pratica solo il nome della società, o anche peggio, del tipo ““. L’utilizzo di un titolo redatto a mano da una directory è stato spesso una buona soluzione rispetto alla prevalenza di titoli scadenti. Oggi più webmaster sono consapevoli dell’importanza dei titoli sia per l’usabilità sia per risultati dei motori di ricerca. Il metatag noodp, supportato da Microsoft, Google ed Yahoo, permette a un webmaster di indicare che il titolo di una pagina dovrebbe essere utilizzato al posto del titolo dmoz.

Allo stesso modo Yahoo! offre un’opzione, “noydir“, per evitare che Yahoo! si appoggia ai titoli utilizzati nel directory Yahoo! nei risultati della ricerca per le pagine di un sito:

Anteprima del sito

Windows Live di Microsoft può offrire una visualizzazione in anteprima dei primi sei risultati della ricerca in alcune geografie. (Ask offre una funzionalità simile chiamata binocoli.) L’anteprima può essere disabilitata bloccando il robot searchpreview nel file robots.txt

User-agent: searchpreview
Disallow: /

O utilizzando una tag meta che contiene “noimageindex, nomediaindex”:

Nel passato, AltaVista utilizzava questa tag; non risulta che essa venga utilizzata oggi dai motori di ricerca principali.

Scadenza nell’indice Google con “unavailable_after”

Un problema con i motori di ricerca è il ritardo che accade da quando il contenuto è rimosso da un sito web e quando quel contenuto scompare effettivamente dai risultati di un motore di ricerca. Tipicamente Il tempo contenuto dipendente include le campagne di informazioni di avvenimento e compra-vendita.

Non le pagine hanno tolto da un sito web che appare tuttavia nei risultati di motore di ricerca risulta generalmente in un’esperienza di operatore frustrando – gli scatti di operatore di Internet attraverso al sito web soltanto loro trovare stessi atterrando su un “la Pagina trovato” la pagina di errore.

Nel 2007 luglio, Google ha introdotto l’ “unavailable_after” l’etichetta che consente un sito web specificare anticipatamente quando una pagina dovrebbe essere tolta dai risultati di motore di ricerca, cioè quando scaderà. Quest’etichetta può essere come specificata un valore di attributo di etichetta di meta di html:

o in un’intestazione di http di X-ROBOT: or in an X-robots http header:

X-Robots-Tag: unavailable_after: 7 Jul 2037 16:30:00 GMT

Google dice che il formato di data dovrebbe essere uno di quelli specificato dal da RFC ambiguo ed obsoleto 850. Speriamo che Google che chiarifica i formati di data il loro parser può leggere referering a una norma di data attuale, come l’Internet di IETF RFC standard 3339. Ameremmo vedere anche che la pagina dettagliata striscia le informazioni negli Attrezzi di Webmaster del Google. Potrebbe non solo la mostra di Google quando una pagina era ultima, potrebbero aggiungere le informazioni di scadenza, confermando l’uso proprio dell’ unavailable_after l’etichetta. A un punto, Google ha mostrato un’approssimazione del numero di pagine ha strisciato relativo al numero specificato in un sitemap, ma quella caratteristica era tolta. Questo è un caso dove Google dovrebbe seguire l’esempio del Yahoo.

Pro

Una maniera piacevole di assicurare i risultati di motore di ricerca sono syncronized col contenuto di sito web attuale.

Contra

Vecchio RFC di descrizione di data 850 è troppo ambigui, così il soggetto all’errore.
Unavailable_after il sostegno è attualmente limitato a Google. Speriamo che gli altri maggiori motori di ricerca abbracciano quest’approccio come bene.

aggiunto li 2007-07-27.

Riepilogo delle Meta Tag

La seguente tabella riassume le tag meta che possono essere utilizzate per specificare come un motore di ricerca indicizzi e visualizzi una pagina. Tag positive, come follow, non sono catalogate poiché esse rappresentano la norma. Le tag possono di solito essere combinate, ad esempio “noarchive,nofollow” e non sono sensibili a maiuscolo/minuscolo.

Tag	Descrizione	Google	Bing	Yahoo	Ask	Blekko	Naver	Yandex	Rambler	Baidu	Sogou
noindex	Non indicizzare una pagina (implica noarchive / nocache)	✔	✔	✔	✔	✔	✔	✔	✔	?	?
nofollow	Non seguire, cioè non scansionare, i link nella pagina	✔	✔	✔	✔	✔	✔	✔	✔	✔	?
noarchive	Non offrire una copia cache della pagina indicizzata	✔	✔	✔	✔	✔	✔	✔	✘	✔	?
nocache	Stesso come noarchive	✘	✔	✘	✘	✘	✘	✘	✘	✘	?
none	Equivalente a noindex, nofollow	✘	✘	✘	✔	✘	✘	✔	✔	✘	?
nosnippet	Non visualizzare un sommario per questa pagina. Per Google, significa anche noarchive e, da nov 2010, nessuna immagine di anteprima.	✔	✔	✘	✘	✘	✘	✘	✘	✘	?
noodp	Non utilizzare un eventuale titolo dalla open directory per questa pagina	✔	✔	✔	✘	✘	✘	✘	✘	✘	?
noydir	Non utilizzare un titolo dal directory Yahoo! per la pagina	✘	✘	✔	✘	✘	✘	✘	✘	✘	✘
nopreview	Non visualizzare una anteprima del sito nei risultati di ricerca	✘	✔	✘	✘	✘	✘	✘	✘	✘	✘
noimageindex	Non indicizzare le immagini specificati in questa pagina	✔	È stato utilizzato da Windows Live Search per disabilitare una miniatura di pagina in anteprima	✘	✘	✘	✘	✘	✘	✘	✘
nomediaindex	Non indicizzare gli oggetti specificati in questa pagina	✘	È stato utilizzato da Windows Live Search per disabilitare una miniatura di pagina in anteprima	✘	✘	✘	✘	✘	✘	✘	✘
unavailable_after: RFC 850>	Non far vedere nei risultati di una ricerca dopo questa data ed ora. Nei fatti, Queste informazioni è trattata come una richiesta di rimozione: serverà un giorno dopo la data di rimozione per la pagina a scomparire dai risultati di ricerca. Attualmente riconosciamo unavailable_after soltanto per i risultati della ricerca web.	✔	✘	✘	✘	✘	✘	✘	✘	✘	✘
notranslate	Non consentire Google a tradurre in automatico una pagina. Pari che questo è stato introdotto senza pensare troppo. Il sintassi utilizza il sostantivo “google” invece di “robots”, e.g. (2008-10-14)	✔	✘	✘	✘	✘	✘	✘	✘	✘	✘
msvalidate.01	Verifca da parte degli strumenti webmaster Bing	na	✔	na	na	na	na	na		na	na
google-site-verification (was verify-v1)	Verifca da parte degli strumenti webmaster Google	✔	na	na	na	na	na	na		na	na
robots conosciuti	Elenco dei robot utilizzati dai motori di ricerca. Alcuni impiegano robot distinti per eseguire la scansione delle immagini, feed ed altri tipi di media. Google utilizza bot specifici per i suoi programmi pubblicitari AdWords ed AdSense. Alcuni bot sono specifiche a regioni, come Yahoo Slurp Cina. Non tutti i meta tag sono applicabili a tutti i robot.	adsbot-google, feedburner, feedfetcher-google, google wireless transcoder, google-site-verification, google-sitemaps, googlebot, googlebot-image, googlebot-mobile, googlebot-news, gsa-crawler, mediapartners-google	bingbot, bingbot-media, msnbot, msnbot-academic, msnbot-media, msnbot-newsblogs, msnbot-products, msnbot-udiscovery		teoma	scoutjet	naverbot, yeti	Yandex	StackRambler	baiduspider, baiduspider-cpro, baiduspider-favo, baiduspider-image, baiduspider-mobile, baiduspider-news, baiduspider-video	Sogou web spider
Geografia		Internazionale	Internazionale	Eccetto US/Canada	Fino a nov. 2010: USA, UK, Germania, Francia, Italia, Giappone, Paesi Bassi, Spagna	US	Corea	Russia	Russia	Cina	Cina

Ultimo Aggiornamento: novembre 2010

Post correlate:

Se sei qui da poco, ti prego di iscriverti al mio feed RSS oppure di seguirmi su , che viene aggiornato più frequentemente – e talvolta in modo più casual – in inglese e/o in italiano. Grazie per la visita!

Originariamente pubblicato 17 Feb 2007

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Web Analytics Association. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

0 risposte finora ↓

Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..

Lascia un commento

Avviso: commenti sono benvenuti nella misura in cui essi aggiungono qualcosa al discorso. Commenti senza nome e cognome e/o con toni negativi senza giustificazione razionale di una propria posizione e/o per terzi fini, corrono il rischio di essere cancellati senza pietà ad imprescindibile discrezione dell'amministratore. Ebbene sì, la vita è dura.

6 metodi per controllare quali delle vostre pagine appaiono nei motori di ricerca e in che modo lo fanno

Scritto da parte di sean · Nessun Commento

1. Utilizzate un file di esclusione di robot, robots.txt

Corrispondenza al modello

Considerazioni sull’organizzazione delle directory di un sito

Sommario Direttive robots.txt

Fonti di approfondimento su robots.txt per i motori di ricerca

2. Utilizzate la tag meta “noindex” nelle pagine

3. Proteggete contenuto sensibile con una password

4. Nofollow: Dite ai motori di ricerca di ignorare alcuni o tutti i link in una pagina

5. Non collegatevi a pagine che volete tenere fuori dai motori di ricerca

6. Utilizzare la X-Robots-Tag nelle intestazioni http

Bloccare parzialmente l’apparizione di contenuto di una pagina nei motori di ricerca.

Rimozione di pagine che sono già state indicizzate

Rimozione del vostro contenuto che appare su siti di terzi

Procedura di Violazione dei diritti di autore

Protocollo di Accesso Automatizzato a Contenuto

Controllo aggiuntivo sulla visualizzazione di contenuto nei Motori di Ricerca

Noarchive

Opzione per nessun sommario: nosnippet

Opzione per il titolo di una pagina: noodp

Anteprima del sito

Scadenza nell’indice Google con “unavailable_after”

Riepilogo delle Meta Tag

Post correlate:

0 risposte finora ↓

Lascia un commento

Cerca nel sito

Abbonati al feed!

Post Recenti

Commenti recenti

Blogroll

Corsi

Consulenza