Logo AntezetaAntezeta Web Marketing

Riflessioni sul marketing online, SEO e Web Analytics compresi

Antezeta Web Marketing header image 2

Come specificare la lingua di un documento Html

Scritto da parte di sean · Nessun Commento

Avete appena scritto un brillante saggio sull’Ulysses di James Joyce – in Lingua Gaelica. Saranno in grado Yahoo!, , Microsoft ed Ask di riconoscerlo come Gaelico, come documento ospitato sul vostro dominio inglese co.uk? Forse. Ma, per sicurezza, è possibile fornire ai qualche suggerimento!

Il segreto consiste nello sfruttare tutte le impostazioni Http e Html per il codice della lingua disponibile per accertarsi che l’identificazione dei tuoi documenti sia corretta. Questo articolo considera aspetti Http e Html di internazionalizzazione dei siti web nell’ottica del posizionamento sui motori di ricerca.

Perché il riconoscimento della lingua è un problema?

I tentano di associare la lingua di un navigatore (in base al riconoscimento dell’ubicazione fisica – grazie alle tecniche geo ip – o ad una preferenza specificata dall’utente) ai documenti web in modo da mostrare i risultati migliori per una determinata ricerca. In alcuni casi, un utente può chiedere che i risultati siano limitati ad una lingua specifica. Senza indicazioni, i si servono di alcuni indizi per determinare la lingua umana di un documento:

  • Il dominio del paese del sito
  • Il paese in cui il sito è ospitato
  • La lingua dei documenti collegati al documento stesso
  • Un’analisi di forme ricorrenti nel testo del documento

Ognuno di questi approcci presenta delle contro indicazioni. Vediamo le principali:

Il suffisso del dominio del paese di un sito web: anche se è probabile che un sito con un’estensione .de sia in lingua tedesca, c’è tuttavia la possibilità che una società tedesca abbia pubblicato il contenuto in altre lingue per un pubblico internazionale. Alcuni di paese, come il .ch della Svizzera, sono utilizzati da paesi con più lingue ufficiali – in questo caso tedesco, francese, italiano e il romancio.

Ubicazione del server che ospita il sito: molti siti sono fisicamente in luoghi lontani dal pubblico di destinazione, visto che sfruttano servizi di hosting più economici.

La lingua dei documenti collegati: dal momento che Internet è una rete di collegamenti, anche linguistici, è piuttosto comune per delle pagine web citare una fonte autorevole, anche se è in un’altra lingua (inglese, ad esempio).

Analisi di forme ricorrenti di testo (pattern): è probabilmente il metodo più preciso, specialmente per documenti di una certa lunghezza. Anche se i non rivelano i loro metodi, consideriamo ad esempio l’istruzione perl Lingua::Identify che attualmente riconosce 33 lingue. Lingua::Identify utilizza una insieme di quattro metodi per analizzare il testo; riportiamo nel seguito la documentazione per Lingua::Identify, tradotta dall’inglese:

  1. Tecnica Small Word

    La “Tecnica Small Word” esamina il testo in cerca delle parole più comuni per ogni lingua abilitata. Queste parole sono di solito articoli, pronomi, ecc, che sono di solito le parole più brevi della lingua; da cui il nome del metodo. Per testi estesi si rivela solitamente un buon metodo.

  2. Analisi del prefisso

    Questo metodo analizza il testo alla ricerca dei prefissi comuni di ogni lingua abilitata.

  3. Analisi del suffisso

    Simile all’analisi del prefisso ma invece esegue l’analisi dei suffissi più comuni.

  4. Categorizzazione N-gram

    N-gram è una sequenza di gettoni. Si possono anche immaginare come sillabe, ma spesso sono più ampi poiché comprendono non solo i caratteri, ma anche gli spazi (parole che delimitano o dividono).

    N-gram è un ottimo modo per identificare le lingue, dato che i gettoni più comuni in una lingua non sono generalmente molto comuni nelle altre. Maggiori informazioni su sono disponibili presso i laboratori di ricerca di Google

Nonostante tali metodi è possibili con poco sforzo aiutare i nella scelta.

Opzioni per le intestazioni Http

A livello di web server, lo standard Http prevede l’impostazione Content-Language. Per gli utenti del server Apache, si può utilizzare la sintassi AddHeading, cioè

AddLanguage it .html

per i documenti in italiano. Una politica più raffinata può aggiungere questa intestazione in base ai file e alle cartelle, cioè per i contenuti nella cartella /it/ viene impostata la lingua a it. Per i documenti sotto la cartella /de/ imposta la lingua a de. Per una lista completa dei codici validi vedere ISO 639 Codici di Lingua.

Opzioni per i documenti Html

Ci sono numerose opzioni a livello di documento Html. Basato sull’opzione di intestazione http vista poc’anzi, c’è il meta tag http equiv, cioè


Avvertimento Anche se viene talvolta utilizzata, la seguente istruzione è errata:

Così come per tutti i meta tag http-equiv, il valore Content-Language dovrebbe essere impostato a livello di intestazione http poiché i meta tag http-equiv sono spesso ignorati dai vari utilizzatori delle meta informazioni Internet (tra questi i principali sono browser, cache, robot dei ). Purtroppo non sono così equivalenti come si puoi credere!

La sintassi html consente anche un attributo lang per modificare la maggior parte delle etichette html. Puoi mettere questo al livello del documento, cioè


o per xhtml:


Questa etichetta può essere applicata anche a blocchi html che sono in altre lingue. Cosicché se un paragrafo è in francese, si può aggiungere solo lang=”fr” all’apertura delle etichettate p:

I link a documenti in altre lingue possono utilizzare l’attributo hreflang aggiunto in html 4.0 per specificare la lingua del documento di destinazione:

Antezeta.it

Consigli da Yahoo!

Finora, i hanno fornito poche indicazioni su quello che occorre fare per assicurare che la lingua delle pagine di un sito web venga rilevata correttamente. Yahoo! ha recentemente rilasciato la seguente nota:

… analizziamo il contenuto della pagina, il dominio ad alto livello su cui è ospitato il sito, e la lingua e la regione dei documenti associati al sito. Impieghiamo anche l’etichetta http-equiv=”Content-Language” come input importante. Questa etichetta permette di indicare in quale lingua dovrebbe essere una pagina web, ad esempio:


– indica che ci si aspetta che la pagina sia in inglese. Tuttavia, questo non è il nostro solo input e se questo è errato, facciamo del nostro meglio per attribuire la lingua effettiva alla pagina.

Post correlate:

Originariamente pubblicato 17 Aug 2006

  • Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Web Analytics Association. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

0 risposte finora ↓

  • Non ci sono ancora commenti. Rompi il ghiaccio compilando il modulo qui sotto..

Lascia un commento

Avviso: commenti sono benvenuti nella misura in cui essi aggiungono qualcosa al discorso. Commenti senza nome e cognome e/o con toni negativi senza giustificazione razionale di una propria posizione e/o per terzi fini, corrono il rischio di essere cancellati senza pietà ad imprescindibile discrezione dell'amministratore. Ebbene sì, la vita è dura.