Caratteri accentati, simboli e caratteri speciali in documenti HTML: considerazioni per il posizionamento nei motori di ricerca, usabilità e feed XML

Caratteri accentati, simboli e caratteri speciali in documenti Html: considerazioni per il Posizionamento nei Motori di Ricerca, Usabilità e Feed Xml

Un argomento che la maggior parte dei Webmaster internazionali devono affrontare è come gestire correttamente i caratteri speciali I documenti Html devono contenere sia le parole con le lettere accentate sia quelle senza per poter essere trovate nei motori di ricerca?

Continuando la nostra serie di articoli sull’internazionalizzazione di siti per la visibilità nei motori di ricerca, daremo ora uno sguardo su come possono essere specificati in un documento Html i caratteri speciali e come questi caratteri sono gestiti dai motori di ricerca come Google, Yahoo, Ask e Microsoft MSN.

Agli albori dell’informatica, i tecnici hanno fatto corrispondere ognuna delle lettere dell’alfabeto latino utilizzato dalla lingua inglese ad un codice numerico specifico. Questa corrispondenza è diventata nota come il set di caratteri Ascii. Sfortunatamente, non sono state previste le vocali accentate e i simboli semigrafici che si possono trovare in molte lingue che condividono l’uso dell’alfabeto romano.

Alla fine diversi produttori di computer hanno aggiunto la gestione dei caratteri speciali, ciascun utilizzando un sistema di corrispondenza diverso. Sfortunatamente, queste corrispondenze non sono generalmente compatibili da un sistema ad un altro. Oggi questo problema si manifesta talvolta quando i caratteri strani appaiano in un file di testo, messaggi e pagine web visualizzati su computer diversi da quelli in cui sono stati scritti.

Suggerimenti per inserire Caratteri Speciali nei documenti Html

I siti che contengono pagine in lingue diverse dall’inglese devono prestare particolare attenzione a come gestiscono i caratteri speciali. L’impiego corretto dei caratteri incide infatti sia sull’usabilità sia sul posizionamento nei motori di ricerca.

Sono disponibili differenti soluzioni, tutte compatibili con i motori di ricerca. Possono essere raggruppate come:

  1. Evitare l’uso di caratteri speciali.
  2. Inserire caratteri direttamente dalla tastiera.
  3. Utilizzare Riferimenti di Entità Html.

Evitare l’uso di Caratteri Speciali.

Invece di utilizzare un carattere accentato, l’accento è messo dopo il carattere, cioè sara’ o sara` invece di sarà. Questo approccio è spesso utilizzato in Italia. Anche se questo approccio può andare bene, l’uso di caratteri accentati può dare un aspetto più professionale ad un documento. Comunque, è possibile solo per quelle lingue che hanno lettere accentate solo come ultima lettera della parola, come l’italiano. Per il francese, lo spagnolo o il tedesco non è applicabile.

Inserire caratteri direttamente dalla tastiera.

Spesso il contenuto di un sito web è copiato dal software di elaborazione testi – come il Writer di OpenOffice – in Html o inserito direttamente in un modulo Html. In queste situazioni, i caratteri speciali saranno spesso determinati da una codifica specifica dal sistema operativo dell’utente. Se la codifica di carattere corretta non è specificata nella pagina web o dal web server, un utente che utilizza un sistema operativo diverso può trovarsi con la visualizzazione di molti caratteri “strani”

La soluzione è di assicurarsi di specificare, nella pagina web, la codifica di caratteri utilizzata. La soluzione migliore è farlo a livello di web server. Apache, a tal fine, prevede la direttiva AddCharset. Una soluzione meno elegante è quella di aggiungere un’etichetta meta nella pagina Html:

<META HTTP-EQUIV="Content-Type" CONTENT="text/html; charset=windows-1252" />

Questa etichetta dovrebbe trovarsi nella sezione <head>, prima di altre etichette come il <title>, che possono contenere caratteri speciali. Il sito dedicato agli sviluppatori Microsoft elenca i valori più utilizzati per i set di caratteri.

Utilizzare riferimenti di entità Html.

L’approccio migliore è quello di utilizzare una notazione speciale per indicare i caratteri particolari in Html. Questa notazione utilizza i caratteri Ascii di base per riferirsi ai caratteri speciali, eliminando così i problemi associati al dover assicurare che la serie di caratteri di un documento html sia quella corretta. La notazione speciale di base è chiamata Riferimento di carattere numerico (non ancora disponibile in Italiano). Ogni carattere speciale è specificato utilizzando un prefisso composto dell’e commerciale e il cancelletto, &#, un numero di 3 o 4 cifre per indicare il carattere di interesse, e un punto virgola “;” come suffisso. Così, “è” è rappresentato da “&#232;”. Alcune delle entità numeriche hanno anche valori corrispondenti come entità del carattere, cioè possono essere scritti come “&egrave;” (egrave sostituisce #232). Allo stesso modo “é” può essere scritto sia come &#233; sia come &eacute;.

Mentre i valori di entità di carattere sono molto più facili da ricordare e leggere, raccomandiamo vivamente l’uso di riferimenti di carattere numerici per evitare qualunque tipo di problemi:

  • Non tutti i valori di entità di caratteri che fanno parte dello standard 4.0 di Html sono riconosciuti da tutti i software e i programmi utilizzati nel mondo del selvaggio web. Ciò è particolarmente vero con i simboli più recenti come quello per l’euro, €.
  • Molti contenuti Html sono utilizzati in file Xml, come blog e feed sitemap RSS. Lo standard Xml riconosce solo entità di 5 caratteri (&quot;, &amp;, &apos;, &lt;, &gt), uno di cui, &apos;, non fa nemmeno parte del standard Html.

Preferenze dei Motori di Ricerca

I motori di ricerca sono progettati per trattare qualsiasi tipo di Html disponibile sul web. Finché gli utenti del sito vedono i caratteri giusti sui computer Windows, Macintosh e Linux, si può essere abbastanza certi che i motori di ricerca non avranno particolari difficoltà con il modo in cui si sono utilizzati i caratteri speciali nei documenti Html. Sembra che Yahoo abbia difficoltà con il trattamento di alcuni dei caratteri più nuovi nello standard 4.0 Html come le virgolette di freccia sinistre e destra, « e ». Tuttavia, questo problema è limitato a Yahoo ed è indipendente dall’uso di riferimenti di entità numerici o di carattere.

Che dire dei caratteri speciali e delle richieste ai Motori di Ricerca?

Se state ancora digerendo quanto letto poco sopra su come i caratteri speciali possono essere indicati in un documento Html, sarete sicuramente sollevati dal sapere che i motori di ricerca non sono influenzati da questi problemi quando un utente esegue una ricerca.

In generali, tutti i motori di ricerca principali restituiscono correttamente i risultati per parole contenenti caratteri speciali, anche se un utente non ha immesso un carattere speciale! Per illustrare questo concetto, considereremo un esempio specifico.

Dopo la riforma ortografica tedesca, strada si scrive Strasse o Straße? Non c’è da preoccuparsi. Tutti i principali motori di ricerca riconoscono entrambe le varianti. Si può verificare facilmente osservando che entrambe le varianti sono evidenziate nei risultati della ricerca.

Confrontate i risultati della ricerca per Strasse e Straße su Google, Yahoo!, Ask e Microsoft Windows Live.
Motore di ricercaAscii SempliceCaratteri speciale
Ask.comStrasseStraße
Ask DeutschlandStrasseStraße
   
Google.deStrasseStraße
Google.comStrasseStraße
   
Windows LiveStrasseStraße
Windows Live DeutschlandStrasseStraße
   
Yahoo! DeutschlandStrasseStraße
Yahoo!StrasseStraße

Non siete ancora convinti? Confrontate le ricerche su Google per attivita e attività. Entrambi le richieste probabilmente indicheranno il Ministero delle Attività Produttive come risultato principale.

Dietro le quinte, i motori di ricerca hanno fatto corrispondere, dove possibile, i caratteri accentati e speciali con i loro equivalenti Ascii semplici. Così ö è di solito equivalente a oe, à a a etc.

Enfasi leggermente diversa può essere data a parole con e senza caratteri speciali in base a una combinazione di fattori che tengono conto della lingua di ricerca dell’utente. Quest’ultima può essere rilevata dalla lingua della interfaccia di ricerca e dalla variante di paese del motore di ricerca utilizzato, cioè www.google.it o it.ask.com per l’Italia.

Solitamente è possibile specificare la lingua della propria interfaccia di ricerca e il numero di risultati da restituire. Tutti i motori di ricerca principali, Google, Yahoo, Ask e Live Search, offrono la possibilità di personalizzazione l’interfaccia di ricerca.

Risoluzione delle ambiguità: meta vs. metà

Ci sono casi dove un accento o un carattere speciale possono cambiare il significato di una parola, tale è ad esempio il caso delle parole italiane meta/metà. Per fortuna, è possibile specificare il termine esatto in Google, impiegando un operatore di ricerca anticipato come prefisso alla parola. Per specificare metà e non meta, è sufficiente premettere un +, cioè +metà o +meta. Yahoo afferma che basta mettere la parola fra le virgolette doppie, “straßen” o “strassen”. In realtà non sembra funzionare davvero: provare “metà” e “meta”.

Maggiori informazioni sull’Internazionalizzazione dei Siti

Chi fosse interessato ad altri articoli relativamente al posizionamento sui motori di ricerca e la localizzazione di siti..

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.