I link e gli algoritmi dietro le Statistiche blog: BlogBabel riapre.

I link e gli algoritmi dietro le statistiche blog: BlogBabel riapre.

Come essere ignaro della riapertura del servizio principale per la classificazione dei blog italiani, BlogBabel. Poco più di un anno fa avevo scritto circa BlogBabel:

“Anche se vale la pena ricordare che il posizionamento nelle classifiche di BlogBabel è solo una misura dell’importanza di un blog, Ludo merita una lode particolare per la trasparenza con cui si documenta il metodo per arrivare alle classifiche di BlogBabel”.

Da allora, i fattori per determinare il posizionamento hanno subito qualche cambiamento. BlogBabel dice che vengono attualmente considerati i seguenti parametri:1

Parametro per la classifica BlogBabelDescrizionePeso
PageRank GoogleIl peso globale “ufficiale” che Google assegna ad una pagina di un sito. (Da notare che questo viene aggiornato solo una volta ogni 3-4 mesi circa e non è quello utilizzato da Google stesso.)1
FeedBurnerNumero di abbonati al canale RSS (feed) per un blog.0, quindi, non considerati
Link/6Link in ingresso da post su altri blog, inseriti nel corso degli ultimi 6 mesi.1
Link/1Link in ingresso da post su altri siti, inseriti nel corso dell’ultimo mese.0,5
Link complessiviLink in ingresso da post su altri siti, tutti i tempi0,5

La graduatoria risulta dalla somma ponderata dei diversi parametri di classificazione. Prendere in considerazione un blog che ha 2 link in entrata aggiunti nel corso degli ultimi 6 mesi. Il parametro “Link/6″ è ponderato su 1 in modo che il valore totale del blog per questo parametro della graduatoria verrà

 <N. link in ingresso aggiunti nei ultimi 6 mesi> * <peso>
2 * 1 = 2

Come per Google PageRank, una scala logaritmica viene utilizzata per correlare il valore di ogni parametro per un blog specifico con il valore massimo ottenuto per un blog qualsiasi nel sistema BlogBabel. BlogBabel discute questo con un esempio, utilizzando dati da Technorati. Il blog numero uno nella graduatoria, quello di Beppe Grillo, ha 6921 link in arrivo, quindi un valore massimo espresso in log10 (6921). Il valore logaritmico del numero di link in ingresso per ogni blog è diviso per questo massimo.

BlogCalcoloValore
Beppe Grillopunteggio = log10(6921) / max1
Roundhouse Kickspunteggio = log10(1883) / max0,85
Editpunteggio = log10(704) / max0,74
Macchianerapunteggio = log10(663) / max0,73

Il parametro principale utilizzato per la hit parade dei blog in BlogBabel è il numero di link in ingresso a un blog, link che si trova nel contenuto dei post. Questo viene fatto con l’elaborazione dei feed per i blog, i feed che contengono la sostanza di un blog, lasciando fuori il blogroll ed altro “rumore”.

Ciò che costituisce un link per BlogBabel (valido per Google e gli altri , fino ad un certo punto)

  • I link devono essere presenti nei blog indicizzati da BlogBabel. Se qualcuno linka al tuo post, ma il suo blog non è indicizzato da BlogBabel, è se come il link non esistesse. Questo è vero anche per Google, anche se è raro che un sito di qualità non venga indicizzato da Google. Nella maggior parte dei casi in cui Google non indicizza un sito, è perché il sito ha specificato una configurazione errata del file robots.txt. o il sito è stato bannato da Google.
  • I link devono essere contenuti in un post, come rilevati nei blog feed. Vari considerazioni interessanti nascono qui:
    • I link nei Blogroll vengono ignorati. Si tratta anche di un’ipotesi abbastanza sicura che gli algoritmi dei motori di ricerca come Google, e Microsoft Live Search, scontano fortemente il valore dei link nei blog roll. Invece, si sa che Google sta sperimentando con le informazioni contenute nei blogroll, come visto attraverso il google social graph.
    • Non tutti i link in un post su un blog sono contenuti nei feed. Un blog feed può non contenere il post intero. Se un blog è configurato per visualizzare solo un sommario, BlogBabel non rileverà i link incorporati nel post. Per verificare l’impostazione del tuo feed WordPress, controlla Impostazioni -> Lettura -> Per ciascun articolo in un feed, mostra: [x] Tutto il testo [ ] Riassunto e in Feedburner, Optimize (2ª scheda) -> Summary Burner. A causa di questa possibile limitazione, i principali motori di ricerca generalmente eseguono una scansione della pagina del post, piuttosto che dei feed.
    • I feed devono essere di un formato xml corretto, non testo semplice (questo vale in generale).
    • I link devono essere nello stesso formato del dominio di come il blog è noto a BlogBabel, vale a dire coerente all’uso di “www”, come ad esempio http://www.miosito.it/ invece di http://miosito.it/. Questo problema viene definito normalizzazione di dominio o canonicalizzazione.

Fattori manuali?

Gli algoritmi automatizzati impiegati dai motori di ricerca combinati con la crescita esplosiva del web sono i motivi che hanno determinato la scomparsa delle web, come ad esempio lo storico Yahoo! Directory. Internet contiene troppi dati per stare al passo dei continui sviluppi. C’è sempre la possibilità che i risultati dei motori di ricerca siano talvolta ottimizzati manualmente, tramite un processo noto come “a hand job” (“una sega“) nel linguaggio piuttosto colorito del settore. Google viene spesso accusato di alcuni adeguamenti manuali come, ad esempio, nel caso delle famose “google bomb”, vale a dire miserable failure (fallimento miserabile). Google di solito nega interventi manuali. BlogBabel ha subito le stesse accuse, anche se la citazione di dati non attendibile di Alexa è un modo poco credibile per illustrare il punto.

Quali sono le metriche giuste per misurare le conversazioni sociali?

Si discute ancora molto nella comunità di web analysis sul modo migliore per misurare la “conversazione sociale” sul web. Ossia, come possiamo dimostrare il valore tangibile di business tramite le conversazioni sociali? Tornano in mente le riflessioni di Jeremiah Owyang sul tema. Come ho già spiegato, possiamo contare il numero di commenti che un post ha attirato. Ma la quantità non è una misura della qualità del discorso! Possiamo contare la frequenza dei post – ma ancora una volta il “rumore” giornaliero non è necessariamente meglio dell’intuizione che un post mensile, ben scritto, potrebbe fornire. Alla fine, l’intento di questo post non è quello di giudicare gli algoritmi di BlogBabel, ma solo quello di notare che non sono i soli alle prese con questo problema.

Sommario BlogBabel per Antezeta.it/blog
Figura 1: Sommario BlogBabel per Antezeta.it/blog

wikio

BlogBabel non è privo di concorrenza, anche Wikio.it classifica i blog italiani. Dicono

La posizione di un blog nella classifica Wikio è determinata dal numero dei link che riceve da altri blog e dall’importanza di questi.
I blogroll non sono contabilizzati in WIkio e i link sono validi per 120 giorni. Questo al fine di essere il più rappresentativi possibili sul valore dell’influenza attuale di un blog. Le classifiche sono aggiornate ogni mese. Il numero di visitatori di un blog non è preso in conto. I blog presenti nell’indice di Wikio sono stati selezionati da un team di documentalisti.
Il valore di ogni link dipende dalla posizione in classifica del blog che lo inserisce. La classifica è aggiornata ogni mese.2

Di conseguenza, il loro algoritmo si interessa al numero di link in entrata nel corso degli ultimi quattro mesi ed ogni link viene pesato in base al numero di link in entrata al blog che ha messo il link in uscita. Come nel caso di BlogBabel, il link del BlogRoll è irrilevante.

Morale della favola

Le classifiche dei Blog dipendono molto dalla stesura frequente di materiale interessante che altri blogger di rilievo possono, e vogliono, linkare. (Se questo post ti è stato utile, potreste linkarlo, no? :-) )


1 http://it.blogbabel.com/faq/#come-funziona-la-classifica
2 http://www.wikio.it/blogs/top#how

Ti potrebbero interessare:

Sono aperte le iscrizioni per il prossimo corso Seo e per il corso Google Analytics. Cosa aspettate?


A proposito di Sean Carlos

Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Digital Analytics Association. È Chairman dello SMX Search and Social Media Conference, 13 & 14 novembre p.v. a Milano. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

1 risposta a "I link e gli algoritmi dietro le statistiche blog: BlogBabel riapre."

Lascia un commento

Avviso: i tuoi commenti sono i benvenuti se sono costruttivi. L'amministratore si riserva la facoltà di cancellare i commenti anonimi, con secondi fini e/o con toni non civili.