Logo AntezetaAntezeta Web Marketing

Riflessioni sul marketing online, SEO e Web Analytics compresi

Antezeta Web Marketing header image 2

I Link e gli Algoritmi dietro le Statistiche Blog: BlogBabel riapre.

Scritto da parte di sean · 1 Commento

Come essere ignaro della riapertura del servizio principale per la classificazione dei italiani, BlogBabel. Poco più di un anno fa avevo scritto circa BlogBabel:

“Anche se vale la pena ricordare che il posizionamento nelle classifiche di BlogBabel è solo una misura dell’importanza di un , Ludo merita una lode particolare per la trasparenza con cui si documenta il metodo per arrivare alle classifiche di BlogBabel”.

Da allora, i fattori per determinare il posizionamento hanno subito qualche cambiamento. BlogBabel dice che vengono attualmente considerati i seguenti parametri:1

Parametro per la classifica BlogBabel Descrizione Peso
PageRank Google Il peso globale “ufficiale” che Google assegna ad una pagina di un sito. (Da notare che questo viene aggiornato solo una volta ogni 3-4 mesi circa e non è quello utilizzato da Google stesso.) 1
FeedBurner Numero di abbonati al canale RSS (feed) per un . 0, quindi, non considerati
Link/6 Link in ingresso da post su altri , inseriti nel corso degli ultimi 6 mesi. 1
Link/1 Link in ingresso da post su altri siti, inseriti nel corso dell’ultimo mese. 0,5
Link complessivi Link in ingresso da post su altri siti, tutti i tempi 0,5

La graduatoria risulta dalla somma ponderata dei diversi parametri di classificazione. Prendere in considerazione un che ha 2 link in entrata aggiunti nel corso degli ultimi 6 mesi. Il parametro “Link/6″ è ponderato su 1 in modo che il valore totale del per questo parametro della graduatoria verrà

  * 
2 * 1 = 2

Come per Google PageRank, una scala logaritmica viene utilizzata per correlare il valore di ogni parametro per un specifico con il valore massimo ottenuto per un qualsiasi nel sistema BlogBabel. BlogBabel discute questo con un esempio, utilizzando dati da Technorati. Il numero uno nella graduatoria, quello di Beppe Grillo, ha 6921 link in arrivo, quindi un valore massimo espresso in log10 (6921). Il valore logaritmico del numero di link in ingresso per ogni è diviso per questo massimo.

Calcolo Valore
Beppe Grillo punteggio = log10(6921) / max 1
Roundhouse Kicks punteggio = log10(1883) / max 0,85
Edit punteggio = log10(704) / max 0,74
Macchianera punteggio = log10(663) / max 0,73

Il parametro principale utilizzato per la hit parade dei in BlogBabel è il numero di link in ingresso a un , link che si trova nel contenuto dei post. Questo viene fatto con l’elaborazione dei feed per i , i feed che contengono la sostanza di un , lasciando fuori il ed altro “rumore”.

Ciò che costituisce un link per BlogBabel (valido per Google e gli altri motori di ricerca, fino ad un certo punto)

  • I link devono essere presenti nei indicizzati da BlogBabel. Se qualcuno linka al tuo post, ma il suo non è indicizzato da BlogBabel, è se come il link non esistesse. Questo è vero anche per Google, anche se è raro che un sito di qualità non venga indicizzato da Google. Nella maggior parte dei casi in cui Google non indicizza un sito, è perché il sito ha specificato una configurazione errata del file robots.txt. o il sito è stato bannato da Google.
  • I link devono essere contenuti in un post, come rilevati nei feed. Vari considerazioni interessanti nascono qui:
    • I link nei vengono ignorati. Si tratta anche di un’ipotesi abbastanza sicura che gli algoritmi dei motori di ricerca come Google, Yahoo! e Microsoft Live Search, scontano fortemente il valore dei link nei roll. Invece, si sa che Google sta sperimentando con le informazioni contenute nei , come visto attraverso il google social graph.
    • Non tutti i link in un post su un sono contenuti nei feed. Un feed può non contenere il post intero. Se un è configurato per visualizzare solo un sommario, BlogBabel non rileverà i link incorporati nel post. Per verificare l’impostazione del tuo feed WordPress, controlla Impostazioni -> Lettura -> Per ciascun articolo in un feed, mostra: [x] Tutto il testo [ ] Riassunto e in Feedburner, Optimize (2ª scheda) -> Summary Burner. A causa di questa possibile limitazione, i principali motori di ricerca generalmente eseguono una scansione della pagina del post, piuttosto che dei feed.
    • I feed devono essere di un formato xml corretto, non testo semplice (questo vale in generale).
    • I link devono essere nello stesso formato del dominio di come il è noto a BlogBabel, vale a dire coerente all’uso di “www”, come ad esempio http://www.miosito.it/ invece di http://miosito.it/. Questo problema viene definito normalizzazione di dominio o canonicalizzazione.

Fattori manuali?

Gli algoritmi automatizzati impiegati dai motori di ricerca combinati con la crescita esplosiva del web sono i motivi che hanno determinato la scomparsa delle directory web, come ad esempio lo storico Yahoo! Directory. Internet contiene troppi dati per stare al passo dei continui sviluppi. C’è sempre la possibilità che i risultati dei motori di ricerca siano talvolta ottimizzati manualmente, tramite un processo noto come “a hand job” (“una sega“) nel linguaggio piuttosto colorito del settore. Google viene spesso accusato di alcuni adeguamenti manuali come, ad esempio, nel caso delle famose “google bomb”, vale a dire miserable failure (fallimento miserabile). Google di solito nega interventi manuali. BlogBabel ha subito le stesse accuse, anche se la citazione di dati non attendibile di Alexa è un modo poco credibile per illustrare il punto.

Quali sono le metriche giuste per misurare le conversazioni sociali?

Si discute ancora molto nella comunità di web analysis sul modo migliore per misurare la “conversazione sociale” sul web. Ossia, come possiamo dimostrare il valore tangibile di business tramite le conversazioni sociali? Tornano in mente le riflessioni di Jeremiah Owyang sul tema. Come ho già spiegato, possiamo contare il numero di commenti che un post ha attirato. Ma la quantità non è una misura della qualità del discorso! Possiamo contare la frequenza dei post – ma ancora una volta il “rumore” giornaliero non è necessariamente meglio dell’intuizione che un post mensile, ben scritto, potrebbe fornire. Alla fine, l’intento di questo post non è quello di giudicare gli algoritmi di BlogBabel, ma solo quello di notare che non sono i soli alle prese con questo problema.

Sommario BlogBabel per Antezeta.it/blog
Figura 1: Sommario BlogBabel per Antezeta.it/

wikio

BlogBabel non è privo di concorrenza, anche Wikio.it classifica i blog italiani. Dicono

La posizione di un nella classifica Wikio è determinata dal numero dei link che riceve da altri e dall’importanza di questi.
I non sono contabilizzati in WIkio e i link sono validi per 120 giorni. Questo al fine di essere il più rappresentativi possibili sul valore dell’influenza attuale di un . Le classifiche sono aggiornate ogni mese. Il numero di visitatori di un non è preso in conto. I presenti nell’indice di Wikio sono stati selezionati da un team di documentalisti.
Il valore di ogni link dipende dalla posizione in classifica del che lo inserisce. La classifica è aggiornata ogni mese.2

Di conseguenza, il loro algoritmo si interessa al numero di link in entrata nel corso degli ultimi quattro mesi ed ogni link viene pesato in base al numero di link in entrata al che ha messo il link in uscita. Come nel caso di BlogBabel, il link del è irrilevante.

Morale della favola

Le classifiche dei dipendono molto dalla stesura frequente di materiale interessante che altri di rilievo possono, e vogliono, linkare. (Se questo post ti è stato utile, potreste linkarlo, no? :-) )


1 http://it.blogbabel.com/faq/#come-funziona-la-classifica
2 http://www.wikio.it/blogs/top#how

Post correlate:

Se sei qui da poco, ti prego di iscriverti al mio feed RSS oppure di seguirmi su , che viene aggiornato più frequentemente – e talvolta in modo più casual – in inglese e/o in italiano. Grazie per la visita!

Originariamente pubblicato 20 Jul 2008

  • Sean Carlos aiuta le aziende nell'ottimizzare i loro risultati di business online. La sua carriera spazia dalla gestione di campagne di telemarketing e direct mailing presso un'organizzazione con più di 10.000 soci ad una significativa esperienza a livello mondiale maturata presso la Hewlett-Packard. Nei primi anni 90 Sean ha sviluppato un applicativo enterprise search, comprensivo di tutte le fasi, dall'indicizzazione alla ricerca dei testi, per il Los Angeles County Museum of Art. Dal 2000 al 2004 Sean è stato IT Manager del sito immobiliare CasaClick.it, parte del gruppo Pirelli. Sean è un docente ufficiale della Web Analytics Association. Collabora inoltre con l'Università Bocconi. Nato a Providence, RI, USA, Sean Carlos si è laureato in Fisica. Parla inglese, italiano e tedesco.

1 risposta finora ↓

  • 1 Perplesso // 20 Jul 2008 alle 21.18.49

    I pesi della classifica non sono accurati. Il PageRank non sembra essere considerato nella nuova release.

Lascia un commento

Avviso: commenti sono benvenuti nella misura in cui essi aggiungono qualcosa al discorso. Commenti senza nome e cognome e/o con toni negativi senza giustificazione razionale di una propria posizione e/o per terzi fini, corrono il rischio di essere cancellati senza pietà ad imprescindibile discrezione dell'amministratore. Ebbene sì, la vita è dura.