20 Jun
duccio

duccio il 20 June 2007 parla di Altro

PageRank: che cosa sappiamo a riguardo?

Su Smashing Magazine ho trovato un articolo interessante riguardo al PageRank, ho provato a tradurlo abbiate pazienza se c’è qualche errore ho cercato di limitarli al massimo!!

Dopo la lettura dell’articolo originale alcuni lettori come Reuben Yau hanno pubblicato un errata corrige, io mi sono permesso di inserire le correzioni direttamente nella traduzione dell’ articolo di Smashing Magazine.

L’articolo

Il PageRank tutti lo usano, ma (quasi) nessuno conosce realmente come lavora. Google PageRank è probabilmente uno degli algoritmi più importanti che siano mai stati sviluppati per il Web. Con miliardi di pagine esistenti e milioni di pagine create ogni giorno, il problema della ricerca nel Web è più complesso di quanto si creda. Il PageRank, solo uno delle centinaia di fattori che Google utilizza per fornire i migliori risultati di ricerca, aiuta a tenere le nostre ricerche pulite ed efficienti. Ma come lo fa? Come lavora il Google PageRank, quali fattori lo interessano e quali no? E cosa realmente sappiamo del PageRank?

In questo articolo si delineeranno questi argomenti.

Nelle ultime settimane abbiamo fatto una ricerca approfondita e selezionato dozzine di fatti e suggerimenti riguardo al PageRank, che sembra funzionare nella pratica. Inoltre, abbiamo raccolto documenti accademici riguardanti questo argomento - come proposte scientifiche per risultati di ricerca migliori (come Topic-Sensitive PageRank); troverete descrizioni matematiche del PageRank così come 16 utili tool per il PageRank che potrete utilizzare per analizzare e tracciare il posizionamento dei vostri progetti web.

Update: vorremmo scusarci per alcuni fatti fuorvianti che abbiamo incluso in questo articolo. Abbiamo ricontrollato le fonti e i dati inaccurati o incompleti. I file .pdf non dovrebbero contenere errori. Grazie a tutti i lettori che ci hanno fatto notare gli errori (in particolare Dan Grossman e Reuben Yau).

1 Update: stiamo provvedendo alla pubblicazione della versione pdf di questo post, percui sottoscrivete l’RSS-feed per controllare i nostri prossimi post.

2 Non dovete leggere tutto l’articolo. I fatti più importanti sono all’inizio del post come piccolo riassunto.

3 Dovreste essere interessati a leggere i nostri articoli su Google AdSense: Facts, FAQs and Tools, che dovrebbe riportare i fatti le risorse e gli strumenti più importanti su Google.

Google PageRank

Riassunto: come funziona il PageRank?

1 PageRank è solo uno dei numerosi metodi che Google usa per determinare l’attinenza e l’importanza di una pagina.

Reuben Yau: Google usa oltre 200 fonti per determinare il PageRank nel proprio indice. Il PageRank è una delle fonti utilizzate, ma il calcolo del PageRank in sé attualmente non è utilizzato per determinare l’attinenza e l’importanza che invece sono operazioni destinate ad altre parti dell’algoritmo.

2 Google interpreta un link da una pagina A ad una pagina B come un voto della pagina A per la pagina B. Google non controlla solo il puro volume dei voti; tra altri 100 aspetti Google analizza la pagina che vota. Comunque questi aspetti non contano quando il PageRank è calcolato.

Reuben Yau: Nel calcolo del page non ci sono 100 altri aspetti, la formula calcola i link e basta!

3 il PageRank è basato sui link in ingresso, ma non solo sul loro numero - l’attinenza e la qualità sono importanti (in termini di PageRank dei siti a cui si dà il voto).

Reuben Yau: L’attinenza e la qualità non sono parte del calcolo del PageRank. Dovresti provare ad ottenere l’attinenza, la qualità di un link al tuo sito web, ma giudicare l’attinenza e la qualità è un problema di analisi dei contenuti.

4 PR(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). Questa è la formula che calcola il PageRank.

5 Il peso dei link non è sempre lo stesso quando viene usato per il PR.

6 Se avete un sito con una pagina web a PR8 e un link, il sito linkato otterrebbe una valore importante di PR. Ma se avete 100 link su quella stessa pagina, ogni singolo sito linkato otterrebbe solo una frazione di quel valore.

7 Cattivi link in ingresso non incidono sul calcolo del PageRank.

Reuben Yau: Il calcolo del PageRank non capisce cosa è “buono” o “cattivo”, lui esegue solo il calcolo.

8 Ranking popularity considera l’età, l’attinenza dei backlink e la loro durata. Il PageRank no.

Reuben Yau: l’età del sito e l’attinenza sono fattori usati per il ranking, mentre la durata del backlink è un fattore di calcolo del PageRank. Infatti come un link accresce il PR, questo può essere diminuito quando un link viene a mancare.

9 Il contenuto non è preso in considerazione quando il PageRank è calcolato.

10 PageRank non dà il rank di un intero sito, ma di ogni sua singola pagina.

11 Ogni link in ingresso è importante per il totale generale. Eccetto i siti bannati che non contano.

12 I valori di PageRank va da 0 a 10. Il PageRank un numero floating-point.

13 Ogni livello di PageRank è progressivamente sempre più difficile da raggiunere. Il PageRank si crede sia calcolato in scala logaritmica.

14 Google calcola il PR della pagina permanente, e noi vediamo gli aggiornamento una volta ogni qualche mese (Google Toolbar).

Reuben Yau: Attualmente è calcolato sempre, ma noi possiamo vedere i cambiamenti nella Google Toolbar (o con altri strumenti per il PR online) una volta ogni 3 mesi circa.

Riassunto: Effetti sul Google PageRank

1 Frequenti aggiornamenti dei contenuti non migliorano necessariamente il PageRank. I contenuti non sono una parte per il calcolo del PR.

2 Alti PageRank non sigificano alti ranking nella ricerca.

3 Le directory DMOZ and Yahoo! non migliorano automaticamente il PageRank.

4 .edu e .gov-sites non migliorano automaticamente il PageRank.

5 Le sottodirectory non necessariamente hanno un PageRank minore delle directory principali.

6 I link di Wikipedia non migliorano automaticamente il PageRank (update: ma le pagine che estraggono contenuto da wikipedia potrebbero migliorare il PageRank).

Reuben Yau: Il contenuto non ha niente a che vedere con il calcolo del PageRank. Creare contenuti interesanti ti fa guadagnare link, ma richiamare wikipedia qui è fuorviante.

7 I Link marcati con l’attributo nofollow non contribuiscono al PageRank Google.

8 Linkaggi interni al sito efficienti hanno effetti sul PageRank.

Reuben Yau: Io credo che sia necessario spiegare queto punto più approfonditamente. Quando si sviluppa un sito Web si dovrebbe farlo in funzione dei motori di ricerca (Search Friendly) e specialmente Google-friendly assicurandosi di fare un buon lavoro di linkaggio alle proprie pagine interne. Questo passo sul PageRank da pagina a pagina aiuta a tenerle fuori dall’indice supplementare. Questo è fondamentale perchè quelle pagine altrimenti non saranno controllate (spidered) frequentemente come quelle presenti nell’indice principale. Perciò un buon linkaggio interno ha effetto sul PageRank delle pagine più profonde.

9 Pagine con alti PageRank collegate contano di più. Ma: “a page with high PageRank may actually pass you less if it has more links, because it’s spread too thin.” [Reuben Yau] (una pagina con alto PageRank può avere meno peso se ha più link al suo interno perchè lo divide troppo).

10 Link da e verso pagine di alta qualità hanno un impatto sul PageRank.

Reuben Yau: Il contenuto non incide sul calcolo del PR.

11 Più link (voti) alla stessa pagina dalla stessa pagina valgono al massimo un voto.

Che cosa è il PageRank?

“PageRank è solo uno dei metodi che Google usa per determinare l’attinenza e l’importanza di una pagina.” [PageRank Spiegato correttamente]

“Google usa molti fattori per il ranking. Di questi, l’algoritmo del PageRank potrebbe essere il migliore mai conosciuto. Il PageRank valuta due cose: quanti link ci sono verso una pagina Web dalle altre pagine e la qualità dei siti linkati. Con il PageRank, cinque o sei link di alta qualità come www.cnn.com e www.nytimes.com potrebbero essere valutati molto di più rispetto agli stessi due link da siti con minore reputazione [Google Librarian Central]

“PageRank è solo un’approssimazione della qualità di una pagina Web e non ha niente a che vedere con la misura dell’attinenza degli argomenti trattati in una pagina. L’attinenza degli argomenti è misurata con il contesto dei link e fattori di pagina come il keyword density, il title tag, e quantaltro.” [PageRank: An Essay]

Come funziona il PageRank?

Nessuno realmente lo sa. “Nessuno realmente sa di sicuro come il PageRank è attualmente calcolato da Google” [PageRank Spiegato correttamente]

R(A) = (1-d) + d(PR(t1)/C(t1) + … + PR(tn)/C(tn)). “Questa è l’equazione che calcola il PageRank di una pagina. Nell’equazione ‘t1 - tn’ sono le pagine linkate alla pagina A, ‘C’ è il numero dei link uscenti che ha una pagina e ‘d’ è un fattore di damping del valore di 0.85″

Possiamo pensare in una maniera semplicistica: il PageRank = 0.15 + 0.85 * (una parte del PageRank di ogni pagina che punta ad essa). “parte” = il PageRank della pagina diviso per il numero di link in uscita. Una pagina “scarica” una parte di PageRank su ogni pagina linkata. Il valore del PageRank con qualcosa meno (il fattore 0.85). Questo valore è diviso tra tutte le pagine linkate. [Google’s PageRank]

“Il cuore dell’algoritmo del PageRank di Google distribuisce il suo PR tra tutti i link uscenti. Considera differentemente i link: se tu hai una pagina Web con PR8 e con un link, il sito linkato prenderà una buona parte di valore di PR; ma, se tu hai 100 link su quella stessa pagina, ogni singolo link prenderà solo una frazione di quel valore.” [The Importance of PageRank]

“Da questo potremmo concludere che un link da una pagina di PR4 a 5 link in uscita conta di più di un link da una pagina di PR8 con 100 link in uscita. Il PageRank di una pagina che ti linka è importante ma è importante anche il numero di link su quella stessa pagina. Più link ci sono su una pagina, meno valore di PageRank la tua pagina riceverà.” [Google’s PageRank]

“PageRank [..] usa la struttura dei link come indicatore del valore individuale della pagina. Google interpreta un link dalla pagina A alla pagina B come un voto, dalla pagina A alla pagina B. Google cerca di più del puro numero di voti, o links che una pagina riceve; per esempio analizza la pagina che vota (che da un link). Considera di più i link dalle pagine che sono a loro volta importanti e aiuta a tenere le altre pagine importanti a loro volta.” [Google: Technology]

“No tutti i link pessano nello stesso modo nel calcolo del PR. Così una pagina importante che ti linka ti dà più PR di una meno importante. [...] Un fattore nella propagazione del PR è il numero dei link uscenti che la pagina votata ha. Così una pagina a PR4 con un solo link in uscita può avere più peso di una a PR5 con 100 link in uscita. Un esempio tipico è milliondollarhomepage. Questa è una pagina a PR7 con centinaia di link in uscita quindi il suo peso influisce poco sul calcolo del PR della tua pagina.” [Google PageRank Explained]

Ogni PageRank è progressivamente sempre più difficile da raggiungere. “PageRank è logaritmico nel suo calcolo. Allo stesso modo della scala Richter per i terremoti è esponenziale, questa è la matematica dietro al PageRank…” [Google PageRank FAQ]

PageRank

[Via einfach-persoenlich]

“PageRank non dà il rank di tutto il sito, ma lo determina per ogni pagina individualmente. Più avanti il PageRank di A sarà ricorsivamente definito dal PageRank di quelle pagine che linkano la pagina A.” [The PageRank algorithm]

“Google combina il PageRank con sofisticate tecniche di controllo dei testi per trovare le pagine che sono attinenti e importanti per le ricerche dell’utente. Google esamina tutti gli aspetti del contenuto delle pagine (e il contenuto delle pagine che linkano ad essa) per determinare se un risultato è buono per la ricerca dell’utente.” [What Is Google PageRank?]

“Google calcola il PR delle pagine ogni qualche mese (PR update) dopo un update, tutte le pagine hano un nuovo PR assegnato da Google che non cambierà fino al prossimo aggiornamento. Nuovi siti che sono stati appena lanciati avranno PR0 fin tanto che non verrà eseguito un Update” [Google PageRank Explained]

Il valore del PageRank non varia da 0 a 10. Il PageRank è un numero floaing-point. “E’ più accurato pensare ad esso come un numero floating-point. Certamente i calcoli avranno molti gradi di risoluzione che valori da 0 a 10 mostrati nella toolbar” [Matt Cutts]

“Noi siamo sicuri che la curva del PR sia simile ad un andamento esponenziale dove ogni passo è più difficile da raggiungere del precedente. Ho personalmente fatto alcune ricerche riguardo a questo, e che mi hanno portato al risultato di un esponenziale con base 4. Per cui un PR6 è 4 volte più difficile da raggiungere di un PR4. La differenze tra un alto PR6 e un basso PR6 potrebbero essere l’esistenza di centinaia o migliaia di link” [Top 10 Google Myths Revealed]]

“Il PageRank si crede sia calcolato su scala logaritmica. Questo significa che la differenza tra PR4 e PR5 è circa 5-10 volte rispetto alla differenza tra PR3 e PR4. Così, circa cento volte con pagine di PR2 … ” [Importance of Google PageRank]

“Noi conosciamo dall’articolo The Anatomy of a Large-Scale Hypertextual Web Search Engine che il PageRank è calcolato usando un algoritmo ricorsivo dove ogni pagina riceve una parte del PR di ogni pagina che linka ad essa. [Google PageRank]

Quali fattori possono avere effetto sul PageRank?

Ogni link in ingresso è importante per il PR generale. Eccetto i siti esclusi. “Il PageRank è una forma di sistema di votazione. Un link ad una pagina è un voto per quella pagina. Pagine con alti PageRank sono viste da Google come più importanti. I loro voti hanno più valore per Google -molto più valore, in alcuni casi. In generale più è il valore del voto del link più forte è il PageRank” [Google PageRank FAQ]

Aggiungere nuove pagine può diminuire il PageRank. “L’effetto è che il PageRank totale nel sito è accresciuto, una o più delle pagine esistenti soffriranno di una perdita di PageRank dovuta all’aggiunta di una pagina. A questo punto, più pagine sono aggiunte più sarà a perdita di PR alle pagine esistenti. Con siti molto grandi, questo effetto non si nota molto ma con piccoli siti invece si.” [PageRank Explained]

Il PageRank può diminuire. “Tu puoi perdere alcuni link importanti che non linkano più il tuo sito. Ci può essere una diminuzione di PR anche se alcuni dei tuoi partner subiscono una diminuzione di PR, creando una reazione a catena di diminuzione di PageRank attraverso tutta la rete di link.” [Google PageRank FAQ]

I link da siti di alta qualità e dai contenuti correlati sono importanti. “Più sono vicine le pagine correlate più valore di PR viene trasferito.”

“Linkare siti di alta qualità mostra al motore di ricerca che il tuo sito è veramente utile ai tuoi visitatori. Sebbene il tuo sito sia lì da anni e sia ben fidato di Google, potrebbe avvenire un caso avverso a tutto il PR del siti. Collegandosi soltanto ai siti di alta qualità darà al vostro sito un vantaggio verso la vostra concorrenza” [Let Google’s Algorithm Show You The Traffic, FAQ]

I link da siti popolari sono importanti. Se i link delle pagine verso di te hanno un alto PageRank allora le pagine aumentano un po’ la loro reputazione. I siti possono possono essere bannati se linkano siti bannati “Siate estremamente attenti ad ogni link uscente dal vostro sito. Non linkate siti cattivi (non linkate fattorie, siti bannati, etc.) Google penalizza per link cattivi quindi controllate sempre il PageRank dei siti che state linkando.” [SiteProNews]

Attività illegali penalizzano il PageRank e ti possono far bannare dall’indice di Google. “Hidden Text, redirect ingannevoli, cloacking, scambio automatico di link, e tutto ciò che va contro le guide linea di qualità di Google” ti possono far bannare da Google.

Mith: Più alto è il tuo PageRank più alto è il tuo posizionamento. “Mentre le pagine con alto PR tendono a risultare migliori nei posizionamenti, è perfettamnte normale per un sito anche se il suo PageRank è basso delle pagine dei concorrenti trovarsi nelle prime posizioni. [..] Google esamina il contesto dei link in ingresso, e solo quei link che sono relativi a specifiche keyword cercate per le quali ti aiuterà a raggiungere un posizionamento migliore.” [Top 10 Google Myths Revealed]

Siti web correlati con con PR alto contano di più (o no?). “I link in ingresso da siti Web con argomenti che sono correlati al tuo sito Web ti aiuteranno ad ottenere un PageRank più alto.” Gli altri link in ingresso dalle pagine Web con alto PageRank ma contenuto scorrelato aiutano un po’ ma non così tanto. [What Is PageRank?]

Quali fattori non hanno effetto sul PageRank?

Frequenti aggiornamenti di contenuto non aggiornano il PR automaticamente. “Sebbene Google possa inviare i crawler più frequentemente per analizzare il tuo sito, quello che conta di più sono i link che puntano a te.”

“Il contenuto non è tenuto in conto nel calcolo del PageRank. Il contenuto viene considerato quando fai una ricerca per un particolare termine.” [Google PageRank]

“Alti PageRank non garantiscono un alto ranking nel posizionamento per nessun termine in particolare. Se così fosse siti con PR10 come Adobe sarebbero sempre i primi ad essere mostrati nei risultati di ricerca. [What Is Google PageRank?]

Google considera l’età dei siti, l’attinenza dei backlink e la loro durata. Se un Backlink non è attinente non peserà poi molto.

I link di Wikipedia non aumentano il PageRank. “Wikipedia implementa una regola di no-follow, indicando che i link in uscita non devono essere seguiti dagli spiders.”[A Survival Guide to SEO & Wikipedia]

Essere presenti in DMOZ e Yahoo! non da al vostro sito particolari Bonus di PR. “Google usa Open Directory Project (DMOZ.org), per incrementare la sua directory.” I siti listati in DMOZ spesso prendono un decente e non spiegabile incremento di PR iniziale, da qui si capisce che Google dà un bonus speciale ai siti elencati in DMOZ. Questo è semplicemente non vero. L’unico bonus che si ha ad essere in DMOZ è quello che si avrebbe nell’essere linkati da qualunque altro sito.” Comunque i dati di DMOZ sono usati da centinaia di siti. [Top 10 Google Myths Revealed]

Le sotto directory non hanno necessariamente un PageRank più basso delle directory principali. Dipende dalla popolarità del sito Web, può succedere che una sotto directory abbia un PR maggiore di una directory principale.

I Meta Tags non aumentano il PageRank. “Google può spesso usare i meta description tags per creare un abstract del vostro sito, così può essere utile che la vostra home page sia piena di grafica, Comunque non aspettatevi di incrementare il PageRank”. [10 Google Myths Revealed]

.edu and .gov-sites non forniscono un PageRank più alto (oppure si?). “Non abbiamo strumenti per dire “Oh questo link viene da un ODP, .gov o .edu perciò diamogli un bonus speciale.” E’ solo che quei siti tendono ad avere un PageRank più alto perchè? Perchè più persone li linkano e in generale più persone rispettabili li linkano.” [A Google Myth Busted]

NO follow

[No Follow]

Link marcati con l’attributo no-follow non contribuiscono al calcolo del PageRank. “Google implementa un nuovo valore il ‘no-follow’, per l’attributo rel del link e per le ancore dell’HTML, così uno sviluppatore di siti Web e i bloggers possono creare link che Google non considera per il calcolo del PR - sono link che non costituiscono un voto nel sistema del PageRank.” [Wikipedia: PageRank]

Voti multipli ad un link dalla stessa pagina costano al massimo un voto. “E’ ragionevole pensare che una pagina possa essere votata una sola volta da un’altra pagina e i voti in più quindi non sono considerati.” [PageRank FAQ]

I link da una pagina a se stessa non aumentano il PageRank. “E’ ragionevole pensare che una pagina non possa votare se stessa, e così quei voti non contano.” [PageRank Explained]

Link cattivi non incidono sul PageRank. “Da dove derivano i link non importa. I siti non sono penalizzati dai link in ingresso.” [Google PageRank]

Dangling links non incidono sul PageRank. “I Dangling links sono semplicemente quei link che puntano a pagine foglia cioè senza link in uscita. Loro coinvolgono il modello anche se non è chiaro dove il loro peso dovrebbe essere distribuito, c’è un grande numero di questi link. I Dangling links non toccano il ranking di altre pagine direttamente, semplicemente li rimuoviamo dal sistema fin tanto che tutti i PR sono calcolati. Successivamente vengono riaggiunti senza modificare le cose in modo significativo.”

Fattori di posizionamento (legati al PageRank)

Link interni efficienti sono importanti. “I link interni sono importanti nel calcolo generale del ranking. Assicurati che la struttura dei link sia di facile lettura da parte degli spider. Si suggerisce una gerarchia che non vada sopra il terzo livello di profondità (3 click) dalla homepage. Creare traffici o blocchi di link correlati dentro una sezione del tuo sito è stato provato essere un sistema efficiente.” [Let Google’s Algorithm Show You The Traffic]

I testi Ancorati sono importanti. La più specifica referenza, la migliore che Google possa valutare e considerare nelle ricerche correlate.

Google penalizza i farm link. “Google è interessato soltanto alle pagine con oltre 100 collegamenti uscenti. Google considera le pagine eccessivamente collegate come farm link (poderi di collegamento) e come tali sono penalizzati.” [Google FAQ]

Le intestazioni (h1, … ,h6), i tag strong e contenuto semantico sono importanti. “Posizionali nella descrizione nei Meta Tags, usa bold e strong, ma tieni il tuo contenuto legibile e utile. Stai attento al testo che circonda le vostre parole chiavi, i motori di ricerca diventeranno ancora più semantici negli anni futuri in modo da dare più importanza al contesto.” [Let Google’s Algorithm Show You The Traffic]