Commenti [ 18 ]

Le relazioni nella blogosfera e il RDS

Dopo la discussione sulla mappa delle relazioni tra alcuni blog pubblicata da nòva 24 ho fatto un po’ di ricerche e ho sentito qualche metodologo (come Alberto Trobia, che ringrazio) per sondare la fattibilità di uno studio con tecniche rigorose per conoscere qualcosa di più su tali relazioni.

Lo scenario in cui ci troviamo (la blogosfera italiana) è abbastanza complesso perché non c’è accordo sui requisiti minimi per definire che cosa sia un blog (e quindi procedere allo studio delle relazioni relative al campione), non conosciamo la grandezza dell’universo di riferimento (il numero complessivo dei blog italiani), siamo in presenza di dati sulle relazioni “grezzi” (i link non hanno tutti lo stesso valore e non ci sono sistemi, almeno di larga adozione, che ci diano meta-informazioni sulle motivazioni che portano a effettuarli), esistono popolazioni nascoste difficili da identificare ma non trascurabili (i blogger che non usano i feed, che non usano gli aggregatori, che usano piattaforme minoritarie, che non sono iscritti a directory come BlogItalia eppure sono letti, commentati, partecipano a cluster di discussione ecc.).

Uno studio con un campione come quello della mappa esistente non è rigoroso (perché non tiene conto della complessità e della varietà della realtà presa in esame), ma anche uno studio rigoroso potrebbe essere molto parziale: utilizzare tecniche che rilevino soltanto la parte più accessibile dell’universo di riferimento potrebbe portare a un campione tendenzialmente rappresentativo ma relativo a una parte non rappresentativa dell’intero universo, quindi eventuali generalizzazioni non sarebbero possibili. L’esempio classico fatto da Heckathorn riguarda i sondaggi telefonici realizzati in America per le elezioni presidenziali: esistono soggetti (che utilizzano soltano il cellulare o Internet) con orientamenti molto diversi da coloro i quali sono raggiungibili per telefono fisso. Non è certo pensabile di spingerli all’utilizzo del telefono fisso; bisogna cambiare la tecnica d’indagine. Un mio precedente post era molto critico, ora tocca alla pars costruens.

Già da tempo pensavo che una tecnica di campionamento utilizzabile potesse essere il respondent driven sampling (RDS). Entro un po’ nel tecnico: il RDS combina il campionamento a valanga (snowball sampling), cioè quello in cui si parte da alcuni casi che ne indicano altri secondo dei criteri richiesti dal ricercatore e così via, con un modello matematico che pondera il campione per compensare le distorsioni date da una formazione non casuale (e non probabilistica) dello stesso. In termini pratici, pensavo di poter partire da un numero cospicuo di “semi” eterogenei, nel nostro caso blogger, che dovrebbero indicare (ricevendo eventali benefit, anche multilivello) altri blogger facenti parte del loro cluster e fornire alcune informazioni sulle caratteristiche delle relazioni che intrattengono. Per quante “ondate” dovrebbe proseguire questo campionamento? La teoria del piccolo mondo ci viene in soccorso supponendo che, essendo qualunque membro di una popolazione raggiungibile in sei passaggi, una copertura totale sarebbe possibile con sei ondate. Ciò è verosimile ma non manca di aspetti problematici. L’utilizzo di un metodo di campionamento network-based, come quello a valanga, con priorità posta sulla copertura più che sulla “validità” statistica, non è scevro da distorsioni che possono venire dal fatto che la maggior parte delle persone tende a intrattenere rapporti con i propri pari (per etnia, studi, reddito, interessi, piattaforma ecc.). Alcuni individui potrebbero essere sovra-rappresentati perché più strade portano a loro: il campione è decisamente tutto tranne che casuale. Il pregio di RDS sta qui: combina l’ampiezza di copertura del campione con la sua validità statistica. In sintesi, i partecipanti alla ricerca reclutano i propri pari e i ricercatori tengono traccia di chi ha reclutato chi e del numero di contatti sociali. Un modello matematico del processo di reclutamento (e un programma esistente) pondera infine il campione per compensare le distorsioni di percorsi di reclutamento non-casuali permettendo la stima delle caratteristiche del network che connette gli individui all’interno della popolazione e la stima delle proporzioni di alcuni gruppi sulla base della struttura del network stesso. Alcune limitazioni: la stima delle proporzioni e degli errori campionari derivabile dai dati ottenuti dal campione è tutt’altro che semplice e richiede procedure specifiche, la procedura di trasmissione dell’invito a partecipare potrebbe essere violata e le conseguenze di tale violazione sulle stime non sono chiare, la difficoltà nello stimare il numero di contatti potenzialmente contattabili da ciascun individuo che entra a fare parte del network può causare errori le cui conseguenze sono anch’esse poco chiare (Luca Meyer mi ha chiarito alcune di queste limitazioni e lo ringrazio). È necessaria una precisazione: ammesso che sia possibile una rappresentatività del campione (i metodologi ne discutono), in questo caso non si potrebbe parlare di campione rappresentativo (dallo studio del quale si potrebbero ottenere risultati generalizzabili all’universo).

In conclusione, uno studio rigoroso da cui si potrebbe trarre una mappa accurata e ponderata di una parte ampia della blogosfera italiana sarebbe da svolgere, secondo me, con questa tecnica. Ovviamente da ciò deriva che non si possa utilizzare uno spider e la necessarietà di una partecipazione dei blogger stessi (non senza problematicità). In alternativa si può puntare a mappature più limitate prendendo come base dinamiche di diffusione di alcuni fenomeni (attenzione, influenza, comportamenti d’acquisto, affinità ecc.). Ve la sentite? ;)