È Natale quando Eric decide di riaprire Facebook. Immagina di trovare le classiche foto delle vacanze, gli auguri di parenti e amici. Rimane, invece, ammutolito quando vede il video composto dalla funzione “L’anno in breve” (Year in review). L’algoritmo di Facebook ha automaticamente realizzato un video con le foto tratte dal suo profilo. E lo incoraggia a condividerlo con gli amici: “Ecco come è stato il tuo anno”. Al centro, la foto di sua figlia Rebecca, sorridente, circondata da figure stilizzate danzanti, da palloncini e nastri festivi. Rebecca è morta pochi mesi prima. Per un cancro al cervello. Aveva solo 6 anni.
La legge dei piccoli numeri
Tim Clifford è un insegnante di inglese che lavora a New York. Dopo 26 anni di esperienza, viene sottoposto a una valutazione condotta da un value-added model. Dello stesso tipo al quale fu soggetta Sarah Wysocki (Gli algoritmi e i “mostri” della tecnologia). Si tratta di un modello statistico che cerca di distinguere l’impatto causale di un insegnante sull’apprendimento dei suoi studenti da elementi quali abilità degli studenti e fattori extrascolastici.
Il voto è di 6 punti su 100. Il risultato è talmente devastante che Clifford si prepara all’anno successivo convinto di essere sull’orlo del licenziamento. Ma, poiché il sistema non fornisce alcun consiglio su come migliorare il suo “voto”, si limita a fare il suo lavoro come aveva sempre fatto, sperando in meglio. L’anno successivo il voto migliora: 96 punti su 100.
L’enorme differenza tra un anno e il successivo già suggerisce che l’algoritmo in sé avesse dei problemi. Il voto dell’insegnante sembra basato sull’approssimazione di dati. Un modello statistico dovrebbe essere basato su una grande quantità di dati per essere affidabile, ma per un insegnante i dati sono costituiti solo dai voti di venti, trenta studenti.
Nel libro “Pensieri lenti e veloci”, il premio nobel per l’economia, Daniel Kahneman, evidenzia un caso di studio sull’incidenza del cancro ai reni nelle contee degli Usa. Da questo studio emerge un dato straordinario: le contee con una bassa incidenza del cancro ai reni sono quelle meno popolose e perlopiù rurali. Da cui si potrebbe evincere che la vita più sana e meno caotica della campagna, senza inquinamento e con accesso a cibi freschi e naturali, riduce le percentuali di cancro. È perfettamente plausibile, no?
La verità è che i dati da elaborare sono pochi. I risultati estremi si rinvengono più facilmente nei campioni piccoli che non in quelli grandi. Si tratta di “artefatti”, osservazioni dovute interamente al metodo di ricerca, in sostanza l’esigenza del tutto umana di trovare una causalità anche lì dove non c’è.
La “legge dei grandi numeri” insegna, infatti, che i risultati di campioni grandi sono più attendibili dei risultati di campioni piccoli, ma anche che i campioni piccoli danno risultati estremi più spesso dei campioni grandi. La “legge dei piccoli numeri” è l’effetto del bias dei ricercatori, l’eccessiva fiducia in quello che si può apprendere da pochi dati, l’eccessiva fiducia nel “metodo scientifico”.
Ogni qual volta osserviamo una “regolarità” respingiamo l’idea che il processo sia davvero casuale, e siamo pronti a credere che dietro di essa ci sia sempre una causa. Siamo sempre pronti a cercare (e trovare) degli schemi dappertutto, siamo più attenti al contenuto di un messaggio che alle informazioni sulla sua attendibilità. E gli stessi schemi mentali che ci governano vengono utilizzati nel programmare gli algoritmi.
L’argomento utilizzato dai programmatori per risolvere l’imprecisione statistica è: “occorrono più dati”. Sembra plausibile. È la giustificazione alla base della raccolta ad “aspirapolvere” tipica dell’NSA (National Security Agency, agenzia governativa americana che si occupa di sicurezza) che le cronache hanno portato alla ribalta. Lì si raccoglieva tutto, nessun dato escluso, perché, chissà, un giorno potrebbero sempre servire.
Ma, se torniamo al caso degli insegnanti, ci scontriamo con un ostacolo insormontabile. I dati veramente rilevanti sono sempre quei pochi che derivano dagli studenti. È praticamente impossibile per una classe di venti o trenta studenti abbinarsi con una popolazione più vasta. Una classe che è in ritardo di preparazione finirà per aumentare i punteggi più velocemente di un’altra classe più preparata che però, avendo già voti alti, ha meno spazio per migliorare. Ciò potrebbe portare a valutare meglio l’insegnante della classe meno preparata. Il sistema di punteggio è fallato.
Un modello previsionale
Per risolvere il problema del numero ridotto di dati da poter inserire nell’algoritmo, si seguono altre strade. Invece di comparare direttamente i punteggi degli studenti si possono comparare gli studenti con un modello previsionale di uno studente, basato, ad esempio, sui dati di tutti gli studenti del distretto di New York.
In pratica una sorta di personas come quelle utilizzate nel marketing. Se uno studente ottiene un voto superiore al “modello”, allora l’insegnante aumenta di punteggio. E così via. In sostanza si misura il gap tra il risultato effettivo e il risultato atteso. Ma, per realizzare un “modello” di studente, si finisce per utilizzare dati “secondari” (proxy).
In questo modo si inserisce nel modello una quantità di “rumore” che altera il risultato, cosa che spiega perché i punteggi letteralmente “saltano” da un anno all’altro senza alcun reale motivo. Il modello statistico finisce per diventare random. Un proxy non è altro che un “sostituto” per l’effettiva informazione.
Se non ho l’informazione relativa a un soggetto, la desumo da altre informazioni delle quali dispongo. Un caso classico può essere quando una piattaforma del web cerca di capire qual è il sesso di un utente. Utilizza, quindi, informazioni secondarie per ricavare l’informazione primaria che gli occorre. Google, tanto per citarne una, potrebbe utilizzare i dati di navigazione dell’utente (che potete vedere in Preferenze Annunci). Ma in questo modo può accadere che una persona sia categorizzata differentemente da come è in realtà.
Una donna che visiti molti siti di calcio potrebbe essere categorizzata come uomo. Allo stesso modo di una donna che, per lavoro, visita molti siti tecnologici. Perché si tratta di siti generalmente visitati da uomini, a differenza di quelli tipo Groupon che si ritiene siano più visitati da donne (stima 69% donne).
L’utilizzo di dati “secondari” fa sì che l’informazione sia basata su mere presunzioni. Ed è particolarmente grave perché tali presunzioni finiscono per autoreplicarsi.
Un algoritmo basato sui dati passati non potrà mai prevedere il futuro, ma finirà per replicare il passato. Quanto più spesso le donne vengono erroneamente categorizzate come uomini, tanto più spesso visitare siti tecnologici o finanziari appare essere cosa da uomini, e quindi le donne che visiteranno tali siti continueranno ad essere categorizzate come uomini (Google Thinks I’m a Middle-Aged Man. What About You?).
Ovviamente se questa operazione la compie Google non è così grave, al massimo avremo pubblicità per uomini indirizzata a donne. Ma se tali dati vengono poi forniti a terzi, a formare database utilizzati per il training di sistemi di intelligenza artificiale, ad esempio per valutare i curricula di candidati da assumere, il danno può essere decisamente più importante.
Ma c’è di più. I dati “secondari” possono essere in certi casi utilizzati anche per “aggirare” le leggi. Negli Usa in base al Fair Housing Act del 1968 è vietato indirizzare gli inserzionisti in base alla razza dei cittadini.
Nel 2016 ProPublica scopre che Facebook indirizzava gli inserzionisti, non in base all’etnia degli utenti (che è vietato), ma in base all’affinità etnica, ottenendo un risultato piuttosto simile, anche se decisamente meno accurato. In sostanza se sei interessato, in base a quanto si può desumere dalla navigazione online, a contenuti riguardanti un determinato gruppo etnico, sei categorizzato quale “affine” e quindi diventi destinatario di pubblicità inerente quel particolare gruppo etnico.
Dopo l’inchiesta di ProPublica Facebook ha modificato il sistema, asserendo che non è possibile usarlo per discriminare i gruppi etnici, (Facebook (Still) Letting Housing Advertisers Exclude Users by Race) sistema tutt’ora utilizzato. In ogni modo Facebook, e le altre aziende del web che usano sistemi similari, di fatto controllano come l’utente è rappresentato nella sua individualità, basandosi su mere presunzioni. L’utente, cioè, non può modificare in alcun modo il dato, essendo semplicemente un proxy.
Il giardino dell’Eden
Con le nuove tecnologie si capovolge la leggenda dell’albero della conoscenza, trasferendo l’azione dal giardino dell’Eden a quello di Woolsthorpe Manor nel Lincolnshire, dove Sir Isaac Newton si interroga sul perché una mela cada diritta verso il basso e non in differenti direzioni.
Nel mito della Genesi gli umani vengono puniti per la loro sete di conoscenza e scacciati dal giardino. Nel mito di Newton nessuno lo punisce, anzi l’unico attore rimasto è l’uomo.
La rivoluzione scientifica relega Dio ai margini, ponendo al centro della scena solo l’essere umano, incoraggiato alla curiosità e allo studio. L’uomo non solo rientra prepotentemente nel giardino da dove era stato cacciato, ma grazie alla tecnologia trasforma quel giardino a sua immagine e somiglianza. Così facendo, però, dimentica il sottinteso del mito: solo padroneggiando accuratamente la conoscenza l’uomo potrà creare il paradiso in terra.
Gli algoritmi e i processi decisionali automatizzati non sono intrinsecamente prevenuti, hanno funzionalità deterministiche e prendono le tendenze insite nei dati forniti per il training. Sono creati per approssimare il mondo in modo da soddisfare gli scopi del loro architetto, e incorporano una serie di presupposti su come funziona la società.
In tal modo l’algoritmo può riflettere i pregiudizi del proprio programmatore che incorpora (inconsciamente) nel codice, perché è comune agli esseri umani l’incapacità di riconoscere i propri criteri come pregiudizievoli. Il processo decisionale algoritmico finisce così per replicare i pregiudizi strutturali, su vasta scala, ampliandone le conseguenze. Il bias può essere nel set di dati.
Ad esempio nelle fotografie, se il sistema deve imparare a riconoscere tra cani e lupi, fornendo al sistema foto, opportunamente taggate, nelle quali, però, il lupo è sempre ripreso sulla neve, il sistema potrebbe finire per riconoscere la neve, e non l’animale. Oppure il bias può essere radicato nei dati in maniera più sottile. Se il sistema si basa sui dati passati, poiché la maggior parte dei curricula proviene dagli uomini, il sistema “apprende” che è meglio assumere dei candidati maschi per un posto di programmatore o di consulente finanziario.
O un sistema algoritmico che dovesse decidere sulla base delle fotografie presenti online finirebbe per introitare una distorsione di genere, visto che nella raffigurazione delle attività di cucina in genere sono presenti delle donne, mentre le attività di sport sono in genere associate ad uomini. E così via.
Oggi i sistemi decisionali automatizzati sono il pilastro dell’economia basata sui dati, quella che capitalizza le informazioni degli utenti-cittadini al fine di fornire servizi e prodotti, e per ottenere un profitto. È la necessità economica il motivo primario per l’uso di queste tecnologie. Ma è qui che il mito dell’efficientismo tecnologico mostra tutti i suoi limiti. Un programmatore ha della società e dei suoi problemi una conoscenza limitata alla sua esperienza personale o poco più, e di conseguenza l’algoritmo sarà tarato sul microcosmo del suo creatore. Inoltre, gli algoritmi sono costruiti per funzionare automaticamente il più possibile, questo è l’unico modo “efficiente”. Se dovessero fermarsi ogni tanto per consentire ad un essere umano di rivalutarne le scelte dal punto di vista etico, l’algoritmo diverrebbe inefficiente.
Quello che cerchi, quello che ami
L’intera industria tecnologia è guidata da maschi bianchi che pensano di essere i migliori, di essere speciali, e sono fortemente orientati a credere, sulla base del proprio personale successo, che il loro modo di pensare e di agire sia il migliore per tutti.
Ed ecco che gli errori degli algoritmi possono essere taciuti, minimizzati, addirittura giustificati. Per loro, gli “architetti”, non c’è niente di sbagliato nel sorvegliare le persone, nel manipolarle, non c’è nulla di sbagliato nell’osservarle in “god mode” come nello scandalo Uber del 2014. Molti di quelli che creano questi sistemi decisionali non si pongono nemmeno il problema di poter creare danni agli altri, semplicemente non ci pensano, perché non è mai capitato a loro: «No one really spends a lot of time thinking about privilege and status. If you are the default you just assume you just are» (Suresh Venkatasubramanian a Motherboard).
Oggi i programmatori, creatori di “intelligenza artificiale”, sono considerati quasi come dèi, la tecnologia è sempre più vista come qualcosa di magico, ed è rappresentata come l’unica capace di risolvere i troppi problemi della società. Molte persone del settore tecnologico davvero ci credono, di poter salvare il mondo, di farlo in questo esatto momento. E tutti noi, illusi dalla freddezza del calcolo matematico, da “algoritmi” presentati come asettici, interamente basati sui dati, neutrali, tendiamo a fidarci senza nemmeno testarne l’affidabilità.
L’algoritmo in sé non è in grado di distinguere ciò che è giusto da ciò che è sbagliato, tra “cercare” qualcosa e “amare” qualcosa. Se cerchi l’ispirazione per rimodernare la casa, l’algoritmo della piattaforma popolerà il tuo feed con immagini di vernici e consigli degli interior designer.
Allo stesso modo, se soffri di disturbi alimentari o hai tendenze suicide, il tuo feed ti proporrà immagini di ciò che cerchi. Così come accadde all’adolescente inglese Molly Russel, che cercò immagini di suicidio e autolesionismo prima di suicidarsi. Il suo feed Instagram ne era pieno: una gamba tagliata, il cartone animato di una giovane ragazza impiccata.
L’algoritmo che “raccomanda” immagini e articoli non discrimina, ti mostra ciò che potresti “amare”, ciò che cerchi e che brami, anche se può essere deleterio per te.
Questi sistemi di raccomandazione riempiono il tuo feed di suggerimenti, rimodellando la tua visione del mondo e della malattia, amplificandola e distorcendola.
Fino al 2013 se avessi detto al sistema Siri di Apple che hai intenzione di suicidarti, Siri ti avrebbe indicato la direzione al più vicino negozio di armi. Certo, si potrebbero vietare, bloccare, filtrare. Ma, al solito, i divieti non sono mai perfetti. Sono incapaci di distinguere. Molte persone che lottano contro le tendenze autolesionistiche o le inclinazioni suicide trovano un forte supporto emotivo online.
Vietare tali argomenti potrebbe, di contro, finire per sottrarre preziosi consigli e supporto essenziale per tanti, perché un algoritmo, un sistema di filtraggio non è in grado di distinguere davvero. Una proibizione generalizzata potrebbe essere un rimedio peggiore del male. Adam Mosseri, capo di Instagram, ha ammesso che occorre fare di più. Un miglioramento degli algoritmi per evitare che raccomandino contenuti sensibili nei feed degli utenti.
Ma non basta, continua Mosseri: “Sappiamo che non possiamo farlo da soli, motivo per cui stiamo lavorando con esperti di salute mentale per rendere il nostro approccio più efficace”. Gli algoritmi di “raccomandazione” sono il mezzo più semplice per mantenere sui social gli utenti, e non spariranno. Occorre quindi fare di più, occorre che le aziende tecnologiche comprendano che non possono fare tutto da sole, che non basta la sola tecnologia per risolvere i problemi sociali.
Quanto più la tecnologia è capace di modellare il mondo che ci circonda e darne un senso, tanto più è importante che non soffra di pregiudizi, dei bias dei loro creatori, tanto più è importante che non sia concentrata nella mani di pochi “eletti”. Il solo fatto di aver avuto successo, costruendo un’azienda miliardaria, non vuol dire che sappiano davvero cosa è meglio per la società intera.
È l’uomo che crea l’algoritmo, il quale poi decide, consiglia, raccomanda, fornisce agli utenti un’“esperienza personalizzata”.
Be the first to comment