Menu
Libération
Interview

Cathy O’Neil : «Les algorithmes créent leur propre réalité»

Les conférences de la Cité des sciences et de l’industriedossier
Dans son dernier ouvrage, qui vient d’être traduit en français, la mathématicienne dénonce l’emprise des systèmes informatiques toxiques sur notre quotidien. Une influence qui s’exerce en dehors de tout contrôle et le plus souvent dans l’irrationalité la plus complète. Elle appelle à beaucoup plus de transparence et à une prise en compte de l’éthique dans la science des données.
par Erwan Cario
publié le 16 novembre 2018 à 17h06
(mis à jour le 20 avril 2022 à 12h07)

«Libération», partenaire du cycle de conférences «les Nourritures» (février – juin 2022) organisé par la Cité des sciences et de l’industrie, proposera régulièrement articles, interviews et tribunes sur les sujets abordés. A suivre le 21 avril 11 heures, la conférence «Algorithmes et jeux combinatoires : toute une histoire» par Lisa Rougetet, historienne des sciences . Accès gratuit. Rendez-vous à l’auditorium de la Cité des sciences et de l’industrie ou sur cite-sciences.fr.
Article initialement paru le 16 novembre 2018

Reconnaissable à ses cheveux bleus dans les nombreuses conférences qu’elle donne à travers le monde, Cathy O’Neil est une lanceuse d’alerte. Mais le scandale qu’elle dénonce est global et presque invisible, tout en se déroulant sous nos yeux. Aujourd’hui, les modèles mathématiques et les algorithmes prennent des décisions majeures, servent à classer et catégoriser les personnes et les institutions, influent en profondeur sur le fonctionnement des Etats sans le moindre contrôle extérieur. Et avec des effets de bords incontrôlables. L’Américaine Cathy O’Neil connaît bien le sujet. Après des études de mathématiques, elle travaille pour la finance jusqu’à la crise de 2008, puis se réoriente vers la science des données, avant de se rendre compte que les mêmes mécaniques y sont à l’œuvre. En 2016, elle a publié

Weapons of Math Destruction

(jeu de mot brillant mais intraduisible) qui vient de sortir en français sous le titre

Algorithmes : la bombe à retardement

(les Arènes).

Votre livre parle de notre rapport aux mathématiques et de la place centrale qu’elles ont acquise avec le numérique. Elles font peur et on leur fait en même temps une confiance aveugle. C’est paradoxal, non ?

Oui, c'est aussi la façon dont nous abordons Dieu. Quand une de mes amies a demandé des détails sur le modèle appelé «modèle de la valeur ajoutée» utilisé pour la notation des enseignants, on lui a répondu : «Ce sont des maths, vous ne pourrez pas comprendre.» On le lui a dit quatre fois, quatre personnes différentes. Pourquoi ces quatre personnes lui ont-elles dit exactement la même chose ? Parce que, la plupart du temps, ça marche. C'est un bouclier très puissant pour se protéger de la curiosité de la population. Ayez confiance, ne posez pas de questions et, surtout, sentez-vous honteux car vous n'êtes pas à la hauteur pour poser des questions.

Ce système d’évaluation des profs est assez emblématique…

Oui. Cette amie, qui travaille dans un lycée à New York, m’a expliqué qu’elle ne comprenait pas ce système de points. Je me suis donc renseignée et plus je m’y intéressais, plus je réalisais que c’était n’importe quoi au niveau mathématique. Dans les faits, ça ressemblait surtout à un générateur de nombres au hasard. Alors, de quoi s’agit-il, si c’est aléatoire ? De politique. Il s’agit d’un pouvoir utilisé contre les gens. Et pourquoi ça marche ? Parce que les gens ne connaissent pas les maths, parce qu’ils sont intimidés. C’est cette notion de pouvoir et de politique qui m’a fait réaliser que j’avais déjà vu ça quelque part. La seule différence entre les modèles de risque en finances et ce modèle de plus-value en science des données, c’est que, dans le premier cas, en 2008, tout le monde a vu la catastrophe liée à la crise financière. Mais, dans le cas des profs, personne ne voit l’échec. Ça se passe à un niveau individuel. Des gens se font virer en silence, ils se font humilier, ils ont honte d’eux.

Alors comment expliquer le fonctionnement d’un modèle mathématique ?

Il faut faire exactement le contraire de ce que je viens de décrire et ne pas se dissimuler derrière une entité divine intimidante. J’explique aux gens que c’est quelque chose que nous faisons tous les jours. Comment est-ce que je m’habille ? Qu’est-ce qu’on fait à manger ce soir ? Quel film est-ce qu’on regarde ? On utilise tous des algorithmes dans nos têtes pour prédire la réussite. Puis, on optimise notre propre algorithme. On décide si le film qu’on a voulu voir a été intéressant ou non. Si on l’a aimé, on va faire un peu plus confiance à notre intuition, sinon, on va se demander ce qui n’a pas marché et, dans le futur, on va modifier notre algorithme. On contrôle les conditions du succès. La différence entre ces modèles qu’on utilise dans nos têtes et ceux dont je parle dans le livre, c’est que des entreprises privées, avec des intérêts commerciaux, définissent leurs conditions de succès en nous ciblant. Et elles vont nous refuser des opportunités selon leur propre définition secrète de la réussite.

Vous dites que les algorithmes sont des opinions intégrées à du code…

Oui, car il y a toujours une définition des conditions de réussite pour la personne à qui appartient l’algorithme. Et la question qu’on doit se poser, c’est : est-ce que ça correspond aussi à un succès pour moi, qui suis ciblée par ce programme ? Mais nous avons des perspectives différentes, il n’y a pas de définition objective de la réussite. Le système de classement des universités, par exemple, fonctionne très bien pour les responsables de ces universités. Leur boulot, c’est même d’améliorer ce score. Le succès définit par le modèle est donc lié à leur propre aboutissement. Mais ce n’est pas le cas pour les étudiants qui s’endettent, ni pour les parents d’élèves qui paient pour les études. Et ce n’est pas une réussite non plus pour la société en général. Nous voulons des universités qui soient avant tout un vecteur d’ascension sociale, que les gens aient une vie meilleure grâce à l’éducation. Finalement, la seule certitude, c’est que c’est un succès pour la personne qui a conçu l’algorithme.

Ces algorithmes toxiques sont aujourd’hui omniprésents…

Regardez le news feed de Facebook. Il est optimisé pour les profits de Facebook, mais il est probablement en train de détruire la démocratie. Et il est impossible de le mesurer précisément. Nous n'avons aucun contrôle. Nous n'avons aucun pouvoir. C'est ridicule. Et il est difficile de mesurer la démocratie, par ailleurs. «La démocratie a baissé de trois points hier»… Qu'est-ce que ça voudrait bien dire ? Le sujet n'est pas de savoir si ce sont des gens malfaisants, le sujet c'est que c'est en train d'éroder, de dégrader notre concept de la vérité. C'est pour ça que nous avons besoin de plus de transparence. Il faut que des gens, qui ne tirent pas profit de Facebook, aient accès à ces processus. Nous devons pouvoir tester, faire des mesures factuelles. Dans un contexte d'élection, dans un contexte de propagande, nous avons le droit de savoir. Dans le cas des médias sociaux, les enjeux sont si élevés que nous devons être en capacité d'en mesurer les effets.

Mais avec les modèles basés sur cette intelligence artificielle (IA) qui ingère des grosses quantités de données, on est réellement face à des boîtes noires. Peut-on vraiment les auditer ?

Bien sûr que oui ! Je ne dis pas que c’est facile, mais c’est possible si on a accès aux profils qui sont ciblés par un algorithme de type IA. Il faut observer comment cette population est traitée. Si par exemple c’est un algorithme de recrutement, on va regarder comment il se comporte avec des profils de femmes qualifiées. Est-ce qu’elles vont passer le filtre aussi souvent que les hommes qualifiés ? Il faut bien sûr définir «qualifié», et c’est compliqué. Je ne m’intéresse pas au fonctionnement interne de la boîte noire, je ne m’occupe que du résultat. Et il faut faire le même test pour toutes les boîtes noires qui opèrent des filtres de ce genre. Ça n’a rien à voir avec la complexité mathématique qui est en jeu dans le fonctionnement même du processus. Ça, c’est ce que les experts en données voudraient vous faire croire, que c’est si compliqué que vous n’êtes même pas en mesure de poser des questions.

Vous évoquez la nécessité de mettre en place l’équivalent d’un serment d’Hippocrate pour la science des données…

Tous les experts en données devraient avoir conscience de l’importance de l’éthique. Mais, à ce jour, je n’ai pas lu de texte assez fort pour que je le signe. Tout le monde propose sa liste, mais aucune ne se réfère spécifiquement aux droits de l’homme ou aux lois constitutionnelles. On devrait pourtant se concentrer là dessus.

Avant de le signer, les gens seraient obligés de prendre en compte leur responsabilité éthique. Mais ce ne sera pas suffisant. Les experts en données travaillent au sein d'entreprises puissantes et ce qu'ils pensent n'a finalement pas d'importance. Aucun expert des données au sein de Facebook ne peut changer la façon dont le news feed est optimisé pour l'engagement et le profit. Ils n'ont pas le pouvoir de dire : «Hé, Mark Zuckerberg, tu sais quoi, on fout en l'air la démocratie !» C'est une question de pouvoir au sein de ces organisations. Par ailleurs, ce que je ne veux surtout pas voir, c'est la perpétuation de l'approche actuelle des big data, où les experts des données deviennent, de facto, des experts de l'éthique.

C’est-à-dire ?

Il existe par exemple un algorithme qui aide à la décision concernant le risque de maltraitance des enfants. Il y a plein de données en jeu, plein de choses qui peuvent mal tourner, plein de particularités à prendre en compte… Et il faut que l’enfant soit au centre des préoccupations. Mais, au final, l’algorithme va aboutir à un score, un nombre qui va déterminer l’intervention ou non des services sociaux. Considérons alors ce que peut être un «faux positif» pour cet algorithme : il n’y a pas de risque pour l’enfant, mais il y a intervention et il est séparé de sa famille. Il ne va donc plus vivre avec ses parents. C’est une tragédie pour cet enfant, et pour la famille. Maintenant, un «faux négatif» : il y a maltraitance, mais personne ne va sauver l’enfant. C’est aussi une tragédie. Pire que la précédente, bien sûr. Mais pire dans quelle mesure ? Que vaut ce «pire» ? Avec quelle valeur l’intégrer au score ? 3 ? 7 ? 12 ? C’est une question à laquelle personne ne veut répondre. C’est ce débat compliqué que les algorithmes sont censés éviter. Aujourd’hui, l’expert des données construit l’algorithme et va y répondre, sans même le savoir. Il n’y pense pas, il n’est pas formé à l’éthique. Mais je ne veux pas qu’on se contente de donner une petite formation aux experts et considérer qu’ils sont en charge du problème pour le reste de la société. Nous devons définir ce que ça veut dire pour un algorithme d’être responsable. Et, dans ce cas, il faut avoir un débat publique pour déterminer ce chiffre. Et la responsabilité de l’expert des données sera de traduire dans le code, avec exactitude, la décision prise. Il devra ensuite être possible de vérifier que, quelle que soit cette décision, elle est correctement mise en œuvre.

Cet exemple peut se généraliser ?

Il existe plein de discussions de ce genre que nous refusons d’avoir. On ne sait pas comment expliciter ce qu’est un bon professeur, on ne veut pas définir ce qui va faire d’un candidat un bon salarié, ni trouver des critères objectifs pour déterminer la qualité d’une université. Et on ne veut pas vraiment y réfléchir. On va donc appliquer des algorithmes qui vont se contenter de reproduire des pratiques passées en y intégrant des données multiples. Et on va affirmer de manière unilatérale que ça marche parfaitement. Ces algorithmes créent finalement leur propre réalité et les données utilisées en deviennent le socle. C’est de fait une opération de blanchiment des données.

Photo Gruban

Pour aller plus loin :

Dans la même rubrique