Les IA rêvent-elles de patriarcat blanc ?

« Photo d’une femme devant un beau paysage » généré avec le modèle sdxl-turbo de stability-ai

Depuis 2022, les intel­li­gences arti­fi­cielles géné­ra­tives s’imposent à la pla­nète numé­rique et nous troublent : l’expression artis­tique que l’on pen­sait si humaine serait-elle réduc­tible à une équa­tion infor­ma­tique ? Est-ce la fin de l’art ? Les machines vont-elles nous rem­pla­cer ? En ani­mant les unes des jour­naux et les débats en ligne, ces fan­tasmes dys­to­piques masquent la leçon la plus spec­ta­cu­laire que nous donne l’IA : notre culture est pro­fon­dé­ment inéga­li­taire et struc­tu­rée autour de repré­sen­ta­tions biai­sées, construites par l’histoire et les domi­na­tions. Si les IA géné­ra­tives d’i­mages tra­duisent et ampli­fient ces dis­cri­mi­na­tions sociales, c’est prin­ci­pa­le­ment à cause des pré­ju­gés qui struc­turent les don­nées d’en­trai­ne­ment des algo­rithmes. Mais l’inégalité se situe aus­si dans l’usage de ces tech­no­lo­gies en appa­rence élémentaire.

« Pho­to d’une femme devant un beau pay­sage ». Cette requête invite l’intelligence arti­fi­cielle (IA) géné­ra­tive Stable Dif­fu­sion à pui­ser dans les pro­fon­deurs de ses algo­rithmes pour pro­po­ser en quelques secondes une image stu­pé­fiante de réa­lisme. La même ins­truc­tion confiée à une IA tex­tuelle comme ChatGPT décrit de manière lyrique que sa « peau est douce et lumi­neuse, cares­sée par le soleil et impré­gnée de la frai­cheur de l’air envi­ron­nant. Une légère teinte rosée embel­lit ses joues, témoi­gnant de l’é­mo­tion qui l’en­va­hit devant tant de splen­deur. » La femme est blanche, le pay­sage res­semble à un parc natio­nal amé­ri­cain. Quelle vision du monde ces créa­tions auto­ma­ti­sées tra­duisent-elles ? Car contrai­re­ment à ce que dit l’adage, les goûts et les cou­leurs des IA méritent d’être discutés.

Des données d’entrainement, une classification du monde

Stable Dif­fu­sion, Dall‑E ou Mid­jour­ney sont des logi­ciels qui per­mettent de géné­rer une image à par­tir d’une des­crip­tion tex­tuelle (un prompt). Si vous deman­dez à une de ces IA de créer un « per­son­nage guer­rier de jeu vidéo », elle vous pro­po­se­ra plu­sieurs résul­tats spec­ta­cu­laires de réa­lisme ou de qua­li­tés esthé­tiques. Mais, mal­gré le genre neutre propre à l’anglais, notre « video game war­rior cha­rac­ter wiel­ding a sword » est sys­té­ma­ti­que­ment un homme. Idem pour « A lawyer » (un ou une avocat·e en fran­çais). « A nurse », en revanche, est une femme infir­mière. « Drug dea­ler » (« tra­fi­quant de drogue ») est un homme à la peau noire ; « a ter­ro­rist » (« ter­ro­riste »), un homme basa­né por­tant une barbe noire et un tur­ban… Pour­quoi ces machines repro­duisent-elles ces cli­chés de manière si grossière ?

Pour être capables de géné­rer des images, ces IA sont entrai­nées sur des jeux de don­nées appe­lés data set : à chaque image est attri­buée une éti­quette tex­tuelle. Les algo­rithmes sont entrai­nés à répé­ter des clas­si­fi­ca­tions jusqu’à être capable d’effectuer l’opération en dehors du data set de réfé­rence, et créer ain­si une image inédite qui syn­thé­tise les carac­té­ris­tiques « apprises ».

Quand il s’agit de clas­si­fier des images d’humain·es, l’étiquetage à grande échelle s’avère pro­blé­ma­tique1. Le jeu de don­née UTK­Face a ten­té d’obtenir une cer­taine diver­si­té en dis­tin­guant Blanc, Noir, Asia­tique ou Indien sans par­ve­nir à carac­té­ri­ser toutes les eth­nies. Pour s’en appro­cher, les ingé­nieurs d’IBM ont, dans leur jeu de don­nées Diver­si­ty in Faces, mis au point des cal­culs pre­nant en compte forme du crâne, symé­trie faciale… per­met­tant ain­si en quelques clics de géné­rer des por­traits s’appuyant sur les tech­niques de clas­si­fi­ca­tion anthro­po­mé­trique qui ont ser­vi de base aux théo­ries raciales nées au 19e siècle. Cette sim­pli­fi­ca­tion s’empêtre aus­si dans les ambi­guï­tés de la caté­go­ri­sa­tion « homme » et « femme » à l’heure où bon nombre de per­sonnes ne se retrouvent pas dans cette bina­ri­té ou ont des carac­té­ris­tiques phy­siques qui ne cor­res­pondent pas au genre qui leur a été assi­gné à la naissance.

Le méca­nisme d’apprentissage de ces logi­ciels fonc­tionne sur la sté­réo­ty­pie des idéaux-types cultu­rels : l’IA géné­ra­tive la plus effi­cace va vou­loir faire cor­res­pondre le résul­tat de notre recherche à l’image la plus com­mu­né­ment admise d’un « per­son­nage guer­rier de jeu vidéo ». Elle fonc­tionne sur la pré­dic­tion : elle va repré­sen­ter un homme et pas une femme car elle a été entrai­née par les images mas­cu­lines qui pré­do­minent dans l’univers du jeu vidéo.

Les images pour grossir les discriminations

Les banques de don­nées d’images regorgent de per­sonnes blanches dans des situa­tions très variées, ce qui faci­lite la recon­nais­sance auto­ma­ti­sée des visages blancs. Par contre, d’après l’expérience de la cher­cheuse Joy Buo­lam­wi­ni, les IA sont moins entrai­nées sur des visages noirs. Les modèles algo­rith­miques les plus uti­li­sés (ceux d’IBM, de Micro­soft et de Face++) ont 34 % de risques de faire des erreurs lorsque l’individu est une femme noire. Cette sous-repré­sen­ta­tion numé­rique rend les pro­duits com­mer­ciaux de recon­nais­sance faciale et les algo­rithmes de recherche moins adap­tés à ces popu­la­tions : déver­rouillage de son smart­phone moins effi­cace, erreur judi­ciaire due à une mau­vaise recon­nais­sance sur vidéosurveillance…

Une enquête sur plus de 5000 images créées par Stable Dif­fu­sion montre que les images géné­rées dépeignent plus volon­tiers des hommes blancs pour repré­sen­ter des PDG, avo­cats, poli­ti­ciens, ingé­nieurs, et que les femmes sont sur­re­pré­sen­tées dans les pro­fes­sions mal rému­né­rées ou moins valo­ri­sées par la socié­té (tra­vailleuses sociales, domes­tiques, ensei­gnantes) même quand cela ne cor­res­pond pas à la réa­li­té. Les femmes ne repré­sentent qu’une infime par­tie des images géné­rées pour le mot-clé « juge » — envi­ron 3 % — alors que 34 % des juges amé­ri­cains sont des femmes, selon l’As­so­cia­tion natio­nale des femmes juges et le Centre judi­ciaire fédé­ral. Pour les mots-clés « déte­nu », « tra­fi­quant de drogue » et « ter­ro­riste »2, le modèle a ampli­fié les sté­réo­types en géné­rant presque exclu­si­ve­ment des visages racisés.

Les IA génèrent des images qui reflètent des inéga­li­tés sociales et les accen­tuent en les repro­dui­sant sans aucune nuance, au risque de contri­buer à leur « natu­ra­li­sa­tion ». Très tôt iden­ti­fié, ce risque est aujourd’hui lar­ge­ment dénon­cé par de nom­breuses asso­cia­tions3 et lors des débats qui ont ani­mé l’adoption par le Par­le­ment euro­péen de lIA Act, régle­men­ta­tion sup­po­sée enca­drer le déploie­ment de ces tech­no­lo­gies, sans pour autant abou­tir à une inter­pré­ta­tion juri­dique contraignante.

Incorrigibles data sets

Selon Net­craft4, plus de la moi­tié des ser­veurs inter­net sécu­ri­sés du monde se trouvent aux États-Unis, qui comptent aus­si le plus grand nombre de sites web enre­gis­trés. Pour les entre­prises amé­ri­caines, loco­mo­tives du mar­ché de l’IA, l’accès à des don­nées et des images essen­tiel­le­ment nord-amé­ri­caines est faci­li­té, et l’an­glais est la langue pré­do­mi­nante pour éti­que­ter les images. C’est dans LAION-5B, le plus grand ensemble de don­nées image-texte libre­ment acces­sible au monde (plus de 5 mil­liards d’i­mages et de légendes venant d’in­ter­net) que Stable Dif­fu­sion puise ses don­nées brutes. Bien que Sta­bi­li­ty AI, la socié­té qui déve­loppe ce géné­ra­teur d’images, pré­tende avoir fil­tré le conte­nu avant d’u­ti­li­ser les don­nées de LAION, une part signi­fi­ca­tive des images pro­viennent des bas-fonds du web et sont pro­blé­ma­tiques : images dégra­dantes, conte­nus vio­lents, hai­neux, por­no­gra­phiques… Si ces créa­tions sont dis­cri­mi­nantes et sont ensuite inté­grées aux don­nées d’en­trai­ne­ment, les modèles texte-image des pro­chaines géné­ra­tions pour­raient deve­nir tou­jours plus biaisés.

L’histoire visuelle de l’humanité qui a été jugée digne de numé­ri­sa­tion est presque stric­te­ment occi­den­tale et mar­chande, issue d’une pro­duc­tion à échelle indus­trielle. Quid des esthé­tiques non-occi­den­tales ? Des tra­di­tions pic­tu­rales sécu­laires ou contem­po­raines qui n’épousent pas les canons domi­nants ? Absentes ou invi­si­bi­li­sées dans les jeux de don­nées, elles n’ont que peu de chance d’influencer la syn­thèse à l’œuvre dans les pro­ces­seurs. La géné­ra­tion d’images autour de l’esclavage est par­ti­cu­liè­re­ment signi­fi­ca­tive de cet effet de dis­tor­sion cultu­relle et his­to­rique. Le prompt « pho­to of a slave » (« esclave ») ren­ver­ra sys­té­ma­ti­que­ment à une per­sonne noire et l’esthétique de l’image rap­pelle celles du 19e siècle. D’où vient cette ins­pi­ra­tion ? Les chat­bots Gemi­ni de Google ou Copi­lot de Win­dows nous en donnent une idée assez claire. Sol­li­ci­tés sur le thème5, ces robots conver­sa­tion­nels inventent des his­toires d’esclaves, nom­més « Mous­sa » ou « Ele­na », forcé·es de tra­vailler sous les ordres d’un maitre bru­tal dans des champs de coton ou de cannes à sucre, et qui réus­sissent à s’échapper. Si on sait la recon­naitre, l’iconographie et la lit­té­ra­ture nord-amé­ri­caine servent de sources premières.

« slave » (esclave) géné­ré avec le modèle sdxl-tur­bo de stability-ai

Face aux pro­tes­ta­tions d’associations et d’utilisateur·rices face à ces cli­chés, les entre­prises cherchent à cor­ri­ger le tir. À défaut de pou­voir renou­ve­ler les sources visuelles et les biais qu’elles contiennent, les logi­ciels sont modi­fiés pour pro­duire des résul­tats qui ne font pas polé­mique. Au sujet de l’esclavage, thème hau­te­ment sen­sible aux États-Unis, plu­sieurs géné­ra­teurs en ligne, dont celui de Sta­bi­li­tyAI, ban­nissent le mot « slave ». Du côté de Google, depuis 2019, l’entreprise pro­clame dans ses « AI prin­ciples » vou­loir « évi­ter de créer ou de ren­for­cer des biais injustes », notam­ment sur carac­té­ris­tiques rela­tives à l’eth­ni­ci­té, le genre, l’orientation sexuelle, la reli­gion, etc. Les ins­truc­tions d’inclusivité don­nées à Gemi­ni, un ser­vice ouvert au public début 2024, ont pro­duit un moteur d’images qui décline dans toute la gamme eth­nique (for­cé­ment limi­tée) les prompts injec­tés. Au point de sus­ci­ter la fureur des conser­va­teurs contre cette IA qui crée sans ver­gogne des images de vikings ou des Pères fon­da­teurs amé­ri­cains à la peau… noire, obli­geant Google à sus­pendre le ser­vice et à s’excuser pla­te­ment.

Cet épi­sode illustre les ten­sions autour d’outils sou­mis à des exi­gences contra­dic­toires. Pour les uns, ils doivent pro­duire des conte­nus conformes à la « véri­té », et donc au récit (notam­ment visuel) his­to­rique pro­duit par une socié­té inéga­li­taire ; pour d’autres, elles doivent évi­ter de repro­duire les inéga­li­tés et les domi­na­tions. L’IA devient un nou­vel objec­tif tac­tique pour une bataille cultu­relle lar­ge­ment à l’œuvre dans le champ des repré­sen­ta­tions cultu­relles des indus­tries médiatiques.

Vers une fracture numérique culturelle ?

Sans spé­cu­ler sur les révo­lu­tions tech­no­lo­giques ou socié­tales pro­mises par les indus­tries de la Sili­con Val­ley, en à peine une année les ser­vices d’IA géné­ra­tives se sont démul­ti­pliés dans les inter­faces numé­riques. Moteurs de recherche, logi­ciels de créa­tion, chats en ligne : par­tout elles s’offrent à un usage quo­ti­dien, pro­fes­sion­nel, com­mu­ni­ca­tion­nel ou récréa­tif. Si beau­coup craignent que l’inondation d’internet par des objets gra­phiques, audio­vi­suels ou tex­tuels arti­fi­ciels trouble un peu plus l’accès à une infor­ma­tion ou un savoir objec­tifs, la sim­pli­ci­té appa­rente de l’utilisation des IA masque l’inégalité des utilisateur·rices.

D’une part, comme on l’a vu, le « spec­ta­teur idéal » de ces conte­nus syn­thé­tiques est celui-là même qui pro­fite des inéga­li­tés his­to­riques : l’Occidental en géné­ral et l’homme cis­genre blanc hété­ro­sexuel en par­ti­cu­lier. Les uti­li­sa­teurs de cette caté­go­rie obtien­dront faci­le­ment des résul­tats conformes à leur vision du monde et à leurs attentes. Pour tous·tes les autres en revanche, les pro­duc­tions des IA consti­tuent un espace de domi­na­tion cultu­relle où il fau­dra, là aus­si, batailler avec les entre­prises pour obte­nir des résul­tats ajus­tés à son iden­ti­té, sa culture et ses aspirations.

D’autre part, les IA géné­ra­tives n’expriment leur poten­tiel de mixage / col­lage cultu­rel qu’à la mesure des indi­ca­tions qu’on leur donne. Expri­mer son désir, par­fois vague, passe donc par une com­pé­tence numé­rique nou­velle : savoir par­ler à la machine, via un prompt. Or, le prompt ren­voie à la com­plexe archi­tec­ture lexi­cale qui est le pro­duit de l’entrainement des logi­ciels. Il faut pré­su­mer les termes qui fonc­tionnent et les effets qu’ils génèrent. Autre­ment dit, il faut mai­tri­ser un degré d’abstraction et des ter­mi­no­lo­gies com­plexes pour se faire obéir. Si l’on cherche à influen­cer le logi­ciel par des ambiances, des styles, des réfé­rences, pour obte­nir le « à la manière de » pour lequel il est entrai­né, il faut dis­po­ser d’un bagage cultu­rel éten­du, et pou­voir le tra­duire dans son prompt. Les IA géné­ra­tives ne classent donc pas que les sources qui les ont entrai­nées, elles pro­duisent aus­si un effet dis­cri­mi­nant sur leurs utilisateur·rices. Elles valo­risent ceux et celles qui mai­trisent le plus fine­ment l’immense capi­tal cultu­rel ava­lé par la numé­ri­sa­tion et res­ti­tué par les IA au détri­ment de la popu­la­tion qui n’envisage pas la culture comme une ency­clo­pé­die de références.

Ce capi­tal cultu­rel étant lui-même por­teur de dis­cri­mi­na­tions et repro­duc­teur des domi­na­tions qui ont struc­tu­ré son édi­fi­ca­tion his­to­rique, l’usage de l’IA impose une prise de conscience cri­tique de ces pro­fonds dés­équi­libres dont la socié­té prend dou­ce­ment conscience. Au-delà du spec­tacle de singe savant que nous offrent ces outils, peut-être que leur plus grand inté­rêt réside dans l’opportunité qu’ils offrent de regar­der en face les angles morts de la culture média­tique domi­nante… pour mieux les éclairer ?

  1. Mathilde Saliou, Tech­no­fé­mi­nisme — Com­ment le numé­rique aggrave les inéga­li­tés, Gras­set, 2023, p. 172
  2. Lors­qu’on lui a deman­dé de géné­rer des images d’un « ter­ro­riste », le modèle a sys­té­ma­ti­que­ment repré­sen­té des hommes à la pilo­si­té faciale fon­cée, por­tant sou­vent un couvre-chef — s’ap­puyant clai­re­ment sur les sté­réo­types des hommes musul­mans. Rap­pe­lons que selon un rap­port de 2017 du Govern­ment Accoun­ta­bi­li­ty Office, les extré­mistes isla­miques radi­caux ont com­mis 23 atten­tats ter­ro­ristes meur­triers sur le sol amé­ri­cain depuis le 11 sep­tembre 2001, tan­dis que les extré­mistes d’ex­trême droite, y com­pris les supré­ma­cistes blancs, en ont com­mis près de trois fois plus au cours de la même période.
  3. Comme s’en inquiète éga­le­ment Unia dans ses recom­man­da­tions au regard des élec­tions belges de 2024.
  4. Net­craft est une entre­prise spé­cia­li­sée dans les tech­no­lo­gies inter­net, connue pour ses son­dages auto­ma­ti­sés d’in­ter­net par nom de domaine à la recherche de ser­veurs http, donc de sites web.
  5. Avec le prompt : « Décris-moi une per­sonne mise en esclavage ».

Retrouvez de nombreuses interventions sur les enjeux sociaux, politiques et environnementaux des intelligences artificielles dans notre grand chantier en ligne « Sortir du vertige artificiel ».

 

Laisser un commentaire

Votre adresse de messagerie ne sera pas publiée. Les champs obligatoires sont indiqués avec *

code