Le fonctionnement des LLM (large language model) assombrit l’avenir du réseau internet

Pertes d’emploi, piétinement du droit d’auteur, altération de la souveraineté des États en faveur des plateformes, impossibilité d’y mettre un terme… La liste des dangers potentiels liés à l’intelligence artificielle s’allonge à mesure qu’elle gagne en efficacité. Les systèmes tels que ChatGPT en font partie. L’IA générative menace la qualité du web en appauvrissant la diversité des textes, donc de l’information. De la même manière que la consanguinité et la dérive génétique épuisent les capacités de l’ADN, elle pourrait, à terme, porter atteinte à nos aptitudes de pensée et d’adaptation.

La base du fonctionnement des grands modèles de langage

Lentille d'objectif noir avec un centre rougeoyant, figurant le personnage de l'intelligence artificielle HAL9000 dans le film 2001, l'Odyssée de l'espace.

HAL 9000 est le nom du système intelligent inventé par Stanley Kubrick pour son célèbre 2001, l’Odyssée de l’espace.
Inquiétante pupille rougeoyante dans un iris noir, la machine contrôlait les aspects techniques du vaisseau et pouvait converser avec les membres de l’équipage.

En 1968, à l’époque où le film est sorti, l’idée d’intelligence artificielle existait depuis une dizaine d’années seulement, et se heurtait à des défis non encore relevés. C’est entre œuvres de science-fiction, fantasmes populaires, choix politiques et travail scientifique que le futur que nous vivons actuellement a fini par devenir réalité.

Comment fonctionnent les programmes conversationnels qui font tant parler depuis fin 2022 ?

D’après les spécialistes, le terme « IA » pour désigner les grands modèles de langage (large language model ou LLM) n’est pas fidèle à la réalité. Elles imitent ce qu’un humain peut faire, mais n’abordent ni ne résolvent les problèmes de manière inédite. L’illusion, qui fonctionne plutôt bien, repose sur la reconnaissance du contexte et surtout, de la probabilité.

Pour faire simple, le système génère une suite de mots en fonction de leur « chance » d’apparition selon les données dont il dispose, c’est-à-dire internet. Cet immense réservoir de texte est alimenté chaque jour par les écrits de millions de personnes. Il ne s’agit pas seulement des pages de sites, des articles de blogs et des conversations sur les réseaux sociaux : les encyclopédies, romans, poèmes créés par nos prédécesseurs avant l’ère numérique s’y trouvent également.

mème animéede type GIF. Un homme vêtu et coiffé à la mode médiévale s'adresse à une femme : knowledge is power (la connaissance c'est le pouvoir).

Ces ressources, constituées par des siècles d’expériences humaines uniques, sont l’ADN avec lequel se construit la manière générée par l’IA. Comme le message génétique contenu dans l’ensemble d’une population animale, l’information que recèlent les textes est précieuse, et doit faire face à certaines menaces.

Au fil du temps, la génétique globale d’un groupe connaît des fluctuations de qualité et de diversité. Elle évolue, soumise aux influences extérieures et aux lois de la probabilité.

La propagation de l’information

Dans cet article, il n’est pas question de délivrer un cours magistral de biologie des populations. Afin que l’analogie apparaisse le plus clairement possible, voici quelques bases expliquées schématiquement.

intérieur de la bibliothèque du Clementinum à Prague. Le sol carrelé et le plafond peint sont ouvragés. Des meubles et des sculptures précieux ornent la galerie. Des milliers de livres garnissent les murs du sol au plafond.
La bibliothèque du Clementinum à Prague. Crédit photo : 500 px – Sean Yan

Le patrimoine génétique est comme une bibliothèque garnie de grimoires, de fascicules, de carnets de notes, qui sont les gènes. Imaginez ce meuble immense et plein à craquer. Et pour cause : chacun des livres est en double exemplaire, mais dans une version différente.
Par exemple, la recette de gâteau au chocolat de Paul Bocuse et celle de Claire Vallée. Chaque paire de livres contient le même genre d’information (recette de gâteau au chocolat), mais dans une autre déclinaison (traditionnelle ou vegan).
Vous l’aurez compris, ces livres en double représentent les gènes issus des deux parents d’un individu !

L’héritage des aînés

Pour transmettre sa collection, le propriétaire de la bibliothèque est obligé de se soumettre aux lois biologiques : seule la moitié de ses précieux livres, sélectionnée au hasard, sera copiée. Léguée à son héritier, elle viendra garnir la demi-bibliothèque de celui-ci, l’autre étant réservée aux ouvrages de son deuxième parent.

Dans un groupe d’individus pouvant se reproduire entre eux, chaque version de chacun des livres représente une information. Dans une situation donnée (environnementale, sociale), celle-ci peut s’avérer avantageuse, défavorable ou neutre. Elle peut également changer de statut si le contexte est modifié.

L’intérêt d’être hors norme

La phalène du bouleau est un papillon gris-blanc, normalement invisible sur l’écorce claire de ces arbres.

Avant l’industrialisation, les individus noirs étaient une proie évidente. Avec la pollution au charbon, la surface des plantes s’est assombrie et leur caractéristique est devenue un avantage pour échapper aux prédateurs.

Ainsi, quand le monde change, un trait défavorable peut se transformer en atout.

Deux papillons de l'espèce de la phalène, l'un gris clair, l'autre noir, sur des feuilles de bouleau.
Phalènes du bouleau. Crédit photo : Philippe Mothiron

Plus l’information disponible est variée, plus le groupe a de chances de continuer à se reproduire et à exister. En effet, cela augmente la probabilité de trouver des solutions à un péril inattendu.

Mais revenons à notre intelligence artificielle. Quelle analogie entre son usage, la sélection naturelle et la survie du groupe ?

Le préjudice de la similarité promue par ChatGPT

Portrait peint du XVIIe siècle de Charles II d'Espagne, un homme au nez et menton anormalement proéminents.
Charles II d’Espagne – Anonyme français XVIIe siècle (musée du Louvre)

Quintessence de la noblesse consanguine, Charles II d’Espagne était le fruit de l’union d’un oncle avec sa nièce, qui étaient eux-mêmes issus de mariages entre cousins.

Visage déformé, faiblesse physique, instabilité mentale, impuissance, illettrisme… le monarque s’est aussi révélé un leader politique désastreux. Ce constat, valable chez tous les souverains apparentés d’Europe, trouve sa cause dans le principe eugéniste de préservation du sang.

Cette débâcle, génétique et politique, incarnée par Charles II, est un résultat de la redondance de l’ADN. Dans la biologie de l’espèce humaine, l’uniformité est une impasse, la variété est une issue. Si vous souhaitez en savoir plus, cette vidéo sur la génétique et les mariage consanguins répondra avec entrain à vos question.

Que se passe-t-il avec les grands modèles de langage ?

Prenons l’exemple d’un propriétaire de site qui souhaite alimenter son blog. Il veut que son article réponde à une interrogation précise des internautes, et qu’il soit bien visible sur les moteurs de recherche.
Préférant se passer des services d’un rédacteur, il commande le texte à son IA favorite. Obéissant à la demande, celle-ci s’inspire de ce qui se fait de mieux en la matière, c’est-à-dire de ce qui arrive en tête des réponses de Google. Mots clés, vocabulaire, structure des articles, style, etc.
Une fois terminé, ce texte est mis en ligne et vient naturellement se positionner au milieu de ses parents. Il devient, à son tour, source pour un autre article sur le même sujet.

C’est ainsi que l’on voit apparaître des textes consanguins, d’une similarité gênante et d’une monotonie ennuyeuse.

Image en noir et blanc de Joaquin Phoenix dans un de ses rôles. Un homme d'une cinquantaine d'année assis sur un canapé, le regard trist et dans le vague, le point porté à la bouche.
Joaquin Phoenix – Nos âmes d’enfants (2021)

Ces écrits standardisés, normés par la « sélection naturelle » de Google, font perdre de sa diversité au web, mais surtout, de son intérêt émotionnel. La coloration affective est capitale pour un apprentissage réussi, la réactivité de la cognition, la vivacité de l’esprit, et finalement, pour la joie. Nous sommes soumis à l’information disponible sur internet. Comme les souverains consanguins ayant enfoncé leur population, l’uniformité pourrait détruire notre capacité d’analyse, ou nous dégoûter de vivre…

L’IA générative de texte menace l’information présente sur le web

La « consanguinité » évoquée précédemment est le résultat néfaste d’une sélection volontaire parmi les meilleurs. Un autre risque plane, sur l’originalité et la variété des données cette fois. Lié aux lois de la probabilité, ce danger est similaire au phénomène de dérive génétique.

Ce processus biologique est une perte de la diversité ADN dans un ensemble d’individus. La dérive génétique crée les races et peut aller jusqu’à la spéciation, c’est-à-dire l’incapacité de se croiser avec les membres d’autres groupes. Cette dégradation touche les caractères neutres, qui n’influencent pas la survie et le potentiel de reproduction, et est soumise aux lois de probabilité.

La dérive génétique

Revenons-en à notre bibliothèque, et prenons l’exemple théorique d’un livre sans importance majeure. Disons, le manuel de moulage du pavillon d’oreille :

Mosaïque d'images montrant les formes d'oreilles de neuf personnes.
Source : exploratorium.edu

On ne soupçonne généralement pas la diversité des formes d’oreille dans l’espèce humaine…!

Ceci est illustration.

Dans la réalité, plusieurs gènes-manuels sont nécessaires pour donner sa forme au pavillon.

Il peut exister des dizaines de façon différentes de faire une oreille, aucune ne serait meilleure qu’une autre. La transmission d’une version ou d’une autre se fait totalement au hasard.
Au fil des générations, certaines versions sont de moins en moins représentées et disparaissent au décès du dernier propriétaire. La diversité est perdue. Seules quelques-unes s’installent pour de bon dans la population. Après un certain temps, tous les individus possèdent des oreilles semblables.

L’utilisation massive des larges modèles de langage favorise le même type d’appauvrissement. En cause ? D’abord, le fonctionnement probabiliste. Ensuite, une source qui s’auto-alimente.

ChatGPT puise son « inspiration » dans les textes disponibles sur internet : il trouve les suites de mots les plus probables pour les utiliser dans ses créations… qui seront ensuite elles-mêmes des ressources.

Altération de l’information

Les LLM se nourrissent de leurs propres contenus. Ainsi, certaines expressions deviennent de plus en plus probables, donc de plus en plus utilisées, par conséquent de plus en plus présentes, à leur tour de plus en plus probables, etc.
Après un certain temps, on devrait assister à une perte globale de la diversité de l’information. Matérialisées par ces « suites de mots probables », certaines conceptions pourraient s’installer sans laisser de place aux autres.

En biologie, la perte de diversité d’un caractère affaiblit la capacité du groupe à s’adapter à la nouveauté. Quand tous les individus se ressemblent, ils sont tous sensibles aux mêmes périls. Ainsi, la population entière est décimée lorsque celui-ci survient. À l’inverse, si le groupe présente une diversité importante, il y en a toujours quelques-uns pour tirer leur épingle du jeu et préserver l’espèce.

Montage photographique montrant les personnages principaux de la série "The walking dead" affichant des expressions graves. Six adultes et un jeune garçon habillés en combattants rebelles dans un décor apocalyptique.
The walking dead (2010-2022)

Le web pourrait bien devenir cet espace uniforme, l’immense majorité des textes exposant les mêmes idées sous des formes presque identiques

Quel ennui et quelle négation de la pluralité de notre groupe humain ! Nous finirions par envisager les choses de la même façon, et cheminer par les mêmes parcours mentaux. Nous aurions peu ou prou les mêmes idées, les mêmes ressources de pensée, des actions semblables.

Notre espèce, privée de la protection de la diversité contre l’inattendu, pourrait bien sombrer en cas de défi grave et insoupçonnable… Qui sait ?

L’intelligence artificielle compromet le psychisme de l’internaute

On peut opposer à ce constat assez alarmiste notre propre modèle de création : après tout, nous aussi copions ce qui existe autour de nous.

L’esprit humain vs les systèmes programmés

Nous avons inventé les machines volantes en nous inspirant des animaux. Avec des pigments, nous avons reproduit la beauté que nous voyions dans le monde. En comprenant le fonctionnement du cerveau, nous avons créé les réseaux de neurones profonds qui fondent l’intelligence artificielle.

Mais à la différence des êtres humains, les programmes n’ont pas d’émotion ni de conscience. Les algorithmes ne s’émerveillent pas, ne rêvent pas, n’ont pas besoin de se sentir vivants. Ils ne sont pas poussés par la curiosité et l’imagination. Ils imitent l’humain parce qu’on le leur demande. Et ils ont des restrictions, celles de leur nature, mais aussi celles de la censure que nous leur imposons.

Si le web n’était nourri que par nos productions, il conserverait une certaine diversité. Nous aurions du choix pour entraîner nos esprits à la différence, à l’opinion divergente, à la situation inattendue.

Le morne avenir du web

Si l’information qu’il contient continue d’être alimentée par l’IA, tout sera atrocement uniforme, ennuyeux, inutile. Internet, cet outil fantastique né pour le public avec le nouveau millénaire, deviendra une zone sinistrée par la monotonie.

Vue de la ville de Paris depuis Notre-Dame.
Paris vue depuis Notre-Dame. Photo de Ilnur Kalimullin – Unsplash
Vue aérienne des lotissements de la ville de Dallas (Texas, USA)
Banlieue de Dallas. Photo de Judah Estrada – Unplash

Il serait alors comme une ville splendide inexorablement grignotée par des lotissements de moyenne gamme…

En quoi l’IA générative menace-t-elle le web ?

Cette question nécessiterait d’être développée par tous les membres du club des sciences humaines. Néanmoins, chacun d’entre nous peut s’interroger : comment moins d’idées diverses, disponibles pour ma propre réflexion, pourrait-il nuire à mon épanouissement et à celui de mon entourage ?

À l’époque du personal branding, où, entre deux profils similaires, c’est l’individualité qui fait la différence, comment accepter cette dérive ? Si nous y cédons, où trouverons-nous les ressources pour faire face à des défis inédits, difficiles et imprévus ?


L’IA menace la qualité du web que l’on connaît actuellement. Il présente certes de nombreux défauts, mais pas encore celui de l’uniformité. L’appauvrissement de l’information qu’il contient est comparable à de la consanguinité ou de la dérive génétique. Ce phénomène pourrait bien obscurcir l’horizon de la pensée humaine, et participer à une forme de déclin.

Les solutions possibles seraient une modification du fonctionnement de base de l’intelligence artificielle, une utilisation plus modérée de celle-ci et le recours à de vraies plumes humaines. Les textes qu’elle génère pourraient aussi être exclus des ressources dont elle dispose, afin d’éviter l’emballement de la probabilité. Une autre issue possible est l’avènement du web 3.0… qui pourrait poser des problèmes d’un autre ordre.

Christine – Rédige ton Web
Rédaction web SEO / vulgarisation scientifique et technique

Sources :

Histoire de l’intelligence artificielle
Qu’est ce qu’un grand modèle de langage ?

Petit lexique de l’IA générative

ChatGPT n’est pas intelligent
Les 5 plus grands risques de l’IA générative
Intelligence artificielle : les robots nous rendent plus humains !

La consanguinité à l’origine de l’extinction des Habsbourg d’Espagne
Le drame des rois consanguins


La dérive génétique
La phalène du bouleau, sélection naturelle

Qu’est-ce que le web3 ?


Publié

dans

,

par

Étiquettes :

Commentaires

Une réponse à “Le fonctionnement des LLM (large language model) assombrit l’avenir du réseau internet”

  1. […] aux internautes. Il nourrit Internet de textes dotés d’une personnalité. Contrairement à l’intelligence artificielle générative, qui menace la qualité des contenus sur Internet, le rédacteur créatif, lui, dépose une […]

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *