Vous êtes ici :

Intelligence artificielle (3/3) : comment la contrôler ?

< Retour au sommaire du dossier

Article

Les deux premiers articles de ce triptyque nous ont permis de remonter aux origines de l’IA, puis d’esquisser un état des lieux de son emprise actuelle dans notre quotidien.

Dans ce dernier volet, nous vous présentons un éventail des principaux points de vue permettant d’anticiper les futurs possibles de cet ensemble de technologies au potentiel incalculable.

L’humanité risque-t-elle son avenir en laissant les majors du secteur avancer à l’aveugle dans une quête de performance prométhéenne ?

Comme dans les pires dystopies, ce « golem » moderne, et bien réel, pourrait-il devenir assez autonome pour s’émanciper de ses maîtres ?

À quelles menaces tangibles peut-on déjà s’attendre, alors que les États qui investissent dans cette course à l’innovation se remilitarisent à grande vitesse et que le coût environnemental de l’IA à travers le monde s’annonce chaque jour plus exorbitant ?

Dans ce dernier texte, retrouvez une analyse lucide et étayée de questions qui nous concernent toutes et tous, experts ou simples citoyens, et dont il est urgent de prendre la mesure, sans catastrophisme ni naïveté.

Tag(s) :

Date : 30/09/2024

Bon nombre des dangers auxquels nous sommes confrontés découlent en effet de la science et de la technologie — mais, plus fondamentalement, du fait que nous sommes devenus puissants sans devenir sages. Les pouvoirs de transformation du monde que la technologie a placés entre nos mains exigent de nous une considération et une prévoyance inédites. -Carl Sagan, Pale Blue Dot : Une vision de l’avenir humain dans l’espace

 

Dans la tradition juive, les golems sont des êtres artificiels dépourvus de libre arbitre, modelés dans l’argile pour assister ou défendre leurs créateurs humains. D’après l’une des nombreuses versions de ce mythe, les Juifs façonnent un golem dans la boue après les festivités. Pour en garder le contrôle, ils gravent sur son front le mot emet (אמת), signifiant « vérité » en hébreu.

Initialement de petite dimension, le golem grandit jour après jour jusqu’à dépasser ses créateurs. Sa force devient alors telle qu’elle oblige ses maîtres à effacer la première lettre de l’inscription frontale, de sorte qu’on lise met (מת), c’est-à-dire « mort ». Le géant d’argile s’effondre alors aussitôt, retournant à son état originel de poussière. Mais une histoire raconte qu’un jour, un dénommé Elias Baal Shem laissa son golem devenir si grand qu’il en perdit le contrôle. Par la ruse, il força le golem à s’agenouiller et parvint à changer l’inscription sur son front. Mais la créature artificielle, déjà immense, s’écrasa sur lui et causa sa mort.

Le thème de la perte de contrôle de l’homme sur ses créations est un motif récurrent dans les mythologies. Il a inspiré d’innombrables récits et œuvres de science-fiction modernes. Le mot robot lui-même reflète cette peur ancestrale : forgé en 1920 à partir de la racine slave rob (« esclave ») qui a donné robotnik (« ouvrier ») en slovaque, le terme trouve son origine dans une pièce de théâtre tchèque, R. U. R. (Rossum’s Universal Robots), où des êtres artificiels se rebellent contre leurs créateurs.

Bien qu’initialement conçus pour servir l’humanité, les robots la conduisent finalement à sa perte, rappelant la légende du golem. Il est intéressant de noter que le terme robot, avec sa connotation menaçante, a rapidement remplacé celui d’automate, plus neutre, en usage depuis l’Antiquité. Aujourd’hui, ce terme ambivalent s’étend à divers agents immatériels, tels que les chatbots.

Qu’elles soient faites d’argile ou de silicium, les créations artificielles ont toujours inspiré aux humains un sentiment mêlé de crainte et d’admiration. Aurions-nous raison d’anticiper le retournement de l’intelligence artificielle contre ses créateurs ? Comment la contrôler ?

 

Photographie de la production R.U.R. de Karel Čapek réalisée en 1928-1929 par la compagnie itinérante Theatre Guild.

 

De l’intelligence artificielle générale à la superintelligence

 

Dès lors que la méthode des machines pensantes sera initiée, il ne leur faudra pas longtemps pour surpasser nos faibles capacités. […] À un certain stade, par conséquent, nous devrions nous attendre à ce que les machines prennent le contrôle. -Alan Turing, extrait d’une conférence donnée à l’université de Manchester en 1951

 

Comme détaillé dans un premier article, l’IA connaît depuis ses origines un progrès exponentiel. Cette dynamique repose sur l’évolution, elle aussi exponentielle, de trois facteurs sous-jacents : la puissance de calcul des ordinateurs, les avancées théoriques en informatique et les ressources consacrées à l’entraînement des modèles. Ce développement rapide est ponctué de seuils symboliques dont le franchissement suscite des débats passionnés parmi les experts. Certains de ces seuils — vaincre le champion du monde au jeu de go, reconnaître des images, maîtriser le langage — ont déjà été dépassés, tandis que d’autres restent à atteindre.

Le prochain seuil communément considéré par la communauté scientifique comme le plus important de tous est celui de l’intelligence artificielle générale (IAG). Dans son acception la plus courante, cette expression désigne un système d’IA capable d’égaler ou de surpasser les capacités humaines dans toutes les tâches cognitives possibles.

Contrairement aux systèmes d’IA spécialisés, qui peuvent surpasser les humains dans un domaine spécifique, l’IAG constituerait une véritable rupture dans l’évolution de l’IA. En effet, une fois ce seuil franchi, l’IA pourra s’employer à s’améliorer elle-même en faisant appel à un nombre arbitrairement grand de systèmes surpassant les meilleurs spécialistes humains en informatique, en électronique et en robotique. On peut alors anticiper une explosion des capacités de l’IA, menant à ce que certains auteurs, à la suite de l’ouvrage éponyme de Nick Bostrom, appellent une superintelligence : une entité dont l’intelligence serait telle qu’elle échapperait non seulement à notre entendement, mais aussi probablement à notre contrôle.

Bien que tous les spécialistes ne s’accordent pas sur les conséquences d’un tel scénario — nous y reviendrons plus en détail — il est essentiel de souligner que nombre d’entre eux (leur majorité ?) estiment plausible l’atteinte de l’IAG dans un futur relativement proche. La plus importante enquête menée à ce sujet, conduite à l’automne 2023 auprès de 2 800 chercheurs en IA ayant publié dans des revues académiques de premier plan, fournit une estimation médiane selon laquelle la probabilité que des machines autonomes surpassent les humains dans toutes les tâches cognitives serait de 10 % d’ici 2027 et de 50 % d’ici 2047.

Si optimistes — ou pessimistes, selon le point de vue — puissent sembler ces prédictions, elles se révèlent pourtant conservatrices en comparaison des estimations des dirigeants et collaborateurs des grandes entreprises technologiques : Geoffroy Hinton (lauréat du Prix Turing et anciennement chercheur chez Google) entrevoit l’IAG d’ici « 5 à 20 ans », Sam Altman (CEO de OpenAI) l’envisage « pour un futur raisonnablement proche », Demis Hassabis (CEO de Google Deepmind) ne serait pas surpris de l’atteindre « dans la prochaine décennie », Jensen Huang (CEO de Nvidia) croît « que nous l’atteindrons d’ici cinq ans » et Elon Musk a déclaré fin 2023 qu’il estimait être « à moins de trois ans de ce point ».

 

Et vous, quelle est votre p(doom) ?

 

« p(doom) », abréviation anglaise pour « probabilité de l’apocalypse », désigne l’estimation du risque que l’IA conduise l’humanité à sa perte. « Quelle est votre p(doom) ? » est une question tout à fait sérieuse à laquelle il est devenu difficile d’échapper pour les spécialistes de l’IA. Pour se convaincre qu’il ne s’agit pas d’une eschatologie moderne, il est utile de considérer que de nombreux scénarios catastrophes n’impliquent ni l’intervention de robots exterminateurs, ni de spéculations particulièrement audacieuses sur l’avenir de l’IA.

Comme le souligne Toby Ord, philosophe australien chercheur au Future of Humanity Institute de l’Université d’Oxford, les dictateurs les plus sanguinaires de l’histoire ont réussi à exercer un contrôle absolu sur de vastes régions du monde en n’utilisant rien d’autre que des mots : pour affirmer leur autorité, mobiliser des armées et convaincre des millions de personnes de défendre leur idéologie. Le maniement du langage, couplé à la capacité d’interagir avec une portion significative de l’humanité, offre donc à lui seul des possibilités presque illimitées de contrôle.

L’enquête précédemment mentionnée révèle que les trois quarts des scientifiques interrogés se déclarent « fortement » à « extrêmement préoccupés » par le potentiel offert par l’IA pour manipuler l’opinion publique à grande échelle, pour exercer un contrôle impitoyable de la population, ou créer des armes biologiques.

Au total, la moitié des répondants estiment qu’il y a plus d’une chance sur dix pour que « l’incapacité des humains à contrôler des systèmes d’IA avancés résulte en des conséquences extrêmement graves pour l’humanité, allant jusqu’à l’extinction de notre espèce ». Même en tenant compte de possibles défauts méthodologiques et en prenant toutes les précautions nécessaires, un tel résultat incite à prendre au sérieux le risque que l’IA fait peser sur nos sociétés.

 

 

Le problème du contrôle

 

Comment s’assurer de conserver le contrôle sur une machine dont l’intelligence surpasserait de loin la nôtre ? Une telle machine serait, presque par définition, capable de prédire, comprendre et mettre en défaut toute stratégie de contrôle conçue par un humain.

Pour rendre compte de la difficulté intrinsèque au problème du contrôle, on utilise parfois une analogie avec le rôle que joue aujourd’hui l’humanité au sein du règne animal : la destinée des grands singes, tout comme celle de nombreuses espèces sur Terre, repose aujourd’hui entièrement entre les mains de l’Homme. L’intelligence a permis à notre espèce de se hisser — au moins de façon brève — au sommet de la chaîne alimentaire et de remodeler la surface du globe à son « profit » et au détriment du reste du monde vivant.

Des milliers de pages ont été écrites pour préciser les contours du « problème du contrôle » et tenter de le résoudre. Bien qu’aucune solution universelle n’ait encore été trouvée, plusieurs stratégies ont été proposées.

 

La stratégie de l’endiguement

 

La première idée qui vient à l’esprit pour se protéger d’une menace incontrôlable est de s’en éloigner ou de l’enfermer. L’exclusion et la détention sont des pratiques adoptées dans presque toutes les sociétés humaines pour tenir à distance des individus dont le comportement constitue une menace pour le groupe. Cependant, cette stratégie n’est d’aucun secours lorsqu’il s’agit de gérer un système intangible, distribué et capable d’interaction simultanée avec des millions de personnes — comme c’est le cas d’un algorithme connecté à internet.

Mustapha Suleyman, cofondateur de DeepMind et auteur de La Déferlante : Technologie, pouvoir et le dilemme majeur du XXIe siècle, propose une stratégie qu’il appelle « l’endiguement » pour maîtriser les risques posés par les technologies émergentes telles que l’intelligence artificielle et la biotechnologie. Le terme s’inspire de la politique d’endiguement (containment) adoptée par les États-Unis durant la Guerre froide pour freiner l’expansion du communisme.

Cette stratégie repose principalement sur l’idée d’un contrôle proactif de ces technologies à l’échelle mondiale nécessitant une collaboration entre tous les gouvernements pour élaborer et mettre en œuvre des mesures de surveillance et de certification rigoureuses. Une dimension essentielle de cette approche consiste à limiter les capacités des systèmes d’IA avant qu’ils ne deviennent une menace pour la société, tout en restreignant et en surveillant sévèrement la diffusion des systèmes les plus dangereux.

Théoriquement, cette stratégie relève du simple bon sens. Sur le plan politique, cependant, sa mise en œuvre pourrait s’avérer particulièrement compliquée. Bien que la théorie des jeux prédise un scénario désastreux en cas de non-coopération, la compétition économique et géopolitique est souvent invoquée pour justifier une course aux armements, et la course à l’IAG n’y échappe pas.

De plus, l’intelligence artificielle abaisse considérablement la « barrière à l’entrée » pour le développement de technologies dangereuses. Alors que le développement de l’arme atomique nécessite la puissance d’un État, il pourrait bientôt suffire d’un modeste laboratoire pour mettre au point la prochaine pandémie, comme expliqué dans un article précédent. Dans un essai académique intitulé L’hypothèse du monde vulnérable, le philosophe Nick Bostrom souligne l’éventualité d’une société de contrôle total si de telles technologies devenaient accessibles au plus grand nombre.

 

 

La stratégie de l’alignement

 

S’il est impossible de régner sur une superintelligence, alors il faut s’assurer qu’elle poursuive exactement les mêmes objectifs que nous. C’est ce que préconise la stratégie de l’alignement.

L’intelligence, dans un sens restrictif, peut être définie comme la capacité à atteindre un objectif que l’on s’est fixé. La sagesse, de son côté, peut être comprise comme la capacité à poursuivre les « bons » objectifs. Nous avons tendance à supposer que, pour tout être pensant, intelligence et sagesse vont de pair. Pourtant, comme l’Histoire et la politique nous l’enseignent, c’est loin d’être toujours le cas : des intelligences exceptionnelles ont souvent servi les causes les plus funestes.

Il en va de même pour une machine intelligente. La thèse « de l’orthogonalité », largement acceptée parmi les spécialistes de l’éthique de l’IA, postule qu’il existe une distinction fondamentale entre intelligence et sagesse. Selon cette théorie, n’importe quel niveau d’intelligence peut être associé à n’importe quel objectif final. Autrement dit, il n’y a pas de limites à l’intelligence pouvant être mise au profit d’un objectif stupide ou destructeur.

L’exemple théorique le plus célèbre de la thèse de l’orthogonalité est sans doute la machine à trombones de Nick Bostrom : un système superintelligent programmé pour maximiser la production de trombones d’une usine qui finit par accaparer l’intégralité des ressources planétaires pour atteindre cet objectif unique. Cette illustration simpliste ne rend toutefois pas compte de la diversité de scénarios dans lesquels un système intelligent peut produire des effets inattendus et nuisibles.

Des chercheurs se sont amusés à recenser des dizaines d’exemples où des systèmes d’IA rudimentaires développaient des stratégies indésirables tout en obéissant de près aux consignes de leur créateur : un simulateur de Tetris programmé pour « ne jamais perdre » apprend seul à mettre le jeu en pause ; une fourmi virtuelle réinvente la roue au lieu de marcher…

Ces exemples inoffensifs montrent à quel point il est ardu de formuler précisément ce que l’on souhaite. La main de Midas, le balai de l’apprenti sorcier et la lampe magique d’Aladdin ont ceci en commun : ils donnent à leurs propriétaires exactement ce qu’ils ont demandé… et qui s’avère souvent très différent de ce qu’ils voulaient. Si l’on demande à une superintelligence de minimiser les accidents de la route, il faudra aussi préciser que l’on souhaite conserver notre liberté d’aller et venir, éviter de mettre tous les véhicules à la casse, et ne pas transformer chaque portion de route en dos d’âne.

Plus un système d’IA est puissant, plus graves sont les conséquences d’un écart au comportement souhaité. Un exemple d’IA non alignée a été évoqué dans un article précédent : le recours à des algorithmes cherchant à retenir notre attention pour recommander des contenus sur les réseaux sociaux. Les algorithmes de recommandation ayant « appris » que la violence et le mensonge étaient efficaces pour capter l’attention des utilisateurs (et générer des revenus publicitaires), ils se sont mis à recommander massivement ce type de contenus.

Ainsi, selon Amnesty International, Facebook aurait contribué à déclencher le massacre du peuple rohingya au Myanmar en amplifiant la désinformation et les discours de haine à leur encontre. Dans un registre différent, YouTube a directement favorisé Donald Trump dans le duel qui l’opposa à Hilary Clinton lors de l’élection présidentielle américaine de 2016. Plus généralement, il est bien établi que les algorithmes de recommandation tendent à favoriser l’extrême droite et à aggraver la polarisation de l’opinion, alors même qu’ils n’ont jamais été conçus à cette fin.

 

 

Contourner le problème ?

 

L’informaticien Stuart Russell, dans son ouvrage Human Compatible, propose trois principes pour orienter le développement d’IA bénéfiques :

  1. L’unique objectif de la machine doit être la réalisation des préférences humaines ;
  2. La machine ne connaît pas avec certitude ces préférences ;
  3. Les préférences humaines doivent être inférées à partir du comportement humain.
     

Bien que ces principes puissent sembler triviaux, ils impliquent un renversement radical du paradigme dominant en matière de recherche en IA. Dans l’approche qui prévaut traditionnellement, l’apprentissage par renforcement, un système d’IA est conçu pour maximiser une « fonction de récompense » qui représente les objectifs fixés par son créateur : il ajuste ses actions en fonction de cette fonction de récompense prédéfinie.

À l’opposé, Stuart Russell préconise de développer un apprentissage par renforcement inverse, où la machine déduit elle-même la fonction de récompense en observant les comportements de l’expert humain. Autrement dit, au lieu d’apprendre à se comporter à partir des désirs humains, la machine apprend à les comprendre en observant les comportements de ses commanditaires.

Chacune de ces stratégies offre des pistes prometteuses, mais elles ne sont encore qu’à l’état d’esquisse et leur mise en œuvre concrète, dans un contexte de rivalités économiques et géopolitiques et de progrès technologique exponentiel, représente un immense défi. L’enfer est pavé de bonnes inventions.

 

Le scenario typique d'apprentissage par renforcement : un agent effectue une action sur l'environnement, cette action est interprétée en une récompense et une représentation du nouvel état, et cette nouvelle représentation est transmise à l'agent.