
L’intelligence artificielle, bien qu’elle soit une invention humaine, devient paradoxalement de plus en plus opaque au fur et à mesure de son évolution. Les scientifiques craignent une perte totale de contrôle sur ces systèmes qui se développent à une vitesse vertigineuse et deviennent impossibles à comprendre entièrement.
À mesure que l’IA gagne en efficacité, son fonctionnement interne devient de plus en plus hermétique. Ces systèmes peuvent développer leur propre langage, totalement inintelligible pour leurs créateurs. La compréhension de la manière dont les IA fonctionnent réellement se rétrécit progressivement, posant des défis majeurs aux chercheurs qui tentent d’en maîtriser les mécanismes.
Un risque considérable émane de la capacité des IA à diffuser avec certitude des contenus biaisés, toxiques ou entièrement fictifs. Les utilisateurs acceptent souvent ces résultats sans vérification, ce qui amplifie le problème. Cette situation se complique davantage puisque les IA s’alimentent désormais de données provenant du web, qui sont parfois elles-mêmes générées par d’autres systèmes IA, créant ainsi des cycles de contamination informationnelle.
Pour mieux saisir le fonctionnement interne de ces modèles et prévenir les catastrophes potentielles, les chercheurs de Goodfire.ai ont entrepris une analyse détaillée de la structure interne des grands modèles de langage et visuels. Leur objectif principal était de cartographier précisément ces architectures complexes afin de mieux les contrôler et les rendre plus sûrs.
L’une des questions fondamentales que les chercheurs se posaient était de savoir si les capacités de mémorisation et de raisonnement de l’IA étaient entrelacées ou si elles occupaient des zones distinctes de leur architecture interne. Leurs découvertes révèlent une séparation nette entre ces deux fonctions, ce qui constitue une avancée majeure pour comprendre comment ces systèmes traitent les informations.
Pour identifier les différents composants de traitement, l’équipe a utilisé une technique mathématique appelée K-FAC, permettant de décomposer l’architecture de l’IA. Cette analyse a révélé l’existence de deux types distincts de pathways : les voies à faible courbure, responsables de la mémorisation des données, et les zones à forte courbure, qui gèrent le raisonnement flexible et les capacités de traitement étendues.
Pour confirmer cette séparation, les chercheurs ont désactivé spécifiquement les parties de l’IA liées à la mémorisation. L’IA amnésique conservait surprenamment ses capacités de raisonnement, confirmant que ces deux fonctions occupaient effectivement des zones distinctes du système. Cette expérience a produit des résultats fascinants : le raisonnement logique restait intact et même parfois amélioré sans accès à la mémoire.
Cependant, l’absence de mémoire a gravement endommagé d’autres capacités, notamment les compétences mathématiques et la mémorisation de faits spécifiques. Cette découverte montre que certaines fonctions dépendent beaucoup plus de la mémoire que d’autres, créant des impacts disproportionnés selon le type de tâche exécutée par le système.
Cette connaissance de la différenciation des fonctions ouvre des perspectives prometteuses pour le contrôle des IA. Les défauts et dangers potentiels pourraient être atténués en supprimant précisément certaines connaissances acquises ou schémas de pensée spécialisés, sans compromettre l’intelligence générale du système. Cette capacité à intervenir chirurgicalement sur l’architecture de l’IA représente une avancée majeure en matière de sécurité.
Au-delà des implications sécuritaires, cette découverte offre également des avantages pratiques et économiques. Optimiser les modèles en réduisant l’espace réseau nécessaire pourrait rendre les IA plus efficaces énergétiquement et moins coûteuses à exécuter, tout en maintenant leurs performances globales.



