
Lorsqu’on ouvre un livre et qu’on se plonge dans sa lecture, une question fascinante surgit : qu’observe réellement notre esprit derrière les caractères typographiques ? Les mots ne sont pas seulement porteurs de sens, mais des vecteurs d’expérience personnelle. Peter Mendelsund, designer et essayiste, a exploré cette énigme en mettant en lumière un paradoxe fondamental : notre souvenir de ce que nous avons lu est en réalité une construction mentale, jamais une simple reproduction.
La compréhension d’un personnage de roman illustre particulièrement ce phénomène. Bien que l’auteur fournisse des indices textuels précis, notre représentation mentale du personnage puise dans nos propres souvenirs et nos expériences visuelles. Auteurs et lecteurs opèrent chacun des réductions du monde réel pour produire du sens et créer une histoire cohérente dans notre imagination.
Contrairement aux humains, les intelligences artificielles fonctionnent selon des principes radicalement différents. Les modèles de langage massifs analysent des textes en unités appelées tokens et calculent les probabilités d’occurrence successive. L’IA n’expérimente pas la lecture, elle traite des données statistiques pour générer des réponses plausibles et cohérentes sans véritablement “comprendre”.
Une limite majeure contraint actuellement ces systèmes : la fenêtre de contexte. Elle détermine la quantité maximale d’informations textuelles qu’un modèle peut traiter simultanément pour produire une réponse, généralement plusieurs dizaines de milliers de mots. Étendre cette capacité en augmentant la puissance de calcul demande des ressources énergétiques considérables et disproportionnées.
Une approche révolutionnaire émerge de cette impasse. L’entreprise Deepseek a démontré que traiter le texte comme une image compressée permet des gains d’efficacité spectaculaires. Cent vision tokens reconstituent environ huit cents mots avec précision quasi intacte, transformant ainsi la mémoire de travail de l’IA en processus visuel plutôt que textuel.
Cette découverte confirme une vérité essentielle : les intelligences artificielles ne lisent jamais au sens humain du terme. Elles manipulent des représentations de données optimisées pour leurs architectures. Ce constat ouvre une perspective nouvelle sur l’évolution technologique future, où l’innovation en informatique fondamentale pourrait s’avérer aussi déterminante que la simple accumulation de ressources computationnelles.



