L’IA à l’épreuve des examens : du brevet français aux sommets académiques japonais

La saison des examens bat son plein en cette année 2026. D’un côté du globe, les collégiens transpirent sur leurs copies de mathématiques, tentant de valider les acquis de leurs premières années de scolarité. De l’autre, l’intelligence artificielle vient de franchir un cap historique en éclipsant les cerveaux humains les plus brillants lors des redoutables concours universitaires japonais. Une double actualité qui nous pousse à regarder la manière dont la machine et l’humain affrontent aujourd’hui les mêmes obstacles.

Le défi humain : les mathématiques au brevet 2026

Pendant que la technologie fait les gros titres, nos élèves de troisième viennent tout juste de poser les stylos après deux heures de composition. Notre professeur s’est penché sur le sujet de la série générale pour en proposer une correction détaillée. Rien d’insurmontable, mais des bases solides étaient nécessaires.

Le premier exercice s’intéressait à des statistiques de vente de lunettes de soleil. Trouver l’étendue des prix était une simple formalité, fixée à 85 euros après une soustraction basique ($160 – 75$). Du côté du tableur, les candidats devaient maîtriser l’outil informatique en saisissant la formule =SOMME(B2:F2) dans la cellule G2. En additionnant les ventes de l’année 2022, on constatait que 3 575 paires avaient trouvé preneur, générant un chiffre d’affaires total de 364 250 euros. Une rapide division permettait alors de déduire le prix moyen d’une paire vendue, estimé à environ 101,89 euros.

L’exercice 2 prenait quant à lui appui sur la géométrie. La première question exigeait le calcul d’une aire, qui s’établissait à $29,4\text{ cm}^2$ en multipliant simplement la longueur par la largeur ($4,2 \times 7$). La suite imposait l’utilisation du théorème de Pythagore. L’énoncé se basait sur un triangle ABC rectangle en A pour amener la relation $BE^2 = AB^2 + AE^2$. Concrètement, la résolution de l’équation $AE^2 = 7^2 – 4,2^2$ donnait 31,36. En extrayant la racine carrée, on trouvait une longueur AE de 5,6 cm, permettant de calculer une nouvelle aire triangulaire de $11,76\text{ cm}^2$. La dernière question relevait de la démonstration pure. Sachant que les droites (ED) et (AH) sont perpendiculaires à la droite (CF), il suffisait de rappeler la fameuse règle : si deux droites sont perpendiculaires à une même troisième, elles sont alors parallèles entre elles.

L’exploit algorithmique : l’IA surpasse les majors de promotion

Ces calculs, qui demandent méthode et rigueur à nos collégiens, ne sont plus qu’un jeu d’enfant pour les algorithmes. L’entreprise LifePrompt Inc. vient de révéler que le tout dernier modèle d’OpenAI, ChatGPT 5.2 Thinking, a littéralement pulvérisé les examens d’admission de premier cycle pour 2026 de l’Université de Tokyo et de l’Université de Kyoto.

Les chiffres, repris par le Bangkok Post, Kyodo News et The Straits Times, donnent le vertige. À l’Université de Tokyo, l’IA a obtenu 503 points sur 550 à l’examen de sciences naturelles, surpassant le meilleur candidat humain qui plafonnait à 453. Le scénario s’est répété en sciences humaines et sociales avec un score de 452 contre 434 pour le major de promotion. La performance est tout aussi écrasante à Kyoto : la machine a cumulé 771 points pour la faculté de droit (contre 734 pour le premier étudiant admis) et un impressionnant 1 176 pour celle de médecine, écrasant le plafond humain fixé à 1 098.

C’est d’ailleurs sur les disciplines exactes que l’IA brille le plus, décrochant un score parfait en mathématiques et 90 % en anglais.

Les nuances d’une technologie en pleine mutation

Comment un tel niveau de compétence est-il évalué ? Les tests ont été réalisés en numérisant les questionnaires et en les fournissant au modèle sous forme d’images. Cela met en lumière un enjeu technique majeur : l’évaluation d’un modèle linguistique de cette ampleur nécessite un pipeline de conversion irréprochable. La préservation de la mise en page et la précision de la reconnaissance optique de caractères (OCR) influencent directement ce que l’algorithme « comprend ».

Pourtant, le tableau n’est pas sans quelques zones d’ombre. Si ChatGPT 5.2 excelle dans le raisonnement symbolique, ses résultats chutent à 25 % sur les questions d’histoire nécessitant une rédaction longue. Ces essais, évalués rigoureusement par des enseignants de l’école préparatoire Kawai Juku, confirment une tendance connue. Les grands modèles multimodaux peinent encore sur la composition subjective et la structuration des connaissances générales dans des formats ouverts, introduisant d’ailleurs une part de subjectivité humaine dans la notation finale.

Ces scores vertigineux doivent donc être perçus comme le résultat d’un environnement d’évaluation très spécifique plutôt que comme une mesure absolue d’intelligence générale. Satoshi Endo, directeur de LifePrompt, dresse un constat lucide face à ces avancées. Selon lui, les capacités de l’IA sont désormais indéniables, surtout quand on se souvient de l’échec de ChatGPT 4 en 2024, suivi des premiers résultats passables du modèle o1 en 2025. Face à cette évolution fulgurante, le dirigeant prévient que les entreprises vont devoir intégrer ces outils en anticipant sérieusement ce à quoi ressembleront leurs opérations d’ici dix à vingt ans.