Pr. Clément Hongler (EPFL)
Flèches du temps et grands modèles de langage
Les grands modèles de langage comme GPT sont entraînés à prédire le prochain mot dans une phrase. Dans la continuité d'une question posée par Claude Shannon dans les années 50, nous comparons la capacité de ces modèles à générer le langage à l'endroit et à l'envers. Nous trouvons une asymétrie surprenante qui émerge dès que les modèles sont suffisamment grands et proposons une explication théorique, qui ouvre de nouvelles perspectives.