La dernière version de « YAGO – base de connaissances », la plus grande base de connaissances publique à usage général, est disponible sur YAGO 4.5 et présente une taxonomie beaucoup plus riche.
En s’appuyant entre autres sur Wikidata, YAGO a permis de constituer une base de connaissances utilisée pour alimenter de nombreux outils, notamment dans le domaine de l’intelligence artificielle.  Cette base de connaissance est mise à disposition gratuitement : le code source de la base se trouve sur la plateforme GitHub, sous la licence open source GNU GPL v3 qui garantit à chacun le droit d’utiliser, d’étudier, de modifier et de partager le code programme protégé.

Porté par Fabian Suchanek, le projet « YAGO – base de connaissances » est aujourd’hui une référence du Web sémantique et a reçu le Prix science ouverte des données de la recherche 2022, ministère de l’Enseignement supérieur et de la Recherche.

Les intelligences artificielles apprennent à parler grâce aux « modèles de langage ». Les modèles les plus simples permettent la fonction d’autocomplétion sur le smartphone : ils proposent le mot suivant. Mais les prouesses et les progrès des modèles de langage les plus modernes tels que GPT-3LaMDAPaLM ou ChatGPT sont époustouflants, avec par exemple des programmes informatiques capables d’écrire dans le style d’un poète donné, de simuler des personnes décédées, d’expliquer des blagues, traduire des langues, et même produire et corriger le code informatique – ce qui aurait été impensable il y a quelques mois à peine. 

Fabian Suchanek, Professeur à Télécom Paris, en dit un peu plus sur ces nouveaux modèles sur le média The Conversation.