Au cours de la dernière décennie, l’extraction d’informations a fait d’énormes progrès. Nous pouvons désormais extraire des faits de documents Web à grande échelle et des bases de connaissances (BdC) telles que KnowItAll, DBpedia, NELL, BabelNet, WikiData et notre propre YAGO contiennent plusieurs millions d’entités et des centaines de millions de faits.

Et pourtant, toutes ces bases de connaissances se concentrent sur une fraction extrêmement réduite de connaissances: elles visent essentiellement les relations binaires entre un sujet et un objet. Par exemple, un KB peut connaître que <autisme, est un, trouble du développement> ou que <Mmr, est un vaccin contre, la rougeole>. Ce modèle de représentation des connaissances est appelé RDF. Le problème est que RDF ne peut capturer presque rien de l’article de Wikipedia sur les vaccins. Prenons par exemple ce texte sur le lien supposé entre les vaccins et l’autisme:

En février 1998, Andrew Wakefield a publié un article dans la revue médicale The Lancet, qui faisait état de douze enfants souffrant de troubles du développement. Les parents auraient lié le début des symptômes comportementaux à la vaccination. La controverse qui en a résulté est devenue la plus grande histoire scientifique de 2002. En conséquence, les taux de vaccination ont fortement chuté. En 2011, le BMJ a détaillé comment Wakefield avait truqué les données derrière l’article du Lancet de 1998.

De ce texte, les méthodes actuelles extrairaient simplement «Andrew Wakefield a publié un article» — et presque rien d’autre. Bien sûr, nous pourrions utiliser des méthodes non-symboliques (telles que des méthodes de distribution ou des approches d’apprentissage en profondeur) pour décider si l’article d’Andrew Wakefield est digne de confiance ou non. Mais supposons que nous voulions décider s’il existe un lien de causalité entre l’autisme et la vaccination; pourquoi nous constatons un taux de vaccination plus faible; ou avec quels arguments un autre article de blog soutient le mouvement anti-vaccin. Pour cela, nous avons besoin d’une compréhension plus détaillée du texte. La machine devrait comprendre:

  • Le fait que quelque chose ait été affirmée (ce qui ne la rend pas vraie)
  • Le fait que quelque chose n’est pas vraie
  • Le fait que quelque chose s’est passée avant autre chose
  • Le fait qu’un groupe de faits forme un événement
  • Le fait qu’un événement est la raison d’un autre événement

Les méthodes actuelles ne peuvent pas modéliser, extraire, et encore moins raisonner sur ce type d’information (c’est-à-dire appliquer des arguments logiques). L’objectif du projet NoRDF est d’aller au-delà des relations binaires entre entités et d’enrichir les KB avec des événements, des causes, des préséances, des histoires, des négations et des croyances. Nous voulons extraire ce type d’informations à grande échelle à partir de sources structurées et non structurées, et nous voulons permettre à la machine de raisonner dessus, c’est-à-dire d’appliquer des arguments logiques pour parvenir à une conclusion argumentée. Pour cela, nous souhaitons rassembler des recherches sur la représentation des connaissances, sur le raisonnement et sur l’extraction d’informations.

Découvrir le livre blanc