Cyril Labbé, enseignant-chercheur à l’UJF, a mis au point une méthode pour détecter les fausses études générées informatiquement par l’outil SCIgen.
Il a notamment repéré que deux éditeurs de publications scientifiques, Springer et l’IEEE, avaient publié à leur insu plusieurs dizaines de ces faux papiers. Il nous explique sur quoi portent ses recherches.
Vous êtes spécialiste de la fouille de texte. Qu’est-ce que cela signifie ?
Cyril Labbé : C’est en effet une partie de mon activité. Il s’agit de retrouver des informations dans un ensemble de documents numérisés. Cela peut recouvrir beaucoup de choses, des aspects purement statistiques de comptage de mots ou de cooccurrence de mots aux aspects un peu plus avancés de traitement de la langue : il s’agit d’essayer de reconnaître dans un texte quels sont les adjectifs, les verbes, etc. Face à un ensemble de textes, on essaie de tirer de l’information automatiquement. Je fais aussi des traitements de flux de données.