L’Université d’État de New York à Buffalo a présenté un nouvel outil que les chercheurs et historiens pourraient bien s’arracher, un algorithme capable de « lire » la presse ancienne. Il serait en mesure d’extraire les noms de personnalités notables, et ainsi faciliter le traitement de milliers de pages…
Précédé par la promesse de révolutionner la recherche au sein d’un corpus de journaux anciens, l’algorithme développé par l’université de Buffalo relèverait et classerait les noms propres, par ordre d’importance et de fréquence d’apparition.
L’algorithme serait particulièrement efficace au sein de textes numérisés à l’aide d’une technologie de reconnaissance des caractères OCR. « C’est un fait connu : quand un logiciel OCR est utilisé, le texte est souvent malmené », souligne Haimonti Dutta, professeure adjointe au Département des Sciences et Systèmes de Gestion de l’université.
Or, l’outil proposé serait en mesure de reconnaitre les noms propres d’une manière efficace, même dans le cadre d’un texte numérisé et converti avec un outil OCR, selon l’expérience menée par l’université. Avec un texte « nettoyé » manuellement et un autre simplement converti de manière informatique, les résultats seraient sensiblement les mêmes…