Outils
Développer des lemmatiseurs du français pour toutes les périodes du corpus
Le projet développe un ou des lemmatiseurs pour le français, nécessaire(s) aux différentes périodes du corpus. Pour cela, il utilisera les technologies de construction de modèles linguistiques par apprentissage sur corpus étiqueté-lemmatisé et lexiques morphosyntaxiques. Ces modèles linguistiques seront diffusés en ligne pour pouvoir être utilisés par d’autres projets de recherche, avec les ressources ayant permis de les construire pour que ces projets puissent également améliorer ou adapter les modèles linguistiques.
La construction du lexique morphologique PRESTO s’appuie notamment sur les règles morphologiques de LGeRM (http://www.atilf.fr/dmf/LGeRM) développé par G. Souvay (UMR ATILF). Cette ressource (Lemmes Graphies et Règles Morphologiques) a été initialement développée pour le moyen français (1330-1500) puis adaptée au français du XVIe et XVIIe.
Pour l’annotation morpho-syntaxique d’un échantillon de son corpus noyau, PRESTO utilise l’outil AnaLog conçu et développé par M.-H. Lay (Université de Poitiers). Cet outil permet d’éditer les corpus annotés (Lay, M.-H. & Pincemin, B. (2010)). Toutes les occurrences d’une erreur détectée sont localisées à l’aide d’un concordancier ; la modification (correction), effectuée sur le résultat de la concordance, porte en un seul temps sur toutes les occurrences similaires.
Bibliographie
Lay, M.-H. & Pincemin, B. (2010). Pour une exploration humaniste des textes. In Statistical Analysis of Textual Data -Proceedings of 10th International Conference JADT 2010. (http://lexicometrica.univ-paris3.fr/jadt/jadt2010/allegati/JADT-2010-1045-1056_106-Lay.pdf)
Souvay, G., Pierrel, J.-M. (2009). LGeRM : lemmatisation de mots en moyen français, Traitement Automatique des Langues, volume 50, numéro 2. http://www.atala.org/LGeRM
Entwicklung von Lemmatisierungsprogrammen für das Französiche für alle Perioden des Korpus
Das Projekt wird je nach den Erfordernissen der verschiedenen Perioden des Korpus ein oder mehrere Lemmatisierungsprogramme für das Französische entwickeln. Dazu wird es Trainingssoftwares zur Erstellung linguistischer Modelle wie TreeTagger (Schmid, 1995) oder TnT (Brants, 2000) verwenden. Diese linguistischen Modelle werden für die Lemmatisierung und Annotation des PRESTO-Korpus optimiert und online veröffentlicht werden, um für andere Forschungsprojekte zur Verfügung zu stehen.
Bibliographie
Brants, Thorsten (2000). TnT – A Statistical Part-Of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, April 29 – May 3. Seattle, WA.
Helmut Schmid (1995). Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.