Outils

Développer des lemmatiseurs du français pour toutes les périodes du corpus
Télécharger des versions de travail Conventions de tokenisation (2014-10-13) Licence Creative Commons BY-NC-SA 4.0 Jeu d'étiquettes (2014-10-13) Licence Creative Commons BY-NC-SA 4.0 Modèle de langage pour TreeTagger (2014-10-31) Licence CeCILL 2

Le projet développe un ou des lemmatiseurs pour le français, nécessaire(s) aux différentes périodes du corpus. Pour cela, il utilisera les technologies de construction de modèles linguistiques par apprentissage sur corpus étiqueté-lemmatisé et lexiques morphosyntaxiques. Ces modèles linguistiques seront diffusés en ligne pour pouvoir être utilisés par d’autres projets de recherche, avec les ressources ayant permis de les construire pour que ces projets puissent également améliorer ou adapter les modèles linguistiques.

La construction du lexique morphologique PRESTO s’appuie notamment sur les règles morphologiques de LGeRM (http://www.atilf.fr/dmf/LGeRM) développé par G. Souvay (UMR ATILF). Cette ressource (Lemmes Graphies et Règles Morphologiques) a été initialement développée pour le moyen français (1330-1500) puis adaptée au français du XVIe et XVIIe.

Pour l’annotation morpho-syntaxique d’un échantillon de son corpus noyau, PRESTO utilise l’outil AnaLog conçu et développé par M.-H. Lay (Université de Poitiers). Cet outil permet d’éditer les corpus annotés (Lay, M.-H. & Pincemin, B. (2010)). Toutes les occurrences d’une erreur détectée sont localisées à l’aide d’un concordancier ; la modification (correction), effectuée sur le résultat de la concordance, porte en un seul temps sur toutes les occurrences similaires.

Bibliographie

Lay, M.-H. & Pincemin, B. (2010). Pour une exploration humaniste des textes. In Statistical Analysis of Textual Data -Proceedings of 10th International Conference JADT 2010. (http://lexicometrica.univ-paris3.fr/jadt/jadt2010/allegati/JADT-2010-1045-1056_106-Lay.pdf)

Souvay, G., Pierrel, J.-M. (2009). LGeRM : lemmatisation de mots en moyen français, Traitement Automatique des Langues, volume 50, numéro 2. http://www.atala.org/LGeRM

Entwicklung von Lemmatisierungsprogrammen für das Französiche für alle Perioden des Korpus

Das Projekt wird je nach den Erfordernissen der verschiedenen Perioden des Korpus ein oder mehrere Lemmatisierungsprogramme für das Französische entwickeln. Dazu wird es Trainingssoftwares zur Erstellung linguistischer Modelle wie TreeTagger (Schmid, 1995) oder TnT (Brants, 2000) verwenden. Diese linguistischen Modelle werden für die Lemmatisierung und Annotation des PRESTO-Korpus optimiert und online veröffentlicht werden, um für andere Forschungsprojekte zur Verfügung zu stehen.

Bibliographie

Brants, Thorsten (2000). TnT – A Statistical Part-Of-Speech Tagger. Proceedings of the Sixth Applied Natural Language Processing Conference ANLP-2000, April 29 – May 3. Seattle, WA.

Helmut Schmid (1995). Improvements in Part-of-Speech Tagging with an Application to German. Proceedings of the ACL SIGDAT-Workshop. Dublin, Ireland.