Corpus

Constituer un corpus permettant une couverture satisfaisante du français écrit du IXè au XXè s

La constitution d’un corpus adéquat est une condition essentielle à la réalisation du projet. Il s’agit d’utiliser au maximum les ressources dont les équipes partenaires disposent déjà en les complétant et en les enrichissant des annotations linguistiques nécessaires.

Sur le plan chronologique, le corpus couvrira la période des premiers textes français (IXe s.) jusqu’à la fin du XXe s. La partie médiévale (IXe-XVe s.) sera constituée de textes de la Base de Français Médiéval (BFM) et fera aussi appel aux textes du Nouveau Corpus d’Amsterdam (NCA). La période du XVIe s. intégrera la base Epistemon des Bibliothèques Virtuelles Humanistes et sera enrichie par les apports de textes de l’ATILF pour cette période. Pour les tranches temporelles ultérieures, on utilisera les textes de l’équipe de Cologne complétés par les apports d’autres bases : UVIC, ARTFL, la base FRANTEXT de l’ATILF et, le cas échéant, par des ressources textuelles librement accessibles en ligne (CNRTL, Gallica, Wikisource, Gutenberg). Pour ce qui est du nombre de mots, on construira une seule tranche de 500 000 mots pour les textes les plus anciens (IXe – XIIe s.), qui sont limités en nombre. Pour la période XIIIe – XVe s., on pourra disposer de tranches de 500 000 mots par siècle. Pour la période allant du XVIe s. au XXe s., chaque tranche de 50 ans sera représentée par 5 millions de mots environ.

Dans la mesure du possible, le corpus sera équilibré sur le plan des genres discursifs et des types textuels représentés. La typologie précise sera établie au début du projet sur la base des descripteurs textuels adoptés dans la BFM (domaine, genre, forme, etc.). Pour la période médiévale et pour des considérations d’équilibrage de corpus, les textes de taille supérieure à 50 000 mots pourront être échantillonnés. En complément des critères typologiques, les textes seront sélectionnés en fonction de la qualité de leur numérisation. On préfèrera les ressources libres de droits, mais il sera impossible d’exclure complètement les ressources privées (dont une partie importante de textes déjà exploités par les équipes partenaires).

Tous les textes seront balisés d’une façon plus ou moins « profonde » selon les recommanda tions de la TEI et enrichis linguistiquement par des outils de traitement automatique de la langue (TAL) : tokenisation, étiquetage morphosyntaxique et lemmatisation par le TreeTagger. Les textes pré-étiquetés manuellement (près de 30 textes, soit 500 000 mots pour la période médiévale) serviront de « golden corpus » pour l’apprentissage des outils de TAL.

Zusammenstellung eines ausreichenden Korpus für die Gesamtperiode (9. bis 20. Jh.) 

Die Zusammenstellung eines adäquaten Korpus ist eine wesentliche Bedingung für die Durchführung des Vorhabens. Wir werden hierfür in größtmöglichem Umfang auf bereits bei beiden Partnern vorhandene Korpora zurückgreifen, sie noch weiter ausbauen und annotieren.

In chronologischer Hinsicht wird das Gesamtkorpus die Zeit von den ersten französischen Texten (9. Jh.) bis zum Ende des 20. Jhs. abdecken. Der mittelalterliche Teil (9.-15. Jh.) wird aus Texten der Base de Français Médieval (BFM) bestehen, aber auch auf Texte aus dem Nouveau Corpus d’Amsterdam (NCA) zurückgreifen. Die Texte zum 16. Jh. stammen aus der Datenbank Epistemon unseres Projektpartners Bibliothèques Virtuelles Humanistes sowie aus Textbeiträgen des ATILF. Für die folgende Zeit benutzen wir die Kölner Romanistische Datenbank, die durch UVIC, ARTFL, FRANTEXT und gegebenenfalls durch frei zugängliche Online-T extressourcen (CNRTL, Gallica, Wikisource, Gutenberg) ergänzt wird. Was die Anzahl der Wörter anbelangt, werden wir einen einzigen Block mit 500 000 Wörtern für die ältesten Texte (9.–12. Jh.), die ja zahlenmäßig gering sind, zusammenstellen. Für die Zeit vom 13. bis zum 15. Jh. werden wir über Blöcke von 500 000 Wörtern pro Jahrhundert verfügen. Für die Zeit vom 16. bis zum 20. Jh. wird jeder Abschnitt von 50 Jahren durch ungefähr 5 Millionen Wörter vertreten sein.

Wir werden versuchen, im Gesamtkorpus ein Gleichgewicht zwischen verschiedenen Textsorten und Gattungen herzustellen. Die genaue Verteilung wird zu Beginn des Projektes nach den in der Base de Français Médiéval verwendeten Kriterien durchgeführt. Typologische und quantitative Gesichtspunkte können durch Qualitätsmerkmale der Informatisierung und Annotierung ergänzt werden.

Frei zugänglichen Texten geben wir grundsätzlich den Vorzug. Allerdings wird der Zugriff auf private Textressourcen bisweilen unvermeidlich sein. Alle Texte werden entsprechend den Empfehlungen der TEI automatisch verarbeitet und tokenisiert, getaggt sowie mit dem TreeTagger oder TnT lemmatisiert. Die bereits manuell vorgetaggten 30 mittelalterlichen Texte (ca. 500.000 Wörter) dienen als Trainingskorpus im Hinblick auf den Einsatz der informatischen Werkzeuge.