Bilan – Presto

Bilan

Trois points ont particulièrement contribué à l’originalité du programme PRESTO.

Les analyses qui y ont été conduites se sont appuyées sur des études quantitatives, statistiques et probabilistes des environnements distributionnels des prépositions et des syntagmes pris pour objets d’étude. Le principe sous-jacent à ce type d’approche peut être résumé par cette phrase bien connue de J. Firth (1957 : 11): « you shall know a word by the company it keeps ». Autrement dit, pour nous, l’étude au sein d’un corpus diachronique des cotextes distributionnels des polysèmes grammaticaux que sont les prépositions constitue une voie d’accès à leurs valeurs sémantiques et à leurs évolutions dans le temps. Les méthodes et les outils que nous avons utilisés ont été empruntés pour l’essentiel aux travaux conduits dans le cadre du « contextualisme britannique¹ » et de ses nombreuses ramifications contemporaines d’une part, à ceux de l’école française de lexicométrie, de textométrie et de statistique textuelle² d’autre part. Nos études nous ont permis de développer une méthodologie d’analyse alliant quantitatif et qualitatif. L’objectif poursuivi visait à mettre au jour les variations (suivant des critères de dates, de genres et d’auteurs) du comportement combinatoire des prépositions étudiées et des groupes dont elles constituent la tête. Notre attention s’est aussi portée sur la détection des combinaisons hautement spécifiques dans lesquelles elles entraient.

Conduits dans ce cadre, nos travaux ont permis de « revisiter » voire d’invalider certaines thèses ou hypothèses formulées par des grammairiens ou des linguistes ayant travaillé sur l’évolution des prépositions de manière plus « traditionnelle ». Nous avons aussi pu faire émerger de « nouveaux observables » (F. Rastier, 2011 : 50) en mettant au jour certaines combinaisons hautement significatives dans lesquelles entrent les prépositions examinées et qui avaient échappé jusqu’ici à l’attention des linguistes. Enfin, dans le but de reconstruire, à partir de nos études quantitatives et qualitatives, les processus évolutifs mis en jeu, nous avons plus spécifiquement fait appel à la théorie de la grammaticalisation qui offre un cadre riche et bien balisé pour penser et formuler des schémas possibles d’évolution (voir par ex. les chaînes de grammaticalisation). Nous croyons même être allés un peu plus loin en cherchant à établir un pont entre ce qu’il est convenu d’appeler « histoire interne » et « histoire externe » de la langue ». Tel fut le thème de notre colloque « Changements linguistiques et phénomènes sociétaux » organisé en mars 2016 à l’École Normale Supérieure de Lyon.

Pour ce qui regarde les outils de traitement automatique du langage, l’un des enjeux majeurs de ce projet a consisté à mettre au point des ressources pour l’étiquetage morphosyntaxique et la lemmatisation des textes du français préclassique et classique pour lesquels on ne disposait pas ou peu d’outils performants. Ces ressources ont bénéficié des apports des logiciels LGerM (lemmatisation de la variation graphique des états anciens du français et lexiques morphologiques, G. Souvay http://www.atilf.fr/LGeRM) et Analog (M.-H. Lay) ainsi que du lexique Morphalou (http://www.cnrtl.fr/lexiques/morphalou) et seront mises à la disposition de la communauté des chercheurs sous licence libre courant 2018.

En termes de données textuelles enfin, la réalisation du programme PRESTO a permis d’élaborer un corpus historique du français comportant des données étiquetées et lemmatisées, couvrant la période du XVI^es. au XX^es. (1509-1944) et réunissant différents genres discursifs et types de textes. Ce corpus, mis au point conjointement par les équipes française et allemande, s’est appuyé sur les bases textuelles suivantes : FRANTEXT (http://www.frantext.fr, V. Montémont, G. Souvay), BVH (Bibliothèques Virtuelles Humanistes, http://www.bvh.univ-tours.fr – L. Bertrand, M.-L. Demonet), ARTFL (American and French Research on the Treasury of the French Language, http://artfl-project.uchicago.edu – R. Morrissey, M. Olsen) et CEPM (Corpus électronique de la première modernité, http://www.cpem.paris-sorbonne.fr). L’un des apports majeurs de ce corpus est qu’il constitue une première tentative pour constituer un corpus longitudinal contrôlé³ en diachronie longue entièrement étiqueté et lemmatisé au moyen d’un jeu d’étiquette homogène. Une partie de ce corpus dite « noyau » sera mise à la disposition de la communauté des chercheurs sous licence libre courant 2018.

¹ Pour une présentation générale du contextualisme britannique, voir Firth (1957-1968), Halliday (1961), Léon (2008, 2015), Sinclair (1991), Stubbs (1993).

² Issue des recherches de Guiraud (1954, 1960) et de Muller (1973, 1977, 1992), la statistique textuelle s’est notamment développée dans le cadre des recherches menées au laboratoire « lexicométrie et textes politiques » de l’ENS Fontenay, pour ensuite essaimer en France et à l’étranger grâce notamment aux travaux des héritiers plus ou moins proches ou lointains de M. Tournier : P. Lafon, L. Lebart, B. Pincemin, A. Salem entre autres. Pour un historique partiel de la textométrie/statistique textuelle, voir Léon & Loiseau (2016). Comme ouvrage de référence sur la statistique textuelle, voir Lebart & Salem (1994).

³ Le „contrôle“ a porté sur les paramètres de constitution du corpus suivants: continuité et équilibrage (en taille) des tranches temporelles décennales; variété des auteurs et des champs génériques représentés; équilibrage des champs génériques au sein des discours représentés.