Principes de constitution

Ce document est publié librement sur le web à destination de la communauté scientifique dans le cadre de la licence Creative Commons « Paternité-Pas d’Utilisation Commerciale-Partage des Conditions Initiales à l’Identique 2.0 France ». En accord avec cette licence, si vous utilisez ce document dans vos travaux, vous êtes prié de mentionner sa référence (Programme PRESTO, titre, auteur(s), lien URL).

Rédaction : Denis Vigier
http://www.icar.cnrs.fr/membre/dvigier
denis.vigier@ens-lyon.fr

Principes de constitution d’un corpus historique appliqués à PRESTO

1. Définir la population cible

Définir explicitement la population cible constitue la première étape de toute constitution de corpus.

Les frontières temporelles pour commencer : pour ce qui concerne Presto, la borne temporelle initiale définie est 1500 (borne « arithmétique » du début du XVI^e s.), la borne finale 1944 – celle-ci ayant été définie en fonction de la période de soixante-dix ans pendant laquelle courent les droits d’auteurs avant que l’œuvre ne monte dans le domaine public¹.

Quelle population cible un corpus historique vise-t-il ? L’idée de représenter la langue prise dans sa globalité serait une douce et folle utopie… Elle se heurte de plein fouet à une difficulté considérable que tous les diachroniciens² connaissent bien : plus on s’éloigne de la période contemporaine, plus les données (ou les traces) linguistiques accessibles se font rares. L’oral n’a laissé quasiment aucune trace (sinon par sa « représentation » dans les écrits, essentiellement littéraires), les productions langagières des locuteurs analphabètes ou peu lettrés nous sont parfaitement inconnues, la variété des genres accessibles décroît (et l’on sait que, pour les périodes les plus reculées, tous ne nous ont pas été transmis), etc. Comme l’écrit R.-A. Lodge, « les données linguistiques parvenues jusqu’à nous des époques révolues sont rarement celles que le linguiste aurait choisies, laissé à lui-même : elles survivent de manière fortuite, elles sont fragmentaires et loin d’être représentatives de tous les registres de la langue, et, surtout, elles sont écrites et non orales » (2009 : 211). C. Claridge (2008 : 247) fait le même constat: « the texts transmitted to the present represent a random subsample of the whole population, due to largely extra-linguistic accidents. Thus, historical corpora can never even remotely capture the full variety of language ». Autrement dit, il apparaît exclu que les concepteurs d’un corpus historique décidés à échantillonner des textes relevant d’un état de langue ancien puissent se fixer comme population cible la langue telle qu’elle était pratiquée par les locuteurs du temps. La population des événements langagiers visés par un corpus historique se réduit nécessairement (et « asymptotiquement » pourrait-on dire) à la somme des « traces » linguistiques qui nous en ont été transmises. Etudier par ex. le genre de la conversation en français préclassique équivaudrait, en terme de population, à cibler l’ensemble des textes qui nous disent aujourd’hui quelque chose des conversations de cette époque. Cette limite formulée, la question de la représentativité se pose sous un jour différent que précédemment nous semble-t-il. Ce que l’on cherche à représenter en linguistique historique, ce n’est pas une population d’événements langagiers par essence infinie comme c’est le cas pour une langue contemporaine³ mais seulement les traces (en nombre nécessairement fini) d’une population d’événements langagiers donnés. Bref, s’il y a représentativité, ce ne peut être que des traces… Nous sommes donc réservé vis-à-vis des propos de S. Prévost (2015) pour qui représenter de la manière aussi proche que possible « des états de langue successifs que nous savons avoir existé » demeure en linguistique historique « un idéal vers lequel il faut tendre » (§ 29). Cet idéal nous semble plutôt devoir être de représenter le plus fidèlement les traces que nous avons conservées de ces états de langue.

La définition opérationnelle de la population cible, quant à elle, met en jeu pour chaque strate identifiée une liste des textes candidats à figurer dans l’échantillon, liste que l’on soumet à un tirage aléatoire – du moins lorsque le nombre de textes disponibles le permet… La confection d’une telle liste engage, dans le cas des corpus historiques, la question de la datation du texte. « The date of the sampled text is of great importance with regard to the time frame and the internal sub-periods. » (C. Claridge, op. cit. : 244). Choisit-on la date de la première édition ou bien la date (approximative souvent, et sous réserve qu’elle soit connue) du manuscrit ? Les pratiques des bases textuelles diffèrent à cet égard. La BFM (http://bfm.ens-lyon.fr) par exemple a choisi d’affecter aux œuvres qu’elle met en ligne la date de composition du manuscrit (connue ou estimée)⁴. Les bibliothèques virtuelles humanistes (BVH http://www.bvh.univ-tours.fr) ainsi que Frantext (http://www.frantext.fr) – bases avec lesquelles nous avons le plus souvent travaillé pour Presto – utilisent le plus souvent la date d’édition originale de l’œuvre. Dans le corpus Presto, c’est ce principe que nous avons choisi⁵. Il demeure cependant que faute de temps, nous avons repris sans systématiquement les vérifier les dates d’édition originales fournies par ces bases pour les textes qu’ils nous ont communiqués. Ce travail reste donc à accomplir.

Un dernier point, qui touche à la qualité philologique des textes doit être ici évoqué. Dans Presto – comme dans toute entreprise de constitution d’un corpus historique – la qualité des éditions utilisées est primordiale. En particulier, lorsque nous ne disposions pas de l’édition originale pour une œuvre donnée, nous avons cherché à sélectionner un exemplaire dont l’édition s’approchait le plus de cette dernière, notamment pour ce qui regardait la ponctuation, l’orthographe et la graphie. Comme l’écrivent C. Guillot, S. Heiden, A. Lavrentiev & C. Marchello-Nizia (op. cit.) à propos des textes médiévaux :

« il existe (…) des critères qui président à une sélection raisonnée des textes à numériser pour les inclure dans un corpus. L’un des critères pris en compte presque systématiquement est la « qualité philologique » des textes « papier » : qualité des éditions choisies (fondées sur un manuscrit lui-même bien choisi, que l’éditeur suit le plus fidèlement possible sans trop le « corriger » ou l’ « amender »), mais aussi finesse de leur description (…) »

2. Rareté et caractère parcellaire des « traces » linguistiques transmises jusqu’à nous pour les états les plus anciens de la langue

Nous avons pointé supra le caractère parcellaire des données linguistiques accessibles pour des états anciens de la langue, qui interdit toute ambition de représentativité de la langue telle qu’elle était pratiquée. Précisons notre propos. D’abord, ces données sont écrites (lorsqu’on travaille sur des états de la langue antérieurs aux procédés techniques d’enregistrement sonore), les traces sonores ne pouvant pas être fixées sur un support (sinon cas de transcription). D’où toute une cascade de biais⁶, puisque cette absence d’oral oblitère non seulement l’accès aux variétés populaires mais aussi à des couches de la société marginalisées pour des raisons de genre sexué (les femmes), d’âge (les enfants) etc. De surcroît, plus on s’éloigne dans le passé, plus la conservation de ces traces écrites a été soumise au hasard. Et même si, au cours du temps se sont maintenus quelques processus de conservation intentionnels (archivage institutionnel, conservation de documents dans le cadre familial, …), ce qui a été conservé n’a souvent rien à voir avec les objectifs qui animent le chercheur. En d’autres termes, comme le dit non sans humour W. Labov (1994 :11) : « Historical linguistics can then be thought of as the art of making the best use of bad data ».

3. Question des genres discursifs

La question des genres discursifs est primordiale. Elle se formule à de nombreux égards suivant les mêmes catégories que celles auxquelles nous avons recouru supra (recours à paramètres non-linguistiques situationnels pour les modéliser ; problème de leur formulation, de leur inventaire et de leur combinaison, mise au point d’une typologie, …). En outre se posent des difficultés propres à la diachronie. Elles sont essentiellement au nombre de trois.

La première, nous l’avons déjà mentionné, est liée au fait que bien des genres qui informaient les pratiques discursives – en particulier à l’oral – dans des états anciens de la langue ne nous ont pas été transmis. « Peut-être même ignorons-nous l’existence de certains genres, disparus sans avoir laissé de textes témoins » (S. Prévost, 2008 : § 9)

La deuxième difficulté à trait au fait qu’en cinq siècles (dans le cas de Presto), ces genres se sont profondément modifiés. La Princesse de Clèves publié comme roman n’a guère à voir – sur le plan linguistique, notamment – avec Femmes de Philippe Sollers ou un roman de Céline. Comme l’écrit C. Claridge (op. cit. : 248) : « Some registers or genres are present throughout history, but with different functions and thus with partly different linguistic realisations (e.g. history writing) – in other words, while the genre remains constant, the linguistics text type undergoes change. » Un tel changement peut aussi se faire sentir plus particulièrement quant au topic / thème d’un (sous-)genre donné⁷. On observe ainsi que dans le genre des « traités » (qu’il conviendrait certainement de raffiner) proposé par Frantext, la thématique religieuse est massivement représentée au XVI^e s. alors qu’elle est réduite à la portion congrue au XX^e s. Et que dire de l’astrologie ou de l’agriculture⁸ ?

La troisième difficulté est relative à la disparition ou à l’apparition de genres ou de sous-genres sur la longue durée. Par exemple, les Mystères religieux de la première moitié du XVI^e s. ont disparu du paysage du théâtre dès le XVII^e s. si l’on en croit C. Mazouer (2010). Inversement, on ne sait presque rien du genre de la « conversation » avant les méthodes modernes de recueil des données orales. Quant aux tweets et autres tchats⁹…

Ces deux dernières difficultés ont une incidence évidente sur la comparabilité entre les tranches temporelles ménagées à l’intérieur du corpus historique long (voir supra). Disposer de tranches synchroniques comparables implique une similitude de (sous-)genres qui y sont représentés. Privilégier la comparabilité conduit ainsi le concepteur du corpus à se centrer sur quelques (sous-)genres pour lesquels on trouve des textes tout au long de la période temporelle à couvrir, nonobstant le problème pointé supra (et non résolu) que représente leur évolution parfois très significative dans le temps (en termes de traits linguistiques ou non linguistiques). C’est le choix qui a été fait par le CNNE¹⁰ (voir C. Claridge, op. cit. : 243) et que nous avons retenu pour Presto.

Une autre option pourrait consister à choisir pour chaque tranche la totalité (idéalement) des (sous-) genres accessibles. Le corpus serait alors apte à refléter l’apparition et/ou la disparition de tel(s) ou tel(s) d’entre eux, la mise à disposition de métadonnées relatives à ces (sous-) genres permettant à l’utilisateur de sélectionner ceux qu’il souhaite étudier, qu’ils soient « continus¹¹ » ou non. Un autre avantage de cette seconde option est qu’elle permettrait de conduire des observations dans les différents genres/registres disponibles. Or, qui s’intéresse au changement linguistique sait que tel ou tel phénomène apparaît d’abord le plus souvent dans un (sous-)genre donné puis gagne ensuite d’autres pratiques discursives. Par ex., comme l’écrit M. Rissanen (op. cit. : 57): « it is easy to see that such connectives as except, provided (that), and notwithstanding were in common use in legal and documentary texts as early as the fifteenth century, and that this use in prestigious genres may have contribute to their establishment in the emerging standard ». S. Prévost (2015: 26) fait des observations similaires. L’inconvénient néanmoins d’une telle politique est qu’elle met en péril la comparabilité entre un certain nombre des tranches du corpus.

Probablement la solution est-elle dans l’usage que fait l’utilisateur des métadonnées qu’il a à disposition lors de ses requêtes. Grâce à elles, il doit pouvoir naviguer entre des recherches portant sur tels ou tels (sous-)genres à l’intérieur desquels il veut traquer un phénomène linguistique émergent, et des recherches portant sur d’autres (sous-)genres présents continûment dans la période temporelle couverte par le corpus.

4. « Internal temporal structure » des corpus diachroniques longs

Nous reprenons ici les termes de C. Claridge (op. cit. : 243) cités plus haut. Deux questions se posent pour la définition de cette structure temporelle interne. D’abord, celle de l’empan temporel de chaque tranche synchronique. Ensuite, leur taille (nombre de mots et textes dans chaque strate et dans la tranche totale).

Sans prétendre à l’exhaustivité, la définition de l’empan temporel des tranches nous semble pour partie liée à une question d’ordre pratique (de plus en plus aiguë au fur et à mesure qu’on s’éloigne de la période contemporaine) : combien de textes numérisés, relevant de (sous-)genres différents, sont-ils raisonnablement accessibles (étant connues les contraintes de temps et d’argent) pour les tranches de 10/20/30… ans les plus anciennes du corpus à construire ? Dans Presto nous avons fait le choix de tranches temporelles de dix ans. Ce choix n’a pas été complètement arbitraire car nous souhaitions une granularité fine – plus fine que celle d’ARCHER¹² par ex. qui a fait le choix de tranches de 50 ans, ou de 20-30 ans dans le CNNE¹³ – et nous considérions que le fait de ne pas remonter au-delà de 1500 nous permettait de rester confiants quant aux ressources de textes disponibles via les BVH et Frantext.

Le calibrage de la taille (nombre de textes et de mots) de chaque tranche temporelle et du corpus total est aussi une affaire délicate. Il existe par ailleurs une relation étroite entre l’amplitude de la période temporelle qu’un corpus veut couvrir et sa taille, l’accroissement de l’une allant de pair avec celle de l’autre. Selon nous, cette question de la taille devrait pouvoir recevoir une réponse étayée, en s’appuyant par ex. sur les préconisation de D. Biber quant à l’étude de la distribution de traits linguistiques sélectionnés en fonction de leur plus ou moins grande rareté/banalité dans les textes. C. Claridge (op. cit.) propose quant à elle de tester certains acquis concernant le changement linguistique sur des corpus de plus ou moins grande taille pour déterminer à partir de laquelle on retrouve toutes les étapes du changement recherché. Pour ce qui concerne Presto, nous avons fait les choix suivants : chaque texte dont la longueur est supérieure à 5000 mots a été échantillonné pour ne pas excéder cette taille. Cet échantillonnage a obéi à un algorithme qu’on peut décrire grosso-modo comme suit : cinq extraits de 1000 mots contigus sont choisis aléatoirement dans 5 parties du texte réparties entre le début et la fin de ce dernier. Pour ce qui concerne le nombre de textes échantillonnés dans chaque genre et dans chaque tranche temporelle ainsi que le nombre de mots et de textes dans le corpus total, nous renvoyons au § 1.4 de cette partie.

5. Tranches temporelles et périodisation de la langue

Le français ne peut évidemment pas être considéré, sur le plan linguistique, comme homogène et identique à soi entre le IX^e s. et le XXI^e s. Vouloir le « représenter » dans un corpus nécessite donc qu’on se donne des périodes au sein desquelles on peut le considérer comme (relativement) stable, chacune de ces périodes constituant une strate qui structure la variation (diachronique) de la population langagière visée au même titre que les (sous-)genres. Malheureusement, on ne dispose pas actuellement d’une périodisation consensuelle des changements linguistiques du français, et la question de sa possibilité voire de sa pertinence reste ouverte (voir par ex. B. Combettes & C. Marchello Nizia 2010, B. Combettes 2012 ; R. de Dardel, M. Banniard & B. Combettes (éds.) (2011)). Il est intéressant d’observer à cet égard que, pour ce qui regarde le projet de la Grande Grammaire Historique du Français, une périodisation possible de la langue est envisagée par C. Marchello-Nizia (2011 : § 4.2.) non comme un point de départ mais comme un (plus ou moins hypothétique) point d’arrivée : « La partie conclusive, celle qui en fait motive chacun des participants à cette entreprise, aura pour fin de présenter une vue d’ensemble des changements qu’a connus le français en douze siècles, avec la tentative d’une nouvelle périodisation sur critères linguistiques¹⁴ ».

D’où cette question : quelle relation possible entre l’empan des tranches temporelles sélectionnées dans le corpus historique à couverture longue et la périodisation des phénomènes langagiers visés? Selon nous, il n’y en a aucune et les deux notions sont à découpler. En effet, le découpage en tranche chronologiques successives – qui sont autant de micro-tranches synchroniques – ne constitue finalement qu’une sorte de « quadrillage » à priori de la trame du temps (comme on quadrille une feuille) destiné à faire apparaître, sur ce fond réglé, des variations quantitatives relatives à tel ou tel phénomène linguistique. Ce sont ces variations qui pourront ensuite ouvrir à la question d’éventuelles périodes discernables au sein du français, et à cet égard, ce serait un acquis considérable si Presto concourait à l’identification d’une périodisation possible dans l’évolution du système des prépositions entre 1500 et 1944.

6. La question des droits

Les droits d’auteur (pour les textes postérieurs à 1944) et les droits d’édition susceptibles de peser sur les œuvres du passé constituent souvent une contrainte significative qui réduit l’accès aux œuvres (déjà numérisées ou pouvant être numérisées) lorsqu’on cherche à construire un corpus historique du français. On rappellera pour mémoire que la BFM, par ex. a dû retirer de son site en 2014 plusieurs textes à la demande des éditeurs concernés. Depuis 2013 (date de mise en route de Presto), les consortiums CAHIER (http://cahier.hypotheses.org) et CORLI (https://corli.huma-num.fr) ont travaillé cette question en vue d’informer au mieux la communauté des chercheurs, par le biais notamment de guides juridiques (http://cahier.hypotheses.org/guides-juridiques). En ce qui concerne le corpus Presto, nous n’avons sollicité (d’un commun accord) Frantext que pour le prêt de textes relevant du domaine public, ou dont l’éditeur avait probablement fait faillite ou avait cessé ses activités. Ce choix a considérablement réduit le potentiel de nos ressources, sans cependant l’assécher. Pour ce qui regarde la mise à disposition d’une partie du corpus sous licence libre, la solution adoptée (comme souvent dans ce type de recherche : voir C. Claridge, op. cit. : 245-246, « copyright ») consistera à ne proposer au téléchargement et à la consultation en ligne que la partie « domaine public » du corpus.

7. Echantillons ou textes intégraux ?

Sur ce plan, les corpus historiques se trouvent quasiment sur le même pied que les corpus contemporains, à ceci près que pour les périodes les plus reculées, nous ne disposons parfois que de fragments de textes. Le cas de Tristan évoqué supra en est un bon exemple. Dans Presto, nous avons choisi de « doubler » le corpus échantillonné par un corpus de textes intégraux qui permet à l’utilisateur de naviguer comme il le souhaite entre les deux versions.

¹ voir par ex. http://cahier.hypotheses.org/notions-juridiques#droit_d_auteur

² Et la sociolinguistique historique : voir P. Blumenthal & D. Vigier, 2018.

³ Le linguiste intéressé par le genre de la conversation aujourd’hui peut toujours, comme l’ont fait D. Biber, S. Joahnsson, G. Leech, S. Conrad & E. Finegan (op. cit.) par ex., demander à des locuteurs d’enregistrer un nombre d’heures donné de conversations dans lesquelles ils sont impliqués.

⁴ La procédure suivie est détaillée dans http://ccfm.ens-lyon.fr/IMG/pdf/Manuel_Descripteurs_BFM.pdf

⁵ C’est aussi le choix qui a été fait pour le COPC (The Century of Prose Corpus) par ex., si l’on en croit C. Claridge (op. cit. : 243).

⁶ Pour une revue de ces biais, voir Auer A., Peersman C., Pickl S., Rutten G. & Vosters R. (2015 : 6-7)

⁷ Rappelons que D. Biber (1993a : 245) intègre le topic dans sa table des paramètres situationnels constitutifs des registres/genres.

⁸ On rejoint là la question des langues / domaines de spécialité.

⁹ De même, Claridge (247) : « Press and natural science writing (in the modern sense) are two examples of late emerging registers, which are simply not present before the late 17th century or even later. »

¹⁰ Corpus of Nineteenth-century Newspaper English, http://www.helsinki.fi/varieng/CoRD/corpora/CNNE

¹¹ Par continuité, nous entendons que tel ou tel genre/registre est présent dans toutes les tranches temporelles présentes dans le corpus global.

¹² A Representative Corpus of Historical English Registers, http://www.manchester.ac.uk/archer

¹³ Corpus of Nineteenth-century Newspaper English, http://www.helsinki.fi/varieng/CoRD/corpora/CNNE

¹⁴ C’est nous qui soulignons.