Qualité du corpus

Ce document est publié librement sur le web à destination de la communauté scientifique dans le cadre de la licence Creative Commons « Paternité-Pas d’Utilisation Commerciale-Partage des Conditions Initiales à l’Identique 2.0 France ». En accord avec cette licence, si vous utilisez ce document dans vos travaux, vous êtes prié de mentionner sa référence (Programme PRESTO, titre, auteur(s), lien URL).

CC-by-nc-sa

Evaluation de la qualité du corpus PRESTO

Pour évaluer la qualité actuelle [version 10_07_2018] du corpus Presto, nous nous cantonnerons ici à son niveau contrôlé et à sa version échantillonnée (voir « Présentation du corpus »).

Nous nous donnons les instruments de mesure suivants :

Mesure de la continuité du corpus

[C1] Continuité « temporelle » 1 : pour chaque décennie, dispose-t-on d’au moins

C1a
1 œuvre dont la date d’édition originale est incluse dans cette décennie ?
C1b
2 œuvres dont (…)?
C1c
3 œuvres dont (…)?
C1d
4 œuvres dont (…)?

[C2] Continuité « générique » : pour chaque décennie, dispose-t-on d’au moins

C2a
1 champ générique commun avec toutes les autres décennies ?
C2b
2 champs génériques communs avec (…)?
C2c
3 champs génériques communs avec (…)?
C2d
4 champs génériques communs avec (…)?

Mesure de la variété du corpus

[C3] Variété des genres discursifs : pour chaque décennie, dispose-t-on d’au moins

C3a
1 champ générique ?
C3b
2 champs génériques ?
C3c
3 champs génériques ?
C3d
4 champs génériques ?

[C4] Variété des auteurs : pour chaque décennie, dispose-t-on d’au moins

C4a
2 auteurs distincts (entre eux) dans la décennie et distincts des auteurs présents dans la décennie précédente ?
C4b
3 auteurs distincts (…)?
C4c
4 auteurs distincts (…)?

Le diagramme suivant synthétise le degré (en %) de réussite2 de chacun de ces critères :

Diagramme 1 Pourcentages de validation des critères C1, C2, C3, C4 dans le corpus Presto

A la lecture de ce diagramme, on peut grosso-modo considérer que Presto réalise de manière satisfaisante (% ≥ 80) le « profil » suivant :

  • Continuité :

    • temporelle : chaque décennie possède (presque toujours) au moins trois textes

    • générique : chaque décennie partage (presque toujours) au moins deux champs génériques avec les autres décennies

  • Variété :

    • des genres : chaque décennie possède (presque toujours) au moins trois champs génériques

    • des auteurs : chaque décennie possède (presque toujours) au moins trois auteurs distincts au sein de la décade et distincts aussi par rapport à la décennie qui précède.

Quelles améliorations à apporter au corpus Presto dans un avenir proche ?

Il est utile, avant toute prescription, de mieux cerner pour chacun des siècles du corpus la « réussite » des critères énoncés grâce aux diagrammes suivants :

XVIe s.

XVIIe s.

XVIIIe s.

XIXe s.

XXe s.

Diagramme 2 à 6 Pourcentages de validation des critères C1, C2, C3, C4 dans le corpus Presto respectivement pour les XVIe s. (diagr. 2), XVIIe s. (diagr. 3), XVIIIe s. (diagr. 4), XIXe s. (diagr. 5), XXe s. (diagr. 6).

Il apparaît nettement (et sans grande surprise) que le sous-corpus du XVIe s. vérifie le moins bien (< 80%) la plupart des critères (1/3 seulement ≥ 80 % ). Plus on s’approche du XXe s. plus les critères sont vérifiés.

Moins attendue peut-être est la mauvaise performance du sous-corpus XVIIe s. pour les critères C1d (quatre œuvres distinctes dans chaque tranche), C2c3 (au moins 3 champs génériques communs avec toutes les autres tranches), C3d (au moins 4 champs génériques distincts) et C4c (4 auteurs distincts à la fois dans la décennie, et distincts des auteurs réunis dans la décennie qui précède).

L’amélioration de la qualité de notre corpus passera par i) la numérisation de nouveaux textes, ii) la collaboration avec nos bases partenaires iii) la recherche de textes dans Wikisource.

1 Ce que nous appelons « continuité temporelle » correspond à ce que A. Condamines, J. Rebeyrolles & A. Soubeille (2004 : 548) nomme « diachronicité » d’un corpus historique : « Les textes qui le [= le corpus] composent devront nécessairement s’échelonner dans le temps afin de rendre possible l’observation de continuités, de ruptures et/ou d’évolutions des connaissances ».

2 Au sens où il a été pleinement / partiellement / pas du tout atteint.

3 Et a fortiori C2d