Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetExists($offset) should either be compatible with ArrayAccess::offsetExists(mixed $offset): bool, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 42

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetGet($offset) should either be compatible with ArrayAccess::offsetGet(mixed $offset): mixed, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 53

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetSet($offset, $value) should either be compatible with ArrayAccess::offsetSet(mixed $offset, mixed $value): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 65

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetUnset($offset) should either be compatible with ArrayAccess::offsetUnset(mixed $offset): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 76

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetExists($offset) should either be compatible with ArrayAccess::offsetExists(mixed $offset): bool, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 42

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetGet($offset) should either be compatible with ArrayAccess::offsetGet(mixed $offset): mixed, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 53

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetSet($offset, $value) should either be compatible with ArrayAccess::offsetSet(mixed $offset, mixed $value): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 65

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetUnset($offset) should either be compatible with ArrayAccess::offsetUnset(mixed $offset): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 76

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetExists($offset) should either be compatible with ArrayAccess::offsetExists(mixed $offset): bool, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 42

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetGet($offset) should either be compatible with ArrayAccess::offsetGet(mixed $offset): mixed, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 53

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetSet($offset, $value) should either be compatible with ArrayAccess::offsetSet(mixed $offset, mixed $value): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 65

Deprecated: Return type of EasingSlider\Foundation\Options\OptionArray::offsetUnset($offset) should either be compatible with ArrayAccess::offsetUnset(mixed $offset): void, or the #[\ReturnTypeWillChange] attribute should be used to temporarily suppress the notice in /var/data/www/presto/wp-content/plugins/easing-slider/src/Foundation/Options/OptionArray.php on line 76

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Deprecated: Method ReflectionParameter::getClass() is deprecated in /var/data/www/presto/wp-content/plugins/easing-slider/vendor/rdlowrey/auryn/lib/CachingReflector.php on line 89

Notice: Function _load_textdomain_just_in_time was called incorrectly. Translation loading for the easingslider domain was triggered too early. This is usually an indicator for some code in the plugin or theme running too early. Translations should be loaded at the init action or later. Please see Debugging in WordPress for more information. (This message was added in version 6.7.0.) in /var/data/www/presto/wp-includes/functions.php on line 6121

Notice: La fonction _load_textdomain_just_in_time a été appelée de façon incorrecte. Le chargement de la traduction pour le domaine responsive a été déclenché trop tôt. Cela indique généralement que du code dans l’extension ou le thème s’exécute trop tôt. Les traductions doivent être chargées au moment de l’action init ou plus tard. Veuillez lire Débogage dans WordPress (en) pour plus d’informations. (Ce message a été ajouté à la version 6.7.0.) in /var/data/www/presto/wp-includes/functions.php on line 6121

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896

Warning: Cannot modify header information - headers already sent by (output started at /var/data/www/presto/wp-content/plugins/easing-slider/src/Plugin/Options/License.php:15) in /var/data/www/presto/wp-includes/rest-api/class-wp-rest-server.php on line 1896
{"id":584,"date":"2018-09-07T17:07:14","date_gmt":"2018-09-07T16:07:14","guid":{"rendered":"http:\/\/presto.ens-lyon.fr\/?page_id=584"},"modified":"2018-09-17T17:45:18","modified_gmt":"2018-09-17T16:45:18","slug":"description-du-corpus","status":"publish","type":"page","link":"http:\/\/presto.ens-lyon.fr\/?page_id=584","title":{"rendered":"Description du corpus"},"content":{"rendered":"
\n

Ce document est publi\u00e9 librement sur le web \u00e0 destination de la communaut\u00e9 scientifique dans le cadre de la licence Creative Commons \u00ab Paternit\u00e9-Pas d’Utilisation Commerciale-Partage des Conditions Initiales \u00e0 l’Identique 2.0 France \u00bb. En accord avec cette licence, si vous utilisez ce document dans vos travaux, vous \u00eates pri\u00e9 de mentionner sa r\u00e9f\u00e9rence (Programme PRESTO, titre, auteur(s), lien URL).<\/p>\n

\t\"CC-by-nc-sa\"<\/a>\n<\/div>\n

\n

\n\t\tR\u00e9daction\u00a0: Denis Vigier
\n\t\t
http:\/\/www.icar.cnrs.fr\/membre\/dvigier<\/a>
\n\t\t
denis.vigier@ens-lyon.fr<\/a>\n\t<\/p>\n<\/div>\n

Description du corpus Presto<\/b><\/p>\n

[Date de r\u00e9daction du document : 10_07_2018]<\/p>\n

\u00ab Niveaux \u00bb et \u00ab Versions \u00bb du corpus Presto<\/h2>\n

Nous avons distingu\u00e9 trois niveaux<\/b> dans le corpus : \u00ab noyau, contr\u00f4l\u00e9, \u00e9tendu \u00bb. Ces trois niveaux sont de taille croissante. Le corpus \u00ab \u00e9tendu \u00bb, dont la taille est la plus grande, contient tous les textes du corpus noyau (taille la plus petite) et du corpus contr\u00f4l\u00e9 (taille interm\u00e9diaire) – ainsi que d\u2019autres textes. Le corpus contr\u00f4l\u00e9 contient une partie du corpus noyau, et d\u2019autres textes.<\/p>\n

La figure suivante repr\u00e9sente ces relations d\u2019inclusion totale ou partielle.<\/p>\n

\n\t
Figure 1<\/b> Rapports d\u2019inclusion (partielle ou totale) entre les trois niveaux du corpus dans Presto<\/figcaption><\/figure>\n

Chaque niveau se pr\u00e9sente en outre sous deux versions<\/b> : l\u2019une regroupe les textes dans leur int\u00e9gralit\u00e9 ; l\u2019autre dans une version \u00e9chantillonn\u00e9e.<\/p>\n

Corpus Noyau<\/b> (= Presto_noyau<\/sup> )<\/p>\n

Le corpus noyau r\u00e9unit l\u2019ensemble des \u0153uvres mises \u00e0 disposition de la communaut\u00e9 des chercheurs, soit 53 textes pour un nombre total de 6.820.161 mots (version int\u00e9grale) \/ 1.924.532 mots (version \u00e9chantillonn\u00e9e). Ces textes, sous licence libre, seront t\u00e9l\u00e9chargeables en version annot\u00e9e ou non.<\/p>\n

Corpus contr\u00f4l\u00e9<\/b> (= Presto_contr\u00f4l\u00e9<\/sup>)<\/p>\n

Le corpus \u00ab contr\u00f4l\u00e9 \u00bb, qui inclut le corpus noyau, est le niveau sur lequel a port\u00e9 l\u2019essentiel de nos efforts en mati\u00e8re de construction \u00ab raisonn\u00e9e \u00bb du corpus (choix de la population cible, mise \u0153uvre du crit\u00e8re de comparabilit\u00e9, \u2026). Il<\/b> r\u00e9unit actuellement 162 textes pour un nombre total de 11.636.573 mots (version int\u00e9grale) \/ 5.358.382 mots (version \u00e9chantillonn\u00e9e). Ces textes se r\u00e9partissent par d\u00e9cennie comme suit :<\/p>\n

\n\t
Diagramme 1<\/b> R\u00e9partition des textes par d\u00e9cennies dans le corpus Presto, niveau contr\u00f4l\u00e9 (Presto_contr\u00f4l\u00e9<\/sup>)<\/figcaption><\/figure>\n

Cette r\u00e9partition est relativement r\u00e9guli\u00e8re ; les irr\u00e9gularit\u00e9s les plus nombreuses figurent – comme on le devine ais\u00e9ment – dans la p\u00e9riode la plus ancienne : 1501-1600.<\/p>\n

Corpus \u00e9tendu<\/b> (= Presto_\u00e9tendu<\/sup> )<\/p>\n

Ce niveau du corpus r\u00e9unit 315 textes pour un nombre total de 28.309.240 mots (version int\u00e9grale) \/ 11.002.199 mots (version \u00e9chantillonn\u00e9e). Y ont \u00e9t\u00e9 agr\u00e9g\u00e9s selon les opportunit\u00e9s i) des textes relevant d\u2019autres genres discursifs ii) des textes dont le statut juridique \u00e9tait ind\u00e9cis, l\u2019ensemble permettant d\u2019\u00e9toffer le corpus pour permettre des \u00e9tudes plus pr\u00e9cises sur certaines occurrences (mots, lemmes\u2026 motifs) dont on peut penser qu\u2019elles sont peu nombreuses.<\/p>\n

Voici la r\u00e9partition des textes qu\u2019on y observe pour la p\u00e9riode 1501-1944 :<\/p>\n

\n\t
Diagramme 2<\/b> R\u00e9partition des textes par d\u00e9cennies dans le corpus Presto, niveau \u00e9tendu (Presto_\u00e9tendu<\/sup>)<\/figcaption><\/figure>\n

Le diagramme suivant permet de comparer la r\u00e9partition des 162 textes de Presto_contr\u00f4l\u00e9<\/sup> et celle des 315 textes de Presto_\u00e9tendu<\/sup>.<\/p>\n

\n\t
Diagramme 3<\/b> R\u00e9partition des textes par d\u00e9cennies dans les niveaux contr\u00f4l\u00e9 (Presto_contr\u00f4l\u00e9<\/sup>) et \u00e9tendu (Presto_\u00e9tendu<\/sup>)<\/figcaption><\/figure>\n

On observe \u00e0 la fois le gain en nombre de textes (et de mots) que procure le niveau \u00e9tendu du corpus, mais en m\u00eame temps la perte en termes de comparabilit\u00e9 entre les tranches d\u00e9cennales notamment en taille de textes (et de mots).<\/p>\n

Le tableau ci-dessous r\u00e9capitule les diff\u00e9rents niveaux et versions du corpus.<\/p>\n

<\/p>\n\n\n\n\n\n<\/colgroup>\n\n\n\n\n
\n

Niveaux<\/span><\/p>\n

Versions<\/span><\/p>\n<\/td>\n

\n

Noyau<\/span><\/p>\n<\/td>\n

\n

Contr\u00f4l\u00e9<\/span> <\/p>\n<\/td>\n

\n

\u00c9tendu<\/span> <\/p>\n<\/td>\n<\/tr>\n

\n

textes \u00e9chantillonn\u00e9s<\/span><\/p>\n<\/td>\n

\n

53 textes | 1.924.532 mots<\/span><\/p>\n<\/td>\n

\n

162 textes | 5.358.382mots<\/span><\/p>\n<\/td>\n

\n

315 textes | 11.002.199 mots<\/span><\/p>\n<\/td>\n<\/tr>\n

\n

textes int\u00e9graux<\/span><\/p>\n<\/td>\n

\n

53 textes | 6.820.161 mots<\/span><\/p>\n<\/td>\n

\n

162 textes | 11.636.573 mots<\/span><\/p>\n<\/td>\n

\n

315 textes | 28.309.240 mots<\/span><\/p>\n<\/td>\n<\/tr>\n<\/tbody>\n<\/table>\n

<\/center><\/p>\n

Tableau 2<\/b><\/p>\n

R\u00e9capitulatif des niveaux et des versions du corpus int\u00e9gral Presto.<\/p>\n

Les \u00ab descripteurs \u00bb dans le corpus Presto<\/b><\/p>\n

Il est imp\u00e9ratif de documenter les corpus. Concernant Presto, voici quelques informations relatives au jeu des m\u00e9tadonn\u00e9es attach\u00e9 aux textes du corpus.<\/p>\n

Ces m\u00e9tadonn\u00e9es sont pour l\u2019instant structur\u00e9es autour de deux grands niveaux hi\u00e9rarchiques : l\u2019\u0153uvre et l\u2019exemplaire. L\u2019exemplaire<\/i> correspond \u00e0 la r\u00e9alisation mat\u00e9rielle d\u2019une \u0153uvre de l\u2019esprit, via<\/i> une \u00e9dition ou un manuscrit, en l\u2019occurrence celle utilis\u00e9e dans le corpus.<\/p>\n

Rel\u00e8vent de l\u2019\u0153uvre<\/i> les informations relatives \u00e0 l\u2019auteur<\/i>, et de l\u2019exemplaire<\/i>, celles relatives \u00e0 l\u2019\u00e9diteur scientifique<\/i>. Ce sch\u00e9ma minimal pourra \u00eatre complexifi\u00e9 par la suite pour permettre la prise en compte du paratexte (pr\u00e9face, postface, etc.).<\/p>\n

A ces quatre entit\u00e9s sont associ\u00e9es un ensemble de m\u00e9tadonn\u00e9es que nous avons s\u00e9par\u00e9es entre m\u00e9tadonn\u00e9es \u00ab minimales \u00bb, qui doivent obligatoirement \u00eatre recherch\u00e9es et v\u00e9rifi\u00e9es pour tous les textes du corpus (et donc renseign\u00e9es lorsqu\u2019elles existent), et les m\u00e9tadonn\u00e9es \u00ab maximales \u00bb, qui ne seront pas obligatoirement renseign\u00e9es et\/ou v\u00e9rifi\u00e9es.<\/p>\n

Population cible, stratification, \u00e9chantillonnages et tailles du corpus<\/b><\/p>\n

Dans cette section, on restreindra le propos au seul corpus<\/b> Presto<\/b>contr\u00f4l\u00e9<\/b><\/sup> version \u00e9chantillonn\u00e9e<\/b>) dans la mesure o\u00f9 c\u2019est sur lui qu\u2019a port\u00e9 l\u2019essentiel de nos efforts en mati\u00e8re de construction du corpus.<\/p>\n

Population<\/b><\/p>\n

Population vis\u00e9e<\/u> :<\/b> nous avons choisi de d\u00e9finir la population du corpus suivant un crit\u00e8re de genres discursifs, plus pr\u00e9cis\u00e9ment de \u00ab champ g\u00e9n\u00e9rique \u00bb. Ainsi avons-nous \u00e9chantillonn\u00e9 pour la p\u00e9riode 1501-1944 :<\/p>\n

trois \u00ab champs g\u00e9n\u00e9riques<\/b> \u00bb (au sens de F. Rastier 2011) relevant du discours litt\u00e9raire<\/i> (ibid.<\/i>), \u00e0 savoir i)<\/i> les genres narratifs<\/i> (romans, nouvelles, contes, \u2026), ii)<\/i> la po\u00e9sie et iii<\/i>) le th\u00e9\u00e2tre.<\/p>\n

un \u00ab champ g\u00e9n\u00e9rique<\/b> \u00bb (\u00e9tiquet\u00e9 comme tel par Frantext mais dont il reste \u00e0 \u00e9prouver le bien-fond\u00e9), celui des \u00ab trait\u00e9s \u00bb, qui s\u2019av\u00e8re \u00ab trans-dicours \u00bb puisqu\u2019il peut s\u2019agir de trait\u00e9s relevant des discours religieux, historiques, philosophiques, \u2026<\/p>\n

Le param\u00e8tre majeur qui a guid\u00e9 le choix d\u2019une telle population a \u00e9t\u00e9 celui de la comparabilit\u00e9 entre tranches temporelles de dix ans, empan temporel que nous nous sommes fix\u00e9s pour la structure temporelle interne de notre corpus.<\/p>\n

D\u00e9finition \u00ab op\u00e9rationnelle \u00bb de la population<\/u> (voir Biber 1993 & supra<\/i>) : le projet soumis \u00e0 l\u2019ANR et la DFG d\u00e9clarait sa volont\u00e9 de coop\u00e9rer avec les bases textuelles existantes que sont Frantext (http:\/\/www.frantext.fr, V. Mont\u00e9mont, G. Souvay), les BVH (Biblioth\u00e8ques Virtuelles Humanistes<\/i>, http:\/\/www.bvh.univ-tours.fr – L. Bertrand, M.-L. Demonet), l\u2019ARTFL (American and French Research on the Treasury of the French Language<\/i>, http:\/\/artfl-project.uchicago.edu \u2013 R. Morrissey, M. Olsen) et plus marginalement le CEPM (Corpus \u00e9lectronique de la premi\u00e8re modernit\u00e9<\/i>, http:\/\/www.cpem.paris-sorbonne.fr). La liste des textes sur laquelle nous avons op\u00e9r\u00e9 nos \u00e9chantillonnages a \u00e9t\u00e9 la liste agr\u00e9g\u00e9e des textes mis \u00e0 disposition par ces diff\u00e9rentes bases.<\/p>\n

Stratification<\/b> <\/p>\n

Nous avons adopt\u00e9 telles quelles les cat\u00e9gories g\u00e9n\u00e9riques qui nous ont \u00e9t\u00e9 communiqu\u00e9es par les bases cit\u00e9es ci-dessus. Autrement dit, aucun travail de d\u00e9finition des (sous-)genres n\u2019a \u00e9t\u00e9 conduit. Un tel travail – de premi\u00e8re importance – demeure donc \u00e0 faire, en b\u00e9n\u00e9ficiant notamment des r\u00e9flexions men\u00e9es par le groupe \u00ab typologie textuelle\u00bb dans le consortium CAHIER (https:\/\/cahier.hypotheses.org\/groupe-typologie-textuelle<\/a>).<\/p>\n

Taille du corpus<\/b><\/p>\n

Le nombre de mots pour chaque texte, le nombre de mots et de textes pour chaque champ g\u00e9n\u00e9rique, le nombre de mots total du corpus ont \u00e9t\u00e9 fix\u00e9s sans que nous ayons les moyens ni le temps de construire des proc\u00e9dures d\u2019optimisation telle que celles con\u00e7ues par exemple par D. Biber.<\/p>\n

Pour nous donner un cap, nous sommes adoss\u00e9s \u00e0 l\u2019objectif de recherche linguistique d\u00e9clar\u00e9 dans Presto, \u00e0 savoir l\u2019\u00e9tude des pr\u00e9positions en diachronie. Il s\u2019agit l\u00e0 d\u2019une des cat\u00e9gories morphosyntaxiques les plus fr\u00e9quentes dans tous les si\u00e8cles de notre corpus (elle figure parmi les common linguistic features<\/i>) et il para\u00eet raisonnable de faire l\u2019hypoth\u00e8se que, comme en anglais contemporain (voir Biber), elles poss\u00e8dent une distribution lin\u00e9aire stable<\/i> dans les textes et que, si leur distribution varie certainement suivant les genres, cette variation est moindre que pour des traits linguistiques rares.<\/p>\n

Pour ce qui concerne les choix de taille en nombre de mots que nous avons faits pour l\u2019\u00e9chantillonnage des textes, les deux diagrammes ci-dessous permettent de visualiser successivement i) le nombre de mots par tranche d\u00e9cennale dans le corpus, ii) le nombre de mots par si\u00e8cles. Rappelons que le diagramme 1 supra<\/i> pr\u00e9sente le nombre de textes par tranche d\u00e9cennale.<\/p>\n

\n\t
Diagramme 4<\/b> Nombre de mots par tranche d\u00e9cennale dans le corpus Prestocontr\u00f4l\u00e9<\/sup> version \u00e9chantillonn\u00e9e (1501-1944)<\/figcaption><\/figure>\n
\n\t
Diagramme 5<\/b> Nombre de mots par si\u00e8cle dans le corpus Prestocontr\u00f4l\u00e9<\/sup> version \u00e9chantillonn\u00e9e<\/figcaption><\/figure>\n

Il est ais\u00e9 d\u2019observer dans le diagramme 4 une faiblesse particuli\u00e8rement sensible du nombre de mots pour les trois premi\u00e8res tranches d\u00e9cennales. Le diagramme 5 met quant \u00e0 lui en lumi\u00e8re une disparit\u00e9 du XVIe<\/sup> et du XXe<\/sup> s. (toujours en termes de taille de mots) vis-\u00e0-vis des trois autres si\u00e8cles. Il y a deux raisons distinctes \u00e0 cette situation.<\/p>\n

La taille du corpus XXe<\/sup> s. est d\u2019environ la moiti\u00e9 de celle du XIXe<\/sup> s. pour une raison simple : il ne r\u00e9unit que cinq d\u00e9cennies. Autrement dit, les principes d\u2019\u00e9chantillonnage ont \u00e9t\u00e9 respect\u00e9s pour ce corpus qui poss\u00e8de la m\u00eame taille que les autres demi-si\u00e8cles (except\u00e9 le XVIe<\/sup> s.).<\/p>\n

Concernant le XVIe<\/sup> s. et notamment les trois premi\u00e8res d\u00e9cennies, le crit\u00e8re de comparabilit\u00e9 et les autres contraintes que nous nous \u00e9tions fix\u00e9es (droits juridiques, qualit\u00e9 philologique des textes) nous ont conduits \u00e0 disposer d\u2019une liste extr\u00eamement r\u00e9duite de textes candidats rendant impossible tout \u00e9chantillonnage. La solution pour am\u00e9liorer cette partie du corpus passera par trois voies qu\u2019il conviendra de conjuguer : i) num\u00e9riser de nouveaux textes, ii) \u00e9claircir avec nos bases partenaires le statut juridique \u00ab flou \u00bb de certains textes dont on peut raisonnablement penser qu\u2019ils ne sont plus sous droits et qu\u2019ils pourraient \u00eatre vers\u00e9s dans notre corpus, iii) rechercher dans Wikisource des textes num\u00e9ris\u00e9s et relus au moins par deux personnes et dont la qualit\u00e9 philologique s\u2019approche au mieux de nos exigences.<\/p>\n","protected":false},"excerpt":{"rendered":"

Ce document est publi\u00e9 librement sur le web \u00e0 destination de la communaut\u00e9 scientifique dans le cadre de la licence Creative Commons \u00ab Paternit\u00e9-Pas d’Utilisation Commerciale-Partage des Conditions Initiales \u00e0 l’Identique 2.0 France \u00bb. En accord avec cette licence, si …<\/p>\n

Description du corpus<\/span> Read More »<\/a><\/p>\n","protected":false},"author":1,"featured_media":0,"parent":581,"menu_order":0,"comment_status":"closed","ping_status":"closed","template":"full-width-page.php","meta":{"footnotes":""},"class_list":["post-584","page","type-page","status-publish","hentry"],"_links":{"self":[{"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/pages\/584","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/pages"}],"about":[{"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/types\/page"}],"author":[{"embeddable":true,"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=584"}],"version-history":[{"count":6,"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/pages\/584\/revisions"}],"predecessor-version":[{"id":607,"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/pages\/584\/revisions\/607"}],"up":[{"embeddable":true,"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=\/wp\/v2\/pages\/581"}],"wp:attachment":[{"href":"http:\/\/presto.ens-lyon.fr\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=584"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}