7. Le calcul des fréquences

Collatinus propose deux outils rudimentaires pour mesurer les fréquences d’un lemme dans un texte ou faire des statistiques sur les schémas métriques des vers. Cet outil est accessible dans le menu Lexiques (Fréquences) ou par le bouton représentant un boulier. Il s’applique lorsque les onglets "Lexiques" ou "Scansion" sont actifs et effectue des opérations différentes détaillées ci-dessous.

7.1. Dans l’onglet "Lexiques"

la fonction "Fréquences" essaie d’estimer le nombre d’occurrences de chaque lemme rencontré dans le texte et établit une liste ordonnée des lemmes (le plus fréquent d’abord). En réalité, on ne sait mesurer que le nombre d’occurrences des formes et certaines formes peuvent venir de plusieurs lemmes différents. On ne peut donc pas espérer avoir un décompte exact sans une étape de désambiguïsation, essentiellement manuelle car c’est souvent le sens qui permet de décider des attributions. Collatinus n'étant pas encore doté d’un outil de désambiguïsation, il applique une méthode simple. Il procède en trois temps. Une première étape, exacte, consiste à relever toutes les formes et à les compter. Puis, il lemmatise les formes et considère les deux cas possibles. Si la forme n’est liée qu'à un seul lemme connu de Collatinus, son nombre d’occurrences sera comptabilisé pour ce lemme dans la catégorie "valeur sûre". Si la forme peut venir de divers lemmes, son nombre d’occurrences sera comptabilisé dans une deuxième catégorie "valeur possible" de tous les lemmes associés. Enfin, suivant le vieil adage, "on ne prête qu’aux riches", Collatinus répartit à nouveau le nombre d’occurrences de chaque forme ambiguë entre chaque lemme possible au prorata de la fréquence de ce lemme. On obtient ainsi une "valeur probable" pour le nombre d’occurrences de chaque lemme.

Comme il ne s’agit que d’estimations, la fonction Fréquences donne plusieurs éléménts qui permettent à l’utilisateur de juger de la pertinence du résultat. Il s’agit de 4 entiers : n (a, b, c)

  • n = a+c
  • a = nombre de formes rattachées seulement à ce lemme
  • b = nombre de formes ambiguës (partagées par plusieurs lemmes)
  • c = nombre probable de formes ambiguës rattachées à ce lemme

a est donc le nombre d’occurrences sûres du lemme, alors que b est le nombre d’occurrences qui pourraient être associées à ce lemme (en excluant évidemment celle comptées dans a). Ces deux nombres sont exacts, dans la limite des connaissances de Collatinus (une forme pouvant venir d’un deuxième lemme que Collatinus ne connaît pas ne sera pas vue comme ambiguë). Le nombre c représente la partie de b qui vient vraisemblablement du lemme (en principe, c ≤ b). Ce dernier nombre n’est qu’une estimation au prorata des fréquences observées dans le texte. Le nombre n = a+c est donc le nombre total d’occurrences que l’on peut associer au lemme.

limites et exemples

Cette méthode ne permettra jamais de départager des homonymes stricts comme les deux populus. Qu’il s’agisse d’un discours politique ou d’un traité de botanique, Collatinus attribuera toujours la moitié des occurrences de populus au peuple et l’autre moitié au peuplier. L’utilisateur ayant accès au sens du texte devra rétablir les attributions.

Si un texte contient la forme "esse" mais aucune autre forme fléchie du verbe "edo" (et, comme c’est vraissemblable, beaucoup de formes de "sum"), le lemme "edo" apparaîtra dans la liste mais avec un nombre d’occurrences probables nul.

7.2. Dans l’onglet Scansion

la fonction Fréquences scande le texte et retient dans chaque ligne le schéma métrique. J’entends par là que Collatinus ne retient que la longueur des syllabes et oublie les mots. Quelle que soit la voyelle, elle sera repérée par u si elle est brève, par - si elle est longue et par -̆ si elle est commune ou ambiguë. Pour laisser une porte ouverte sur l'étude du rythme, on garde, dans un premier temps, une trace de la séparation des mots (avec un espace) et des voyelles élidées (repérées par `). Ce schéma métrique est reporté en dessous de chaque ligne scandée. Ces schémas, nettoyés de leurs espaces et d'éventuels signes ` ( trace des élisions), sont alors comptés et rangés par ordre décroissant de leur fréquence. Les schémas n’apparaissant qu’une fois dans le texte ne sont pas affichés dans la liste, mais figureront quand même sous la ligne correspondante. Si dans le texte un mot n’est pas reconnu, il sera recopié dans le schéma métrique avec un @ (signifiant attention !) devant. De même, si une forme peut être scandée en mots de longueurs différentes (par exemple, uoluit) le signe @ apparaîtra dans le schéma métrique.

Ainsi les 10 premiers schémas métriques pour "Arma virumque cano,…" seront

21 : -uu-------uu-u
18 : ---------uu--
13 : -uu-uu-----uu-u
13 : -uu-------uu--
10 : -uu---uu---uu-u
10 : -uu---uu---uu--
7  : -----uu---uu-u
7  : -------uu-uu-u
6  : -uu-uu-----uu--
6  : ---------uu-u

Cela met bien en évidence la structure des hexamètres avec les dactyles (-uu) et les spondées (--).