Je me limiterai ici à exposer la façon dont on peut calculer la richesse du vocabulaire utilisé dans les textes analysés. Il s’agit d’une méthode purement statistique, qui ne prête aucune attention au sens des mots ou des phrases et qui est incapable de dire quoi que ce soit sur la maîtrise syntaxique de la personne ayant produit le texte. Dans un cas limite (et absurde), un étranger ne maîtrisant absolument pas le français mais lisant au hasard des mots du dictionnaire pourrait obtenir (et obtiendrait sans aucun doute) un meilleur « score » qu’un français s’exprimant « correctement ». Évidemment, cette limite ne rend pas l’outil inintéressant pour autant.

Principe de base

Ce « score », quel est-il ? Il s’agit simplement d’un quotient, du rapport « nombre total de mots présents » ou occurences / « nombre total de mots différents » ou vocables. On l’écrit donc O/V. Hop, tout de suite un exemple :

Je suis heureux d’écrire un billet sur l’analyse lexicale

Dans la phrase précédente, O=11, V=11, donc 0/V=1.

Examinons maintenant ce vers d’Aragon :

Je tombe, je tombe, je tombe

Ici, O=6, V=2 (car les seuls mots différents sont « je » et « tomber »), donc O/V=3.

Si Aragon avait écrit

Je tombais, je tombe, je tomberai

d’une part, on aurait alors pu croire à du Cabrel, et d’autre part, cela n’aurait rien changé au calcul : ici aussi, O/V=3.

On peut immédiatement formuler plusieurs remarques :

  • déjà, j’ai un vocabulaire plus riche que celui d’Aragon il est absurde d’analyser des textes aussi courts !
  • ensuite, on observe que O/V a pour valeur théorique minimale 1 et pour valeur théorique maximale le nombre total de mots présents dans le texte (évidemment, ces deux cas limites ne se retrouveront jamais dans la réalité)
  • enfin, plus O/V est proche de 1, plus le texte peut être considéré comme riche au niveau du vocabulaire. À l’inverse, plus il s’en éloigne et plus il peut être considéré comme pauvre.

On perçoit donc que l’intéret d’un tel indicateur est surtout de pouvoir comparer des textes entre eux. Dans son ouvrage, Laurence Bardin procède à l’analyse des textes de la rubrique horoscope de 10 numéros de Elle : ils obtiennent un « score » de 13,49. Les discours du Général De Gaule obtiennent 11, et les écrits de François Giroud, 5,82.

Mise en œuvre avec Antconc

Antconc est un logiciel qui a l’obligeance d’être gratuit et la politesse de tourner sous Windows, MacOS X et GNU/Linux ; il est téléchargeable sur le site de son auteur. Les textes à analyser doivent être au format “brut” txt. La procédure pour les traiter est simple :

  1. via le menu File, on choisit Open File(s) ou Open Dir pour, respectivement, importer un ou plusieurs fichiers textes, ou tous les fichiers textes d’un même dossier ;
  2. pour l’analyse qui nous intéresse, on se rend sur l’onglet Word List ;
  3. on prend soin de cocher l’option Treat all data as lowercase afin qu’Antconc ne distingue pas Je de je ;
  4. enfin, on clique sur le bouton Start.

Et le résultat, magique, surprenant, ébouriffant :

Antconc

On peut désormais calculer facilement O/V puisque Antconc affiche le « Total No. of Word Types  » (V) et le « Total No. of Word Tokens » (O).

Un problème… et sa solution

Aragon a eu la bonne idée d’écrire ce vers à sa façon, on non pas à celle de Cabrel. Mais si cela avait été le cas, Antconc nous aurait indiqué un Total No. of Word Types (soit V) de 4 (et non pas 2 comme c’est pourtant le cas), puisqu’il aurait distingué les 3 formes conjuguées du verbe tomber. Ce qui est ici facilement détectable l’est beaucoup moins sur un vrai texte composé de plusieurs milliers voire dizaines de milliers de mots…

La solution consiste à lui adjoindre un dictionnaire de lemmes[1], c’est à dire un fichier qui va attribuer à chaque mot sa forme de « base ». Antconc réclame un dictionnaire qui soit structuré de la sorte :

lemme -> mot_dérivé1, mot_dérivé2, etc.

N’en trouvant pas pour le Français, j’en ai constitué à partir des dictionnaires que l’on trouve sur cette page. 4 fichiers sont dans une archive zip, en annexe de ce billet : les fichiers Alem.txt, Nlem.txt et Vlem.txt qui sont respectivement les dictionnaires de lemmes des adjectifs, noms et verbes, et un fichier nommé Dico_lemmes.txt qui regroupe les 3 premiers. Si vous ne comptez pas « bidouiller », seul ce dernier vous est utile.

Pour l’utiliser, rendez-vous dans le menu Tool Preferences, puis sur la page Word List. Dans le champ Lemma List File, choisissez le fichier voulu (Dico_lemmes.txt, normalement) et cliquez sur Load. L’importation peut prendre un certain temps, c’est normal. N’oubliez pas pour finir de cocher Use lemma list file.

En relançant l’analyse, on obtient alors le résultat attendu :

Antconc avec dico

Attention quand même

Un problème subsiste malgré tout, qu’il me semble impossible de résoudre avec Antconc : celui des homonymes. Reprenons Aragon :

Je tombe, je tombe, je tombe
Avant d’arriver à ma tombe
Je repasse toute ma vie

Ici, Antconc considérera que le nom commun tombe est une forme conjuguée du verbe tomber, ce qui n’est évidemment pas le cas. Le calcul du rapport O/V en sera donc perturbé. La seule possibilité de contournement est la suivante : en fait, il faut savoir qu’Antconc va appliquer la dernière « règle » lue dans le fichier dictonnaire pour l’analyse du texte. Donc, si le dictionnaire est composé de la sorte :

(...)
tombe -> tombe, tombes
(...)
tomber -> tombe, tombes, tomberai, tomberais, tombent, etc.

le mot tombe sera rattaché au verbe tomber. Si, à l’inverse, le dictionnaire est structuré ainsi :

(...)
tomber -> tombe, tombes, tomberai, tomberais, tombent, etc.
(...)
tombe -> tombe, tombes

alors tombe sera rattaché au nom commun tombe. Il suffit donc de modifier le dictionnaire pour placer en fin de fichier les règles les plus fréquentes. Bien entendu, cela ne règle pas entièrement le problème puisque quelque soit la structure du dictionnaire, et dans le cas présent, une des occurences de tombe sera nécessairement mal interprétée. Mais dans de vraies analyses, cette astuce permet tout de même de faciliter grandement l’effort de vigilance.

D’autres analyses possibles

Je cite en vrac d’autres analyses facilitées par l’utilisation de Antconc ; je les tire là encore du bouquin de Laurence Bardin :

  • La présentation exhaustive de tous les mots du texte permet, après les avoir ventilés, d’observer parmi les noms, adjectifs ou verbes, quel est le registre le plus riche. Dans les cas des horoscopes, c’est celui des adjectifs qui présente un rapport O/V le plus faible (6,05) et celui des verbes qui a un rapport le plus important (13,93) (j’exclue volontairement du compte-rendu le registre des « mots outils », tels que « le, la, et, un, une, vous, avec, en, etc. »)
  • On peut assez facilement observer quel est le mode (ou le temps) principal des verbes conjugués. Dans le cas de l’horoscope, alors que l’on pourrait s’attendre à une utilisation massive du futur de l’indicatif (puisque les horoscopes sont censés prévoir l’avenir…), on se rend compte que l’impératif est en fait le mode le plus employé.
  • Antconc affichant la fréquence d’utilisation d’un mot dans le texte, il est aisé de la comparer avec sa fréquence d’emploi dans la langue française. Pour ce faire, je vous conseille de visiter ce site ou encore celui-ci

Et des tas d’autres choses encore :-)

Notes

[1] un lemme est une unité autonome constituante du lexique d’une langue, selon Wikipedia