INSTRUMENT DE TRAITEMENT AUTOMATIQUE DU CORPUS POUR L’ANALYSE DU DISCOURS PATRONAL

Mitrache Viviana, Univ. Babes-Bolyai, Fac. de Litere, FR/EN, an 4

e-mail : vivianamitrache@artelecom.net

1. INTRODUCTION

Par instruments servant à l’analyse du discours patronal nous entendons le modèle théorique, à savoir le modèle Charaudeau, que nous appliquons lors de notre analyse, de même que le logiciel de traitement automatique du corpus, notamment le logiciel Lexico 3, qui nous fournit l’analyse quantitative.

Ce travail est un extrait du mémoire de maîtrise : Daniel Bernard versus Jean-Marie Messier : une analyse du discours patronal (dir. Nathalie Garric, maître de conférence, docteur en Analyse du discours, l’Univ. de Tours, France et Ligia-Stela Florea, professeur et docteur en Linguistique française, l’Univ. Babes-Bolyai de Cluj-Napoca, Roumanie). L’objectif du mémoire n’est pas de définir le genre patronal en saisissant ses caractéristiques en fonction d’une analyse des productions langagières de chaque dirigeant, mais de décrire au regard des contraintes imposées par ce genre discursif potentiel et de présenter les choix stratégiques adoptés par les deux dirigeants de deux grandes entreprises du CAC40, auxquels nous nous intéressons. Nous nous sommes concentrés donc sur le comportement énonciatif de Daniel Bernard (PDG Carrefour) et de Jean-Marie Messier (ex PDG Vivendi Universal), en faisant des comparaisons avec l’ensemble du corpus. Notre analyse repose sur une étude réalisée sur un corpus contenant des discours annuels, des interviews radiophoniques, télévisées ou parues dans la presse écrite, des messages présidentiels dans les rapports annuels, des lettres aux actionnaires, et ce, durant les années 2000-2001, de quinze dirigeants de grandes sociétés françaises, choisis en fonction du statut de leur entreprise dans l’économie française.

Toutefois rappelons que dans le sens où nous developpons une étude de corpus, notre traitement ne peut pas s’abstraire de la totalité des textes constitutifs.

Lors de ce travail nous n’allons donc faire qu’une présentation du logiciel de traitement automatique du texte (Lexico3), qui nous a servi à réaliser l’analyse quantitative du corpus.

2. LEXICO 3

Afin de saisir les spécificités discursives de chaque locuteur et de l’ensemble des locuteurs, nous avons procédé à des analyses quantitatives et qualitatives.

L’approche quantitative a été possible grâce aux procédures informatiques de traitement automatique, notamment grâce aux logiciels ; dans notre cas : Lexico 3.

Lexico 3 représente l’édition 2001 du logiciel Lexico, développé à l’ILPGA –Paris3- par André Salem et al. Nous retrouvons lors de cette édition les fonctionnalités de la première version (1990) : segmentation, concordances, décomptes; spécificités et analyse factorielle, la plupart d’entre elles étant sensiblement améliorées (cf site Lexico3).

Avant de passer à l’analyse proprement dite, nous allons présenter les pas que nous avons suivis au cours de notre analyse quantitative.

Le traitement passe tout d’abord par un travail de préparation du corpus. Nous avons ainsi constitué trois corpus : un premier contenant les discours de D. Bernard (PDG Carrefour), un deuxième constitué des discours de J-M Messier (ex PDG Vivendi Universal), un troisième composé des discours des quinze patrons choisis. Pour que nos corpus soient prêts pour l’exploitation par Lexico 3, il est nécessaire que le texte soit enregistré sous la forme d’un fichier texte seulement.

A. LEXICO 3 : LES CLÉS ET LA SEGMENTATION

Une étude lexicométrique, reposant sur une analyse des spécificités comme celle sur laquelle se fonde le logiciel Lexico, vise à comparer et à étudier les fréquences des formes répertoriées dans les différentes parties d’un corpus. Pour que ces comparaisons soient réalisables, nous devons insérer des balises censées révéler les délimitations logiques du corpus (cf site Lexico3).

Nous avons ainsi réfléchi à la méthodologie et nous avons travaillé sur les clés à entrer, ce qui constitue une phase importante dans la préparation du texte. Ces clés nous amène à réaliser des comparaisons à partir des parties du corpus qu’elles découpent. Elles reposent sur des variables extraites du corpus : les différents locuteurs, les types de textes ou les moments de productions du discours par exemple. Elles sont donc très diverses et leur choix est relatif aux objectifs de l’analyse.

Le logiciel poursuit ensuite son traitement par une opération de segmentation du corpus réalisée à partir des balises intégrées à l’outil informatique ; il s’agit de la création automatisée d’une base de données textuelles à partir du fichier .txt (par exemple : Bernard- Messier télé+radio.txt). Cette base est constituée de trois fichiers, à savoir :

1.      Bernard-Messier télé+radio.dic

2.      Bernard-Messier télé+radio.par

3.      Bernard-Messier télé+radio.num

Suite à la segmentation, nous pouvons consulter la liste lexicométrique des formes du corpus sur la partie gauche de l’écran. À côté de toute forme, nous trouvons sa fréquence dans l’ensemble du corpus :

Formes (ordre lexicométrique)                                Fréquence

de                                                                               379

est                                                                              291

la                                                                                229

et                                                                                225

on                                                                               216...

Formes (ordre lexicographique)                              Fréquence

0%                                                                             2

*aires                                                              1

*allemagne                                                                 2

*belgique                                                                    4...

L’ordre lexicographique indique un classement alphabétique de ces formes.

B. LEXICO 3 : LE CONCORDANCIER

Nous avons fréquemment utilisé l’outil Concordance qui nous permet de visualiser toutes les occurrences d’une forme en contexte précis. Cet outil, tellement usité lors de notre analyse, nous donne la possibilité de retourner systématiquement au texte et à l’environnement immédiat de la forme, favorisant une vue panoramique du contexte de la forme qu’on se donne à étudier. À la demande de l’utilisateur les contextes de gauche et de droite de la forme traitée peuvent compter un nombre de formes plus ou moins élevé :

Corpus : Bernard-Messier télé+radio

Date : Saturday, January 03, 2004 - 21:16

Concordance de : moi

 (tri ordre du texte)

 
a monnaie en francs mais si vous dites , moi - en euros - si vous dites " je ne veux 
 saluer parce que vous êtes cambrésien , moi aussi , donc on peut se comprendre . la 
périence d ' entreprise passionnante . § moi , je suis rentré dans la distribution il 
eurs aujourd ' hui , au niveau mondial . moi , je voudrais dire qu ' à l ' époque , j 
is cela fait partie de notre culture . § moi , j ' ai une définition très simple de l [...]

Corpus : Bernard-Messier télé+radio

Date : Saturday, January 03, 2004 - 21:16

Concordance de : moi

 (tri avant)

 
 saluer parce que vous êtes cambrésien , moi aussi , donc on peut se comprendre . la 
is cela fait partie de notre culture . § moi , j ' ai une définition très simple de l 
s juger les assises de la distribution . moi , je dirais que beaucoup des recommandations 
a monnaie en francs mais si vous dites , moi - en euros - si vous dites " je ne veux 
out à fait confiantes en notre avenir et moi , je voulais souligner que ce grand groupe [...] 

Corpus : Bernard-Messier télé+radio

Date : Saturday, January 03, 2004 - 21:17

Concordance de : moi

 (tri après)

 
 saluer parce que vous êtes cambrésien , moi aussi , donc on peut se comprendre . la 
a monnaie en francs mais si vous dites , moi - en euros - si vous dites " je ne veux 
is cela fait partie de notre culture . § moi , j ' ai une définition très simple de l 
s juger les assises de la distribution . moi , je dirais que beaucoup des recommandations 
très bien sur internet et en magasin . § moi je rappelle que sur les prix , si on prend [...] 

Les différents contextes d’une même forme seront ordonnés de trois façons différentes, en fonction de :

1. « l’ordre alphabétique de l’occurrence qui précède la forme-pôle (tri avant)

2. l’ordre alphabétique de l’occurrence qui suit la forme-pôle (tri après)

3. l’ordre d’apparition des occurrences de la forme-pôle dans le texte (tri ordre du texte) » (site Lexico3).

Notons toutefois que l’étude des environnements immédiats des formes nous amène à bien saisir les significations auxquelles elles renvoient, à repérer les « éventuelles formes graphiques homonymes ou homographies, [à] caractériser une certaine forme en fonction de son contexte, et non plus intrinsèquement, ce qui permet [sans doute] d’approfondir sa signification » (Marchand 1998 :40-41).

C. LEXICO 3 : LE GRAPHIQUE DE VENTILATION, PCLC, L’AFC

Les clés que nous avons introduites avant la segmentation automatique introduisent différentes partitions du corpus. En ce sens, au cours de l’analyse en fonction des comparaisons que nous voulons effectivement appliquées, nous devons sélectionner un type de clé (la clé c, par exemple). Les différents contenus reliés à cette clé découpent le corpus en autant de parties distinctes. Nous pouvons ainsi visualiser le graphique de ventilation d’une forme choisie à étudier, dans les différentes parties du corpus :

Nous pouvons obtenir la ventilation d’une forme en termes de fréquence absolue (nombre des fois où une occurrence apparaît dans la partie) ou de fréquence relative (nombre d’occurrences rapporté à la taille de la partie). Le dernier type de fréquence est recommandable dans le sens où seule cette fréquence rend compte de l’occurrence traitée en corrélation avec la taille du texte. Sans cette pondération, il est évident que plus un texte est long plus une forme risque d’y apparaître avec une fréquence élevée. L’analyse en serait alors peu pertinente. Certes, c’est le type de fréquence que nous exploiterons lors de notre analyse.

En sélectionnant l’icône PCLC, nous notons les principales caractéristiques lexicométriques par partie suivant la partition choisie :

 

 

Principales caractéristiques de la partition : c

 

Partie

Nb occurrences

Nb formes

Nb hapax

Fréq. Max

Forme

1

9582

1656

911

336

de

2

807

325

202

43

de

Nous pouvons ainsi remarquer le nombre d’ occurrences des formes répertoriées, le nombre de formes graphiques présentes dans chaque partie, le nombre de formes qui ne connaissent qu’un seul contexte (les hapax), le nombre d’ occurrences de la forme la plus fréquente.

Le logiciel Lexico 3 propose aussi un autre type d’analyse : il s’agit de l’analyse factorielle des correspondances. Nous avons ainsi réalisé l’analyse factorielle des correspondances sur le corpus contenant les discours de 15 patrons français :

Cette AFC nous permet de nous rendre compte du degré de ressemblance entre les différents discours vu que les axes factoriels donnent « une estimation des proximités calculées entre les différentes parties sélectionnées, en fonction de leur vocabulaire » (site Lexico 3).

Près de l’intersection de l’axe nous trouvons les locuteurs qui présentent des caractéristiques communes. Ceux qui se distinguent par de nombreuses spécificités discursives par rapport à l’ensemble du corpus figurent parmi les locuteurs les plus excentrés.