I - État du lexique

1) Le vocabulaire commun

Combien de mots la langue française comporte-t-elle ? C'est impossible de le dire réellement.

Il faut d'abord s'entendre sur ce que c'est qu'un mot. Un mot composé comme pomme de terre est-il à compter comme 1 ou 3 ? Les multiples formes du verbe être forment-elles chacune un mot différent ? Nous choisirons, c'est la position de bon sens, de considérer qu'il s'agit à chaque fois d'un mot unique, même s'il prend une forme graphique multiple, ou possède une grande variété de formes (sinon : le singulier et le pluriel seraient à compter à chaque fois comme 2 mots différents : enfant / enfants, cheval / chevaux, oeil / yeux ...). A l'inverse, il faut compter les homonymes (homophones + homographes) comme des mots différents. On remarquera aussi qu'un mot a des sens différents, mais liés sémantiquement entre eux, et on n'est pas alors dans l' homonymie mais dans la polysémie .

On peut quand même essayer d'évaluer le vocabulaire commun du français, avec les réserves qui s'imposent, et en précisant comment on arrive à un compte donné.

Les dictionnaires comptent entre 30 000 et 100 000 mots environ (du Dictionnaire du français au collège chez Larousse au Grand Robert ). Or, ils ne répertorient qu'un nombre limité de mots techniques ou scientifiques, qui sont innombrables et réservés aux lexiques spécialisés.

Des spécialistes ont dépouillé un grand nombre de textes situés entre 1785 et 1965 (dépouillement pour le Trésor de la Langue Française ). Ils sont parvenus à 71 640 vocables (mots). Dont 907 très fréquents. Il s'agit du vocabulaire dans le langage écrit . Le langage parlé est bien plus pauvre.

Quelques autres statistiques, et des comparaisons avec d'autres langues : un livre de littérature populaire peut compter un demi-millier de mots ( Sans Famille , d'Hector Malot, 439) ; un livre mieux écrit, 3 fois plus. La Bible , en anglais (c'est équivalent sans doute en français), 6000 mots ; mais une traduction " basique " la réduit à 850. Shakespeare " monte " à 24 000 mots. Le vocabulaire possédé par une personne peu instruite peut être évalué à 3 000 ou 5 000 mots ; 10 fois plus pour une personne instruite.

Toutes ces données sont à nuancer, car le vocabulaire est un ensemble mouvant en constante évolution.

Des mots apparaissent, d'autres disparaissent, comme le montrent les dictionnaires (entre 1922 et 1976 : 25% de mots nouveaux, mais 10% de pertes). L'usage de certains mots progresse ou régresse, sans qu'il soit question de leur disparition : c'est leur fréquence d'utilisation qui est ici en jeu, car il existe un " noyau " de mots de base qui sont extrêmement utilisés, et il est aussi important d'évaluer cette fréquence d'utilisation que de compter un nombre total, qui comprend des mots rares (combien de fois par jour utilise-t-on le verbe être , combien de fois par an le nom pachyderme , que tout le monde connaît pourtant ?). Une remarque encore : les créations éphémères de mots sont extrêmement nombreuses. Chacun peut en être l'auteur (avec un préfixe, un suffixe). Un faible nombre entreront dans l'usage et seront comptabilisés. Ainsi, on peut encadrer , mais aussi décadrer ou désencadrer un tableau ; déjeuner , puis redéjeuner , retéléphoner ; Mme de Pompadour appelait les fleurs " des jolités du Bon Dieu " ; un personnage se moquait de la capitalomanie de Napoléon ; au XIXème siècle, on parlait de déroiter le roi. Le mot défaitisme a été créé en 1916 par un journaliste et écrivain russe vivant à Paris, mot appliqué aux russes ; le mot picard rescapé a été introduit par les journalistes suite à la catastrophe de Courrières en 1906 (1200 morts). Autre exemple plus marginal : le mot nénette a été fait en 1955, sur néné , mot expressif fait en 1842...

2) Composition du lexique

En fonction de l'histoire de la langue, on peut compter les mots selon leur origine :

Les emprunts aux langues étrangères constituent environ 10% de notre vocabulaire. Il y en a un peu dans l'Antiquité, beaucoup plus à la Renaissance (influence de l'Italien), beaucoup à notre époque (anglo-saxon). On adopte d'abord le mot tel quel ( glasnost ) ; c'est ce qu'on appelle un xénisme , mot étranger servant à nommer une réalité étrangère ; puis on adapte sa prononciation ( beef-steack , écrit biftèque par Queneau) ; enfin le mot est naturalisé dans sa prononciation, sa graphie et ses désinences ( riding-coat > redingote, packet-boat > paquebot, See-Quayah [nom d'un chef indien cherokee qui a inventé un syllabaire pour sa langue] > séquoia ).

Les mots germaniques , franciques , couvrent 1,35% de notre vocabulaire, mais 3,5% des mots les plus fréquents. Ils concernent toute la vie sociale ; particulièrement le vocabulaire militaire ( guerre, épieu, gant, haubert, écharpe, dard ...) ; des termes de droit ou d'administration ( maréchal, sénéchal, échevin, gage ...) ; la vie de la campagne ( blé, cresson, épervier, jardin, troupeau, gagner ...) ; la vie de tous les jours ( marcher, garder, blanc, riche ...). On notera que le mot franc lui-même a pris des sens élogieux (noble de coeur, énergique, sincère, etc.), ce qui témoigne de l'orgueil des anciens Francs.

Les reliques gauloises : 0,08% de notre vocabulaire. Certains sont passés anciennement en latin, parce que les romains en avaient l'usage ( braca > braie : le pantalon gaulois s'est répandu dans la société romaine) ; d'autres ont été découverts par les romains durant leur conquête de la Gaule, et ils les ont adoptés pour désigner des réalités gauloises ; on peut citer aussi le mot vassal , qui désignait un lien personnel inconnu des romains. Certains ne sont restés qu'en patois local, comme un frigon en wallon, qui désigne un petit houx.

Les mots d'origine préceltique (antérieurs aux gaulois) se comptent sur quelques doigts, et surtout dans les parlers régionaux. On parle de mots " à l'origine incertaine ".

II - Histoire

1) Le Moyen-Âge, jusqu'au XIIIème siècle

La langue savante (= la langue de ceux qui savent, les gens instruits) a recours au latin : depuis la Renaissance Carolingienne, mais on ne peut que supposer (sans doute les mots qui respectent l'accent latin), et beaucoup à partir du XIème, par exemple dans le langage juridique, celle des clercs , des lettrés.

Des emprunts sont faits à d'autres langues : quelques mots normands, régionalement (Xème) ; des mots grecs, suite au commerce ou aux croisades : diamant au XIIème (bas latin diamas , croisé avec adamas = fer très dur, emprunté au grec, qui a donné aimant ) ou endive au XIIIème (emprunté au grec byzantin). Des mots arabes, suite au commerce et aux croisades : alchimie , échalote (ville d'Ascalon en Israël > ascalonia cepa , oignon d'Ascalon > escaluigne , début XIIème), jupe ( djubba , long vêtement de laine de dessous, fin XIIème), alchimie (= magie noire) ou alambic au XIIIème ; plus tard, magasin , zéro (arabe sifr > chiffre ) [découverte fondamentale : les romains l'ignoraient], etc.

On remarque aussi des dérivations libres [comme aujourd'hui avec re- , dé- , etc.]

Quelques remarques sur l'état de la langue au début de cette période littéraire. Certains mots se redoublent sémantiquement, l'un d'origine latine, l'autre germanique : honte (frq * haunita ; cf honnir ) et vergogne (lat. verecundia ) sont synonymes, et forment un doublet . D'un autre côté, les mots sont souvent très polysémiques, ils ont plusieurs sens . [comparaison : dans le vocabulaire actuel des cités / des jeunes, il y a une grande pauvreté, les mots sont peu nombreux ; mais beaucoup de mots ont plusieurs sens très différents, comme un sens et son contraire, cf grave ]

Au XIème siècle, la langue de la Chanson de Roland est encore assez pauvre, et toute concrète, bien que ce soit une langue "savante" pour l'époque. Au XIIème, la langue est plus riche, capable d'exprimer des analyses psychologiques et des nuances de sens. Par exemple, le mot mort était seul de sa famille ; dans le Roland apparaît mortel ; au XIIème, mortellement , mortalité , puis mortifier , mortification . Aux XIIème et XIIIème apparaissent des mots comme obscur , obscurité , obstacle , dont on aurait du mal à se passer aujourd'hui.

2) Le Moyen-français (du XIVème au XVIème)

Selon des statistiques (de Pierre Guiraud) portant sur 20 000 mots souches actuellement vivants (en dehors des multiples mots techniques du XXème, entre autres), 22% remontent à l'ancien français, 43% sont entrés dans l'usage du XIVème au XVIème siècle, et 35% depuis. Le fonds ancien (dont nous venons de parler) représente donc à peine plus d'un mot sur 5, et un peu moins de la moitié ont été créés pendant la période dont nous allons parler. C'est la période de création lexicale la plus intense de l'histoire de notre langue .

Les voyages, les grandes découvertes , ont amené ce qu'on peut appeler des " mots voyageurs " : chocolat (venant de l'aztèque, du Mexique, par les espagnols, 1598), ananas (par l'espagnol aussi, de nana en tupi-guarani, une langue du Brésil, 1544) ; la caravelle , le bateau qui a permis les traversées ( carvelle début XVème) vient du portugais caravela , du bas latin carabus = canot.

Au chapitre des emprunts , on signalera un certain nombre d'italianismes : des termes militaires comme soldat , sentinelle ; financiers : banque , crédit ; la vie de la cour : courtisan ; les beaux-arts : fresque , mosaïque , médaille . On emprunte aussi à l'italien des suffixes : -ade ( cavalcade , qui vient parallèlement à chevauchée ), -esque ( chevaleresque , romanesque ).

Il y a encore et surtout une grande créativité au XVIème siècle, époque où on était obnubilé par la pauvreté de la langue française (par comparaison avec l'italien et avec le latin). Les auteurs de La Pléiade on fait beaucoup d'efforts pour créer des mots nouveaux, des néologismes, en particulier par dérivation, c'est-à-dire à l'aide de préfixes et suffixes. On connaît Ronsard et Du Bellay ; on connaît beaucoup moins aujourd'hui d'autres auteurs de moins grande valeur plus créateurs, comme Jean Lemaire de Belges, poète et chroniqueur belge. Rabelais a aussi créé quantité de mots.

On a créé par dérivation à partir de mots français (ex : des diminutifs).

On a emprunté directement au latin (ex : radius ), et on a aussi relatinisé des mots français (parfois à tort) ou calqué des mots ou des expressions sur le latin ( la chose publique / res publica ).

On a emprunté des affixes au latin pour faire des dérivés (ex : -tion )

On a aussi énormément créé de mots savants, sur des radicaux latins et grecs, car on traduisait beaucoup d'auteurs de ces deux langues anciennes ; et certaines sciences se développaient, comme la médecine, qui utilisait beaucoup le grec (traductions d'Hippocrate) ; la politique aussi utilisait des racines grecques (prestige des Anciens) ; le droit, des racines latines. C'est de cette époque que datent des doublets , un mot populaire et un mot (originellement) savant qui le redouble : frêle / fragile ( fragilem ), pourrisson / putréfaction, hôtel / hopital ( hospitalem ), serment / sacrement ( sacer = sacré), raide / rigide , mâcher / mastiquer, entier / intègre, livrer / libérer, blâmer / blasphémer ... [le mot savant est le plus long, fait directement sur le mot latin].