De quel nombre parle-t-on ?

On m'a souvent demandé combien il existait de caractères chinois. Au risque de décevoir, la réponse n'a guère d'intérêt pratique nous concernant : il y en a beaucoup, et nul ne sait avec certitude combien !

Le système d'écriture chinois a connu plus de cinq mille ans d'évolution et de transformations qui ont amené leur lot de nouveaux sinogrammes ou de variantes. Si certains dictionnaires peuvent recenser plus de 80 000 caractères (85 568 pour le 中华字海 Zhong1hua4 Zi4hai3, publié en 1994 et jusqu'à 106 230 pour le 异体字字典 Yi4ti3zi4 Zi4dian3 publié en 2004), la plupart des dictionnaires incluent de l'ordre de 5 000 à 6 000 caractères ; et même dans ce dernier cas, tout comme la plupart des Français ne maîtrise pas la totalité des mots présents dans la dernière version du dictionnaire Le Robert, seuls 3 à 4 000 caractères sont effectivement d'utilisation courante. Le 中华字海 et le 异体字字典, tout à leur souci d'exhaustivité, incluent des caractères rares, certains très spécialisés, d'autres issus d'écrits remontant à d'anciennes dynasties ou encore servant à transcrire les mots de différents dialectes qui n'existent pas en chinois mandarin, ainsi que les différentes variantes qui peuvent ou ont pu exister d'un même caractère.

Si la question du nombre total demeure donc intéressante d'un point de vue académique, il est beaucoup plus judicieux en pratique de s'interroger sur le nombre de caractères à connaître pour maîtriser un tant soit peu la langue. Pour que la démarche et la réponse qui suivent prennent tout leur sens, attardons-nous un instant sur la manière donc le chinois est formé.

Structure du vocabulaire chinois

Les caractères chinois se présentent le plus souvent sous la forme d'une combinaison organisée spatialement de composants, qui peuvent y jouer un rôle sémantique (représentant un sens) ou phonétique (représentant un son).

Exemples

  • ming2 (clarté) est formé par l'association du Soleil () et de la Lune (), tous deux à valeur sémantique.
  • kuai4 (plaisant) est la combinaison de la clé du coeur () à valeur sémantique et de (guai4) qui a une valeur phonétique.

Toutefois, en ce qui concerne la question du jour, nous pouvons simplifier cette vision et considérer qu'indépendamment de leur mode de formation les caractères constituent l'unité lexicale du chinois : les mots mono-caractères, fréquents en chinois classique, sont maintenant plus l'exception que la règle ; le chinois moderne les combine (souvent par deux) de manière à réduire les ambiguïtés, notamment à l'oral.

Exemples

  • shui3 l'eau
  • 名字 ming2zi le prénom
  • 中国人 zhong1guo2ren2 chinois
  • 爱国主义 ai4guo2zhu3yi1 patriotisme
  • 爱国主义者 ai4guo2zhu3yi1zhe3 patriote

Les principes régissant la formation des mots sont très intéressants et mériteraient un article à eux-seuls. Pour l'heure, nous retiendrons l'essentiel : par le jeu de la combinatoire, un ensemble donné de caractères permet en général la création d'un nombre de mots bien plus important. Par voie de conséquence, il n'est pas nécessaire de maîtriser 59 000 caractères pour être capable de retranscrire en chinois les 59 000 mots du Petit Larousse Illustré ; un dictionnaire équivalent utilisera typiquement de l'ordre de 5 000 à 6 000 caractères différents.

Certaines méthodes d'apprentissage de la langue chinoise font fi de la composition interne des caractères chinois , se concentrent sur les mots ou même parfois juste sur le pinyin au détriment des caractères eux-même. C'est à mon sens une erreur. Il est fondamental de saisir le caractère intrinsèquement sémantique du chinois, clé d'un apprentissage raisonné et efficace. À la sensation initiale d'un progrès plus rapide que ces méthodes mettent en avant succède bien souvent une profonde stagnation qui peut amener à tout reprendre à zéro pour mieux appréhender une langue fondamentalement différente de nos langues européennes.

Certains caractères étant limités à des domaines particuliers ou encore d'un emploi plus restreint que par le passé, il est aisé de comprendre que tous ne sont pas employés avec la même fréquence. Le caractère , le plus couramment utilisé en chinois, concentre à lui seul près de 3,8% des apparitions, alors que certains caractères ne se rencontrent guère plus d'une fois sur un million ! Si des caractères comme ont une forte capacité combinatoire et se retrouvent dans de nombreux mots, d'autres y sont relativement allergiques !

Combien de caractères dois-je donc apprendre ? Les premiers éléments que nous venons de voir laissent à penser que la clé de leur sélection se trouve dans un judicieux équilibre entre la fréquence des caractères et leur capacités combinatoires.

Un peu de mathématiques...

Courbe logarithmique

La courbe ci-dessus est dite "logarithmique". Pour ceux que cela intéresse, son équation est y(x)=log(x)*x/(50+x), l'expression multiplié par le logarithme ne servant qu'à "tasser" un peu la courbe à ses débuts pour qu'elle ressemble un peu plus à celles que nous verrons par la suite. L'essentiel est son allure globale, due à l'influence du logarithme : l'augmentation est d'abord rapide, puis s'essouffle de plus en plus.

Ce genre de progression (qui se tasse rapidement) se retrouve dans de nombreux domaines, notamment ceux liés à la qualité : chaque industriel sait que pour fournir un produit, le zéro défaut n'existe pas, et que plus on y tend, plus les coûts augmentent. Dans mon travail (la reconnaissance d'écriture manuscrite par un ordinateur), nous sommes confrontés au même défi : si nous avons des taux de succès de l'ordre de 97% de caractères correctement reconnus, passer à 98% sera presque plus difficile que ça ne l'a été de passer de 75 à 97% !

Le rapport ? Il paraîtra plus évident dans la section suivante au cours de laquelle nous examinerons deux sélections de caractères chinois fréquemment utilisées pour l'apprentissage de cette langue.

Listes de caractères

Les différentes courbes présentées dans cette section sont calculées à partir des travaux de Serge Sharoff de l'université de Leeds sur la fréquence des caractères chinois par un logiciel que j'ai écrit pour l'occasion. Le rendu des courbes est réalisé par LibreOffice ; le fichier correspondant est attaché à cet article et librement téléchargeable.

Comment obtient-on les fréquences d'utilisation des différents caractères ? Le principe est assez simple : les chercheurs rassemblent typiquement un corpus de grande taille et comptabilisent le nombre d'occurrences de chaque caractère. Une fois ce nombre rapporté à la taille du corpus, on obtient la fréquence.

Le talon d’Achille de cette méthode est cependant l'étape du corpus, qui se veut une représentation statistiquement réaliste de la langue chinoise. Or, qu'il soit issu de sources littéraires, journalistiques, de forums ou de blogs, le même vocabulaire n'aura nécessairement pas la même fréquence, voire sera totalement absent dans certains cas. Les chercheurs tentent de minimiser ces effets par différentes méthodes, mais attester du caractère vraiment réaliste du résultat est une gageure que nul ne sait encore vraiment relever.

Les classements par fréquence peuvent donc varier avec les études, surtout lorsque l'on aborde les caractères les moins fréquents. En ce qui nous concerne, nous ne considérons "que" les quelques premiers milliers de caractères, et nous estimerons les chiffres suffisamment fiables pour le propos de cet article.

Les 400 et 900 caractères de Bellassen

Joël Bel Lassen (ou Bellassen) est un sinologue et pédagogue français qui s'investit beaucoup dans la promotion de l'enseignement du chinois en France. Parmi ses contributions les plus connues figurent ses fameuses tables des 400 et 900 caractères, correspondant à des minima pour les étudiants en chinois dans l'enseignement secondaire (les 400 correspondent à un niveau Bac pour les LV2 et LV3, les 900 au même niveau pour les LV1) et supérieur (les 900 correspondent à deux années d'université de langue). Comme envisagé précédemment, leur principe d'élaboration a reposé sur la prise en compte de la fréquence d'utilisation des caractères et sur la capacité combinatoire de ces derniers (la possibilité de les utiliser pour former des mots).

Je ne résiste pas au plaisir de vous présenter la liste exhaustive des 400 caractères de Bellassen :

啊 爱 安 八 把 吧 白 百 班 半 办 包 报 杯 北 本 比 笔 边 便
遍 别 病 不 才 菜 茶 差 长 常 场 唱 车 成 城 吃 出 处 川 春
次 从 错 打 大 带 当 到 道 的 得 等 底 地 第 点 电 店 定 冬
东 懂 动 都 对 多 饿 儿 二 发 法 饭 方 房 放 非 飞 分 份 风
夫 服 父 干 刚 钢 高 告 哥 歌 个 给 跟 更 工 公 共 古 关 馆
光 广 贵 国 果 过 还 孩 海 汉 好 喝 河 和 黑 很 红 后 候 湖
虎 花 画 化 话 欢 黄 回 会 活 火 机 鸡 几 己 家 间 见 江 讲
饺 叫 教 今 金 近 进 京 九 酒 久 就 旧 觉 开 看 可 课 刻 孔
口 快 筷 块 来 老 乐 了 累 冷 离 李 里 立 连 凉 两 辆 〇 零
六 龙 楼 路 马 吗 买 卖 慢 忙 毛 么 没 美 每 门 们 梦 米 面
民 名 明 母 拿 哪 那 男 南 难 脑 呢 能 你 年 念 鸟 您 牛 女
旁 朋 皮 片 票 平 七 期 骑 起 气 汽 千 前 钱 亲 轻 请 秋 区
去 然 让 热 人 认 日 肉 如 三 色 山 商 上 少 谁 身 什 生 声
升 师 十 时 识 始 是 事 市 室 收 手 书 水 睡 说 思 四 诉 算
虽 岁 所 他 她 它 太 疼 提 题 体 天 田 听 同 头 图 外 完 晚
万 王 往 网 忘 为 位 文 问 我 无 五 午 物 西 息 喜 下 先 现
香 想 象 小 校 些 鞋 写 谢 新 心 信 星 行 醒 姓 兴 休 学 呀
言 阳 羊 样 要 药 也 夜 一 医 衣 以 意 因 音 影 硬 用 有 友
又 鱼 语 雨 元 园 远 院 月 在 再 早 怎 站 张 找 这 着 真 正
知 只 中 钟 种 重 主 住 祝 庄 子 字 自 走 租 最 昨 作 做 坐

Pour aussi intimidant que cela puisse paraître au premier abord, l'apprentissage dans de bonnes conditions ne pose pas de souci particulier, et avec du recul, on réalise que les possibilités offertes sont relativement limitées (même dans la vie courante). L'intérêt de cette liste est de fournir un socle solide pour la poursuite de l'apprentissage.

Pour s'en convaincre, regardons les courbes obtenues pour les 400 et 900 caractères respectivement.

Bellassen all

Les deux courbes ci-dessus montrent le pourcentage cumulé des caractères de chaque groupe lorsqu'ils sont considérés par fréquences décroissantes. Au final, 400 caractères permettent de reconnaître près de 64% des caractères rencontrés dans la vie courante (indépendamment des mots). L'ajout de 500 nouveaux caractères pour parvenir à un total de 900 amène à un taux de reconnaissance de 85%, d'expérience beaucoup plus intéressant dans la vie quotidienne, surtout accompagné de la connaissance du vocabulaire correspondant.

En voyant ces courbes, vous devez commencer à comprendre pourquoi je vous ai présenté une courbe logarithmique précédemment. On constate qu'au final un nombre relativement restreint de caractères revient très fréquement, alors que les autres sont beaucoup plus rares. Le travail de Bellassen a consisté à mettre ces caractères en évidence et à les associer à des objectifs pédagogiques.

On pourrait naïvement penser que les deux courbes devraient se superposer, la courbe des 900 ne faisant que prolonger celle des 400. En réalité, on constate que si elles se superposent effectivement au début, elle divergent par la suite. La raison en est simple et illustre nos propos précédents : la fréquence d'utilisation des caractères n'entre pas seule en jeu. Parmi les 400, certains caractères parmi les plus fréquents sont omis, car les mots qu'ils permettent de former impliquent des caractères moins fréquents qu'il n'est pas utile de maîtriser à ce stade. Comme les caractères en question entrent dans les 900, c'est là qu'ils apparaissent tous ensemble. Si on traçait la courbe des caractères par fréquences croissantes sans discrimination, on obtiendrait une troisième courbe au-dessus des deux autres.

Les caractères du HSK

Le 汉语水平考试 Han4yu3 Shui3ping2 Kao3shi4 (Examen de Niveau de Chinois) est la certification officielle la plus utilisée pour attester d'un niveau de maîtrise du mandarin. Il s'agit d'un examen dans l'esprit du TOEFL ou de l'IELTS anglo-saxons, qui teste les capacités de vocabulaire, de grammaire, de compréhension et d'expression (écrites et orales). Depuis sa grande réforme en 2009, il est devenu plus simple d'accès, et se constitue de 6 niveaux distincts (contre 11 précédemment), correspondant à des niveaux de maîtrise de la langue diverses.

Le tableau ci-dessous détaille les différents niveaux et la maîtrise de la langue qui y est associée :

Niveau Caract. Mots Description
1 178 150 Comprendre et savoir utiliser des mots et phrases très simples, pour répondre à des besoins ponctuels de communication
2 349 300 Être capable de communiquer en situation et simplement à propos des sujets familiers ou quotidiens
3 623 600 Être capable de mener à bien des communications dans la vie courante, les études et le cadre professionnel. Pouvoir se débrouiller dans un voyage touristique
4 1 075 1 200 Être capable de discuter couramment à propos de sujets de domaines divers
5 1 711 2 500 Lire couramment la presse, suivre un film ou une émission télévisée, prononcer un discours structuré
6 2 633 5 000 Comprendre aisément les informations entendues ou lues, s’exprimer facilement à l’oral ou à l’écrit

À la lecture de ce tableau, quelques remarques s'imposent :

  • Les nombres de caractères et de mots sont présentés de manière cumulée : par exemple, si le HSK 1 introduit 178 caractères, le HSK 2 en ajoute 171 nouveaux, portant le total à 349. La justification est évidente : les caractères du HSK 1 pouvant se combiner à des caractères du HSK 2 pour créer de nouveaux mots au programme de ce dernier niveau, il convient de les maîtriser au préalable.
  • Le nombre de mots indiqué correspond aux listes officielles du HSK. Il ne s'agit là que d'un sous-ensemble des mots qu'il est possible de créer avec les caractères en présence.
  • Comme dans le cas des listes de Bellassen, les caractères ont été sélectionnés pour leur fréquence et leur capacité combinatoire.

Dans sa précédente incarnation, le HSK 11 demandait la maîtrise de 2 865 caractères et de 8 840 mots de vocabulaire. L'examen est donc maintenant bien plus simple.

Voyons à présent à quoi ressemblent les courbes correspondant aux différents niveaux du HSK :

hsk all

À la lecture de ces courbes, il apparaît que les différents niveaux du HSK permettent de maîtriser respectivement 41, 57, 72, 86, 94 et 98% des caractères couramment rencontrés pour un apprentissage de 178, 349, 623, 1 075, 1 711 et 2 633 caractères respectivement.

L'allure "asymptotique" de la courbe apparaît ici beaucoup plus nettement avec le HSK 6, et on comprend pourquoi l'examen a été simplifié. Apprendre plus de 2 700 caractères n'amènera pas de gain substantiel, et il vaut mieux consacrer son temps à la maîtrise du vocabulaire ou de l'expression en situation réelles. L'association des niveaux de maîtrise aux différents seuils peut aussi amener à "raisonner" son apprentissage : mieux vaut sans doute un niveau 5 bien maîtrisé que l'atteinte d'un niveau 6 sans réelle capacité à employer ce savoir dans des situations concrètes. Le HSK étant un examen, un solide entraînement et une dose de chance peuvent en venir à bout, même si la partie expression orale (sous forme d'entretien) fait tout pour limiter ce risque.

La comparaison avec les niveaux définis par Bellassen est intéressante. On réalise qu'avec les 400, l'apprenant obtiendra un niveau compris entre le HSK 2 et le HSK 3, et que la liste de 900 amènera aux portes du HSK 4. Ainsi, des élèves français achevant l'un ou l'autre des cursus basés sur la méthode de Bellassen peuvent envisager de se présenter aux niveaux appropriés du HSK, s'ils souhaitent disposer d'une validation officielle et reconnue internationalement de leur maîtrise du chinois. Un seul bémol cependant : le HSK est un examen de type TOEFL, qui se présente pour la plus grande partie sous forme de QCM ; un peu de préparation spécifique ne pourra pas faire de mal, car ce n'est en général pas un format auquel les élèves sont préparés (ils sont plus entraînés à s'adapter à des situations réelles, ce qui n'est pas un reproche !).

En pratique

Je pense que vous êtes à présent convaincus que l'atteinte de 100% est une chimère. L'allure asymptotique de la courbe montre que doubler le nombre de caractères connus n'apporte au final que peu de gain. Si toutefois les 100% sont votre objectif (ce dont je doute fort), la solution passe par la question du nombre total de caractères existants, ainsi que nous l'avons vu dans la première partie de cet article.

En réalité, même si la courbe est d'apparence asymptotique, l'exercice est naturellement biaisé par la méthode utilisée : le corpus dans lequel les occurrences des caractères sont comptabilisées étant fini, les 100% sont nécessairement atteints. Si cela correspond à la réalité (nul ne prétendra qu'il existe un nombre infini de caractères chinois, ne serait-ce que pour des raisons pratiques liées au temps nécessaire à leur invention), le fameux seuil de complétion dépend des corpus utilisés, qui rassemblent des centaines de millions de caractères mais ne peuvent prétendre à l'exhaustivité (celui sur lequel je me suis basé pour mes courbes s'est basé sur un corpus de 280 000 000 de mots extraits d'Internet en 2005 et qui identifie 6 807 caractères distincts apparaissant plus d'une fois sur 100 000 000).

Atteindre les 100% est donc inintéressant d'un point de vue pratique, mais passionnant d'un point de vue historique et statistique, d'où un nombre significatif de travaux sur le sujet.

En Chine continentale, le 现代汉语常用字表 liste quelques 2500 caractères considérés comme les plus fréquents auquels s'ajoutent 1 000 caractères supplémentaires moins fréquents. Cette liste sert de base à l'enseignement de la langue en République Populaire de Chine, et dispose d'une version étendue rajoutant certains caractères encore moins fréquents pour parvenir à un total de 7 000 caractères.

Si vous vous rendez sur cette page (et a fortiori sur celle des 7000 caractères), vous noterez sans doute des points d'interrogation, car peu de polices incluent les glyphes nécessaires pour représenter tous les caractères.

Conclusion

Pas de panique ! Les courbes sont plutôt réconfortantes. Elles ne cachent certes rien de la tâche de mémorisation nécessaire pour maîtriser le chinois (et je ne parle pas du vocabulaire !), mais elles montrent qu'avec une approche raisonnée (telle que pratiquée par la plupart des pédagogues), on peut très vite devenir efficace. Ce qui apparaît, en revanche, c'est que prendre les caractères dans un ordre quelconque ne mènera pas loin (ne riez pas, je sais que certains Chinois ou Japonais – en nombre certes marginal – apprennent le dictionnaire d'anglais par cœur, mot après mot !).

Une maîtrise (incluant l'écrit) des 2 500 à 2 700 caractères les plus fréquents/combinatoires apparaît donc comme l'objectif au-delà duquel l'apprenant se sentira tout à fait dans son élément. Pour le reste, le dictionnaire jouera son rôle pour identifier de nouveaux caractères qui pourraient apparaître au cours des lectures.

Je rappelle bien sûr que si la maîtrise des caractères est indispensable, elle n'est pas suffisante : l'apprentissage des mots, des expressions et des structures grammaticales et syntaxiques joue un rôle très important lui aussi, même si le chinois est bien plus simple grammaticalement que bien des langues, à commencer par le français.

Références

  • Chinese character, Wikipédia, consulté le 27/11/2013
  • Présentation HSK, Site de l'Association Française des Professeurs de Chinois, consulté le 27/11/2013
  • 汉语考试服务网, Site officiel du HSK, consulté le 27/11/2013
  • Zhonghua Zihai, Wikipédia, consulté le 27/11/2013
  • Sharoff, S. (2006) Creating general-purpose corpora using automated search engine queries. In Marco Baroni and Silvia Bernardini, editors, WaCk y! Working papers on the Web as Corpus. Gedit, Bologna.