文本描述
中文信息处理发展报告
(2021)
中国中文信息学会
中国·北京
2021.12
前言
《中文信息处理发展报告》(2021)是中国中文信息学会召集领域专家对中文信息
处理学科方向和前沿技术的阶段性梳理。本发展报告的定位是深度科普,旨在向政府、
企业、媒体等对中文信息处理感兴趣的社会各界人士简要介绍相关领域的基本概念和应
用方向,向高等院校、科研院所和高新技术企业中从事相关工作的专业人士介绍相关领
域的前沿技术和发展趋势。
《中文信息处理发展报告》(2021)继续沿用《中文信息处理发展报告》(2016)的
编撰思路:对近年来本专业领域内的学科方向进行系统总结梳理,对未来一段时期的前
沿技术趋势进行展望。按照各个专业委员会发展历程,结构安排上分为汉字字形信息、
速记、计算语言学、少数民族语言文字信息处理、机器翻译、信息检索技术、语音信息
技术、社会媒体处理、知识图谱领域、医疗健康与生物信息、网络空间大搜索技术、隐
私计算、开源情报技术、自然语言生成与智能写作、情感计算等15 个专业领域分别进
行表述。各个专业领域统一从研究背景与意义、领域发展现状与关键科学问题、领域关
键技术进展及趋势、领域产业发展现状及趋势、总结及展望等 5 个部分进行总结梳理和
趋势展望。因此,本发展报告既可作为中文信息处理领域的总体发展研究报告使用,亦
可作为每个专业领域独立的发展研究报告单独使用。
本发展报告的每个专业领域部分由各个专业技术委员会组织本专业领域内专家和
学术团队协同撰写完成,由学会秘书处组织相关专家负责对初稿反馈意见,最后校核、
编排、统一成文。
参与本发展报告撰写工作的主要专家如下:
汉字字形信息:张建国等。
速记:廖清等。
计算语言学:车万翔等。
少数民族语言文字信息处理:吐尔根·依布拉音等。
机器翻译:张家俊、黄书剑、李军辉、王瑞、何中军、苏劲松、冯冲、肖桐、史晓
东、余正涛、张民等。
信息检索技术:窦志成、范意兴、郭嘉丰、何向南、黄民烈、刘畅、刘奕群、毛佳
昕、任昭春、徐君、严睿、殷大伟、张帆、张鹏等。
语音信号技术:郑方、贾珈、王东、徐明星、吴志勇、周强、程星亮等。
社会媒体处理:刘挺、唐杰、林鸿飞、黄萱菁、沈华伟、冯仕政、陈慧敏、刘知远、
1
丁效、李斌阳、万怀宇、魏忠钰、秦兵、王素格、刘康、夏睿、蔡毅、黄民烈、沈浩、
张伦、朱旭琪、孟天广、谢幸、杨洋、杨成、何婷婷、付瑞吉、王明文、彭敏、徐睿峰、
邱伟云、左家莉、伍大勇、张洪忠、张伟男、张华平、王彦皓、蔡佳豪、赵鑫、王啸等。
知识图谱领域:陈华钧 、程龚 、韩先培 、侯磊 、胡伟、李涓子、李炜卓、刘康 、
刘铭、漆桂林 、秦兵、王昊奋、许斌 、张文、赵军等。
医疗信息处理技术:陈清财、汤步洲、户保田、陈俊杰、闫峻等。
网络空间大搜索技术:贾焰、李爱平、王晔、仇晶等。
隐私计算:李凤华、李晖、邱卫东、牛犇、邹德清等。
开源情报技术:刘科伟、殷复莲、黄永峰、张震、杨震、杨忠良、马谅、文盖雄、
夏睿、丁效、齐中祥、管磊、于锐、韩先培等。
自然语言生成与智能写作:黄民烈、万小军、高扬、冯骁骋、严睿、宋睿华、段楠、
赵铁军、饶高琦、杨沐昀、肖欣延、吴华、李国东、李丕绩等。
情感计算:秦兵 、徐睿峰、朱廷劭、夏睿 、刘斌 、赵妍妍 、李斌阳等。
由于时间仓促,加之篇幅和视角所限,难免挂一漏万,仅供有志于中文信息处理事
业的同仁和青年学者们参考研判,并期待让我们携手同行,再创中文信息处理事业的新
辉煌!
中国中文信息学会
2021 年 12 月
2
目录
第一章汉字字形信息研究进展、现状及趋势 4
第二章速记研究进展、现状及趋势20
第三章计算语言学研究进展、现状及趋势 27
第四章少数民族语言文字信息处理研究进展、现状及趋势 61
第五章机器翻译研究进展、现状及趋势 75
第六章信息检索技术研究进展、现状及趋势110
第七章语音信号技术研究进展、现状及趋势169
第八章社会媒体处理研究进展、现状及趋势211
第九章知识图谱领域研究发展、现状及趋势266
第十章医疗信息处理技术研究进展、现状及趋势 299
第十一章 网络空间大搜索技术研究进展、现状及趋势 314
第十二章 隐私计算研究进展、现状及趋势350
第十三章 开源情报技术研究进展、现状及趋势 373
第十四章 自然语言生成与智能写作研究进展、现状及趋势397
第十五章 情感计算研究进展、现状及趋势460
3
第一章 汉字字形信息研究进展、现状及趋势
1.1. 研究背景与意义
汉字是中华文化的基因和核心,是中华文明得以传承和发展的载体,而计算机中文
字体是汉字书写文明在信息化时代的全新表现形式,也是中文信息处理的基础。
在汉字发展历程中,随着不同时代对信息传播的需求变化以及工具的变革,汉字字
形也在不断发生变化,并逐渐被赋予了审美功能。从篆、隶、草、楷、行等古老书体类
别,到雕版印刷时期的宋体、受西方影响而产生的黑体,再到民国时期的仿宋体以及丰
富多样的美术字,都是汉字字形变化的成果。
中文字体最早进入电脑,始于汉字照排系统的研制。1974年 8 月,国家重点科技攻
关项目“汉字信息处理系统工程”(简称“748工程”)设立,北大教授王选带领科研团队
研制出了汉字激光照排系统,并发明了针对汉字的高倍率字形信息压缩技术和高速还原
技术,这些成果使汉字排版印刷告别了“铅与火”的历史,开启了汉字进入数字化时代的
新篇章。
如今,计算机中文字体已成为中国人进行信息沟通、情感传递、文化表达的必要载
体,被广泛应用于出版、印刷、包装、广告、教育、办公、游戏动漫、互联网、移动终
端等社会生活的各个领域。不同领域的用户特性、传播媒介的属性,都对汉字字形的创
新提出了需求和挑战,从事汉字字形设计与研究的专业队伍不断壮大,中文字体种类日
渐丰富;与此同时,在媒体的传播与推动下,热爱汉字、关注汉字字形的群体不断扩大,
汉字字形信息已经从一个小众领域逐渐走向大众视野。
1.2. 领域发展现状与关键科学问题
中文字库是艺术和技术的完美结合,其中每个汉字是设计师或书写者一笔一画设计
或书写出来的,在传情达意的同时,表达视觉审美含义,同时字库内部也包含控制字形
还原的代码,中文字库兼具美术作品属性和软件属性。
1.2.1. 字体美术作品著作权得到认可
中国中文信息学会一直多方呼吁加强字库知识产权的保护,2011 年学会发起了“弘
扬中华文化,保护计算机中文字体”的倡议, 2012 年、2014 年学会先后给国家相关部
4