弹出图片
校区首页 微博 微信 旧版
高级检索

当前位置: 网站首页  >  高教视野  >  正文

我国语言资源保护工程一期收集原始语料文件数据一千多万条——

最大规模语言资源库是如何建成的

发布日期:2021年04月27日 14:35 浏览次数:

日前,在教育部、国家语委召开的中国语言资源保护工程建设推进会上,中国语言资源保护工程首席专家、浙江师范大学教授曹志耘表示,我国已完成语言资源保护工程一期目标,建成了世界上最大规模的语言资源库和展示平台。

世界最大规模是如何建成的?海量的语言资源库数据,又将与社会生活发生怎样的联系?

高度组织:中国语保工程的显著特点

参与高校和科研机构达350多家,投入专业技术人员4500多名,语言方言发音人6000余人——语保工程一期的背后,留下这样一组数字。

这与国际上同类项目形成了鲜明对比,那些项目大多数由基金会、科研机构甚至个人组织实施,力量零散,难成规模。

在教育部和国家语委的领导组织下,语保工程确立了实施方案、管理办法和技术规范,编印出版《中国语言资源调查手册·民族语言》《中国方言文化典藏调查手册》等规范标准。项目实施过程中的培训、指导、检查、验收等也都有专业团队和技术人员把关。

北京语言大学的中国语言资源保护研究中心、中央民族大学的中国少数民族语言资源保护研究中心,是语保工程重要的依托平台。

中心以精湛的专业技术知识,为工程建设提供学术支撑,开展顶层设计,研制工程规划与规范。北京语言大学校长、中国语言资源保护研究中心主任刘利说。

中央民族大学副校长宋敏介绍,中国少数民族语言资源保护研究中心成立了由校内外专家组成的工作委员会,负责重大学术事务的审议决策,并探索形成了有利于联合攻关的中心项目负责人课题负责人三级项目管理体制。

中国语保工程的显著特点,就是国家工程的鲜明定位。党的坚强领导和政府统一规划组织,是语保工程得以顺利推进的重要因素。曹志耘说。

跋山涉水:对全国各语言方言开展科学系统的调查保护

看到经过长途跋涉来到自己面前的中国传媒大学人文学院教授李大勤及其团队,米古丽·米熊惊呆了。

米熊家住西藏察隅县西巴村,那里山高路远、闷热潮湿、环境封闭,传统语言为义都语。身为语保工程核心专家组成员,李大勤正是为此而来。

在李大勤的指导下,米熊成为义都语发音人,摄录设备记录下她的发音和吟唱。米熊很快明白了这份工作的意义:义都珞巴人现今仅有少数五六十岁的人会讲义都语,语保工程团队的到来,将为义都语的传承和保护提供有力支撑。

国际社会公认,语言多样性是人类重要的遗产,每一种语言都蕴藏着一个民族或群体的独特文化智慧,任何一种语言的消亡都是整个人类的损失。

据统计,5年来,语保工程覆盖全国1712个地点,调查123种语言和全部汉语方言,其中还包括若干种以前未有人调查过的语言和部分面临消亡的语言方言。收集原始语料文件数据1000多万条,其中音视频数据各500多万条,总物理容量达100TB。一大批濒危汉语方言和少数民族语言得到科学系统的调查保护。

语保工程对全国各语言方言开展了全面系统科学的抢救性调查记录,获得了海量的第一手原始语料。这批语料具有唯一性和不可迭代性,是无价之宝。曹志耘说。

深度开发:全面提升语言资源保护利用

进行深度开发应用,全面提升我国语言资源保护和利用的水平,是语保工程的主要目标之一。

2020年初,面对新冠肺炎疫情肆虐的严峻形势,中国语言资源保护研究中心统筹协调并运用语保工程的已有资源、专家团队和技术规范标准,参与研制抗击疫情湖北方言通,该中心与清华大学项目组合作研制的方言通微信版累计访问数逾3.2万人次,录音累计播放量逾39万次,为抗击疫情提供了有效的语言应急服务。

在大力推广国家通用语言文字的同时,要科学保护好汉语方言和少数民族语言资源,促进语言资源的开发利用。在中国语言资源保护工程建设推进会上,教育部副部长、国家语委主任田学军表示,要以更高站位、更宽视野、更大力度,推动工程二期建设高质量发展。

宋敏表示,中央民族大学将根据语保工程一期成果,开发相应语言教材,帮助和促进少数民族群众更加科学系统地学习国家通用语言文字,同时搭建民族语言资源智能收集平台,实现各民族语言资源的常态化智能收集,加快语言文化博物馆建设和文创产品开发。

记者了解到,二期工程将对此前调查收集的语言资源进行科学系统的整理加工和全面深度的开发应用,建成准确权威、开放共享的语言资源公共服务平台,产出系列标志性成果,全面提升我国语言资源保护和利用水平。同时,还将对一些持续濒危的语言方言开展调查保护,编写出版语言资源集、濒危语言志等。

 

作者:高毅哲   来自:中国教育报     责任编辑:张子兴、傅振国