首 页 工作机构 法规·标准 语文工作 科研工作 学术交流 培训测试 中文信息处理 语文博物馆 网上服务 百家论坛 图片·视频
信息浏览
首页 >>>语言资源检测研究
回首页 返回首页 放入收藏夹 放入收藏夹 打印 打印 语言资源监测研究 语言资源监测研究 关闭窗口 关闭窗口



《中国语言生活状况报告(2007)》(下编)编后赘语

 

王铁琨


 

北京城正在举办2008年奥运会,我们却在京城一隅忙着审校《中国语言生活状况报告(2007)》(下编)书稿。记不清这是第几次打磨了,只记得从调查项目确定,到语料抽取、数据处理,再到报告撰写,再到反复修改定稿,刚好一年。这一年真的很辛苦!

2007年度的数据发布任务,是在上一年度数据发布会刚一结束即研究确定的,期间几乎没有一点儿喘息的时间。816,上午出席完“2006年中国语言生活状况报告”新闻发布会,下午马不停蹄地参加国家语言资源监测与研究中心第三次工作会议,虽然有些辛苦,却使外地同志减少了往返北京的劳顿,节省了差旅费用。当天中午,当国家语言资源监测与研究中心五个分中心的业务负责人齐聚京郊某宾馆时,大家顾不得庆祝发布会圆满成功,立即转入新的工作项目的研讨。三天的会议形成共识:监测研究工作要做到滚动推进、可持续发展,必须坚持反映语言实态,发布的项目和内容一定要动态、稳态兼顾,变与不变结合。每年抽取的语料必须保持“量”和领域的相对稳定,以确保年度之间数据的可比性;每年都要保留一些常规的调查项目(包括字表、词语表等),这样虽然发布的是年度语言使用的共时情况,积累起来就会形成可以进行历时比较的珍贵资源;每年也都要尽可能拓展、开发一些体现“语言与社会共变”的新的调查项目,但新项目不宜过多,应紧紧依托技术手段的改进量力而行,在记录语言使用实态的过程中努力体现出技术“实态”的最新进展。惟其如此,才会逐步形成历时资源,监测研究工作也才能稳步推进。根据上述原则,会议确定了2007年度报告将要发布的主要项目、工作分工、质量要求和时间表。此后的工作大体上照此进行。

针对新词语自动提取、计算机自动分词标注系统的改进和下编术语表的编制等迫切需要研究解决的问题,20071127-29日,教育部语言文字信息管理司在北京召开了2007年度数据发布专题研讨会。除参与下编工作的国家语言资源监测与研究中心五个分中心人员外,会议特别邀请了于根元、李行健、周洪波、周荐、董琨、俞士汶、孙茂松等专家参与相关议题的讨论,并在多数议题上取得较为一致的意见。2008129-31日,教育部语言文字信息管理司在福建召开下编报告起草研讨会,当时南方正遭遇百年不遇的严重冰雪灾害,平面媒体语言、有声媒体语言、网络媒体语言、教育教材语言四个分中心和商务印书馆的同志仍克服困难出席会议。会议讨论了部分初稿,交流了相关数据,确定了各领域的语料规模和各专题的写作重点,要求各分中心抓紧时间完成数据处理和初稿撰写,于310日前提交报告初稿,做到“执笔人自己满意,审阅人审读认可,分中心负责人检查把关”。

3月份开始,报告进入审稿阶段。因下编需要在完成全年的语料处理后才开始撰写,成稿时间自然会迟一些,初稿在数据处理、图表编制和文字表述等方面就显得比较粗糙,所以除参加教育部语言文字信息管理司3月底在浙江、5月初在北京召开的两次专家审稿会外,下编于4月底和5月底分别增开了两次审稿会。在上述审稿会上,我们尝试采用“推磨”的方式由有关执笔人交叉审稿;同时分别邀请陈章太、陆俭明、戴庆厦、李宇明、李行健、于根元、俞士汶、孙茂松、朱学锋、马真、周洪波等专家,审读部分专题报告和图表。审稿专家们认真核对每一个数据、图表,逐字逐句推敲报告内容和术语,提出了很多有价值的修改意见,大大提升了下编的内容和质量。此外,我们还请于根元、周洪波、周荐、刘一玲、晁继周、李志江等帮助审查年度新词语稿件,请教育部基础教育司帮助审查了《基础教育语文新课标教材用字用语调查》稿件,他们的建议和审读意见也使报告的相关内容增色不少。6月底,我和责任编辑魏励同志将稿件全部修改完毕并交付排版,8月中旬审读校样后定稿付梓,至此,《中国语言生活状况报告(2007)》(下编)终于划上了句号。

此项工作尽管难度大,但在国家语言资源监测与研究中心五个分中心的共同努力下,2007年度报告下编与20052006年度相比,仍然有一些新的亮点。比如,今年增加的《年度关键字、词语及解读》,篇幅虽然不长,却客观反映了“用一个字一个词描述2007年的中国与世界”网络征集活动及其主要成果。《基础教育语文新课标教材用字用语调查》,选取人教版、苏教版、语文版和北师大版四种“发行量较大、使用范围较广、影响面较大”的九年制新课标语文教材,进行字、词语和句型的统计分析,所得数据颇值得语文教育界和教材出版界进行多方面、多角度的思考。即使是前两年都做过的常规项目,如《报纸、广播电视、网络(新闻)用字用语调查》《报纸、广播电视、网络(新闻)年度流行语》《中文网络用字用语调查》等,也在语料规模上进行了宏观把握,增加了一些以往没有的调查和比较项目,所公布的数据在广度和深度上都有所拓展、加深。其中,年度流行语发布时,尝试采用通过门户网站现场直播和“在线访谈”等形式,答疑解惑,产生了广泛而良好的社会影响。

相比之下,2007年度报告下编更加注重研究方法的改进和技术含量的提高。比如《报纸、广播电视、网络(新闻)年度新词语》篇,先采用计算机对10亿字次调查语料进行新词语候选词的自动提取,在此基础上再进行人工排查和确认,研究方法和技术路线明显带有信息时代新词语研究的特点。为了把工作做得细致充分,我们还将初选出来的425条新词语在门户网站上先行公示,请网友们充分发表意见,从而扩大了广大群众的参与度。后经专家审订,最终确定公布的年度新词语为254条,除专题报告详细说明年度新词语的提取方法外,附表还对每条新词语加上“释义或提示”和书证(例句),及其在语料库中出现的频次和文本数,以帮助读者理解这些新词语并了解它们的使用状况。这样处理,体现了“以人为本”的科学精神和“服务社会”的全新理念。

整理、统一下编的术语,也是我们尝试进行的一项重要工作。语言资源监测研究属于交叉学科性质,报告撰写中使用了不少术语。这些术语及定义多数学术界本已有之,但因分属于不同学科而不便查找使用,有的是基于监测研究实践中的某些新的认识而逐渐形成的一些专门的、比较凝固的、需要经常使用的词语,我们也姑且称之为“术语”。20052006年度各篇报告在使用这些术语时,往往需要分别作出解释,尽管统稿时做了一些技术上的加工,但“词形不统一、涵义不确定”的现象依然存在。为了解决术语不统一所带来的困惑,同时也为了方便读者阅读和使用本编报告和数据,我们从20078月起便着手进行术语整理、统一工作。现在公布的108条《语言资源监测与研究相关术语》,即是第一批成果,其中的“提示性释义”,主要反映研究团队目前的一些理念和认识。术语表确定后,要求全书严格使用统一的术语,且术语出现时一般不再分别进行诠释说明。需要指出的是,此次术语整理只是一次尝试,并非作为学术规范提出。术语的界定常常见仁见智,难度很大,我们会继续做下去,努力使每年术语的“升级版”不断得到完善。

《中国语言生活状况报告(下编)》连续编写了三年,原以为会越编越顺利,实际上越编越难,这一方面是因为我们不断给自己提出新的、更高的要求,另一方面则是由于随着研究的逐步深入,需要思考和改进的地方越来越多,我们也越发深切感受到自身知识结构的欠缺和不适应。这三年,我们实际是在不断闯“关”、不断突破自我中一步一步艰难地往前走。在前进的步履中,我们也感受到成长,感受到充实!这是最可宝贵的。在这里,我谨代表教育部语言文字信息管理司感谢国家语言资源监测与研究中心各分中心的每一位成员,没有他们踏踏实实、富有成效的工作,不可能完成这样艰巨的工作任务。我还要特别感谢一直全力帮助我们的各位前辈学者和审稿专家,感谢商务印书馆,正是他们的支持和鼓励,帮助我们走过了这段艰难的路程。

教育部副部长、国家语委主任赵沁平一向重视基于数据分析的战略研究,他非常关注我们所进行的语言资源监测研究工作,参加了“2006年中国语言生活状况报告”新闻发布会的全过程,使我们倍受鼓舞。令我们深受鼓舞的还有来自学术界和社会上的支持。每年发布年度报告时,我们都很快得到国内外各种报纸、广播电视和网络等媒体的积极反馈,报道、评论不胜枚举,一时形成热点。近两年,海外同行纷纷对我们的《中国语言生活状况报告》表示肯定和赞许,认为中国能够做成这件事情很不简单,显示出一种负责任的态度和开放的学术姿态。不但发布的数据有价值,且“珍爱语言资源”的观念很新,希望能够将相关数据翻译成外文出版,有些国家还表示将借鉴我们的做法。报告提供的大量数据,还被许多语言学者(包括研究生)、教育工作者等作为追踪研究的素材,有的从中发现了新的课题,写出了有分量的论文。教材编写、语文工具书编纂者也注意参考报告下编的数据,如《常用汉字581》(王永强主编,语文出版社,2006)就是依据《中国语言生活状况报告(2005)》覆盖该年度全部语料80%时的581个汉字编写的,《汉语800字》(许琳、姚喜双主编,外语教学与研究出版社,2007)的编写也参考了0506年度的数据。我们发布的“汉语作为第二语言教材前1500条高频词语表”被国家汉语国际推广领导小组办公室编的《国际汉语教学通用课程大纲》(外语教学与研究出版社,2008)收入,成为大纲的有机组成部分。商务印书馆利用去年发布的171条汉语新词语词条,出版了周荐主编的《2006汉语新词语》,中国工人出版社也利用同样的资源,出版了杜忠明的《新词酷——171汉语新词语笔记》。还有一些有心人,注意到20052006两个年度覆盖全部语料90%时使用的汉字分别是934958个,他们以此为基础略作增减,编写了《华夏辞——学千字、汉语通》(刘寿永、刘江著,北京教育出版社,2008),一时传为佳话。看来,《中国语言生活状况报告》(下编)的研究成果和相关数据,确实对语言资源的开发利用和“珍爱语言资源”理念的形成,发挥了应有的作用。我们由此而感到欣慰!

现在《中国语言生活状况报告(2007)》(下编)即将出版,恳请各位读者和方家不吝赐教,帮助我们不断改进工作,提高质量。作为一项新事物,三年来我们实际上一直在探索、实验,现在则到了该认真回顾、总结的时候。我想,加上不久前刚成立的少数民族语言分中心,国家语言资源监测与研究工作已经形成了较为完整的系列,但是,各分中心如何有效地开展工作,中心的体制和运行机制如何保障和完善,怎样通过必要的方式解决各分中心之间发展不平衡的问题等等,都需要很好地研究。三年了,回过头来看当初确定的监测目标和读者定位,需不需要作出适当的调整,具体实施中有没有偏离目标、定位的地方,如何进一步提高数据和报告的读者关注度等等,也需要认真思考。还有,《中国语言生活状况报告》是一个有机整体,上、下编需要照应衔接,下编如何主动地为解决这个老问题做出自己的贡献,也需要思考。以上提到的这几个问题,希望能够成为国家语言资源监测与研究中心第四次工作会议上研讨的重点议题。 

 

 

(本文系作者为《中国语言生活状况报告(2007)》(下编)所写的后记,有删改。该书已由商务印书馆于200811月出版)

 

                     



来源:
[上传时间:2009-01-14]
相关链接:
· 关键字:王铁琨
· 语言使用实态考察研究与语言规划
回首页 返回首页 放入收藏夹 放入收藏夹 打印 打印 语言资源监测研究 语言资源监测研究 关闭窗口 关闭窗口