“厦门大学宋词语料库建立”实践报告
撰稿: 编辑: 发布时间: 2016-11-17
实践主题:宋词语料库建立
实践期限:2006年7月24日至2006年8月24日
实践地点:厦门大学海韵园
实践单位:厦门大学信息科学与技术学院
实践单位联系电话:0592-2580136
单位实践指导负责人:厦门大学信息科学与技术学院院长周昌乐教授
实践单位简要概况:厦门大学信息科学与技术学院的历史可以追溯到1922年。现下设计算机科学系、自动化系、电子工程系、通信工程系等4个系和电子信息研究所、智能图象与信息系统研究室、人口资源环境与地理信息系统研究中心、语言技术中心、系统与控制研究中心等5个校内研究机构,以及福建省批准设立的福建省集成电路设计工程技术中心。此外学院内部按二级学科共设立16个院内研究所,主要从事信息科学领域的应用基础研究和技术开发研究。目前学院教职工211名,其中专职教师139人,实验技术人员48人。博士生导师10人;教授29人,副教授42人;全院高级职务人数为82人。具有博士学位的教师35人,硕士学位78人,45岁以下的教师占80%。学院现有有2个博士点,10个硕士点,1个工程硕士点,5个本科专业。在校的本科生1601人,硕士研究生346人,博士研究生12人。目前学院承担着“十五”“211”重点建设项目—“电子信息技术”项目,在立体通信、智能信息处理、先进控制与制造业信息化、集成电路设计等方面开展多方面的研究,取得了丰硕的成果。学院还与物理与机电工程学院共同承担了 “九五”“211”项目“信息光电子材料与信息技术”子项目,已通过了国家教育部组织的验收,并获得高度评价。同时,学院也承担了一大批国家及地方纵向和横向科研课题,科研经费上千万元,对国家和地方的科研和经济的建设起了巨大的推动作用。
实践具体内容:今年暑假,我参加了由厦门大学中文系与厦门大学计算机科学与技术系合作的“厦门大学宋词语料库”建立工作。在嘉庚学院中文系主任苏新春教授、厦门大学信息科学与技术学院院长周昌乐教授和人工智能研究所所长史晓东教授等多位老师的关心和指导下,我们的工作取得了预期的成果,受到了老师们的好评。老师们不仅为我们提供了良好的工作条件:在宽敞明亮的厦门大学海韵园计算机实验室,每人都配备一台电脑,还在工作的过程中不断地在学术上给予我们悉心的指导和热情的鼓励。另外,厦门大学中文系语言班学姐和计算机科学与技术系的研究生学长们也给了我们很大的帮助。我也在这次的工作中,以苏新春教授给我们提出的要求为目标,有了很大的收获。在此,我将本次课题的内容和我从中得到的收获做一个报告。
我的工作时间是从7月24日至8月24日。在这一个月的时间里,我与我们班的三位同学、厦门大学中文系语言班一位学姐、厦门大学计算机科学与技术系四位硕士研究生学长和一位浙江大学计算语言学博士学长在厦门大学海韵园计算机科学与技术系人工智能研究所的一间名为“艺术计算与认知实验室”工作。计算机科学与技术系的研究生学长们设计了一个宋词切分标准软件,并建立了一个宋词数据库,这个据库采用ACCESS数据库来存储语料,采用JAVA编写的程序来管理数据库。具体建立的数据库属性字段和数据类型如下:(可以参见下面图一)
属性字段 数据类型
词ID 自动编号//词编号,数据库主键;
词牌 备注
标题 备注
引字 备注
作者 备注
首句 备注
原版生语料 备注 //从文件提取出来的宋词原记录;
生语料 备注
熟语料 备注
同一首词的不同记载 备注 //宋词中存在着同首词但不同文献记载不同的情况;
加工备注 备注 //记录语料库加工过程中的疑问问题;
加工者 文本
加工时间 时间
校对资料来源 备注
该数据库共包括宋词20214首,作者1472人,词牌1504个。它以北京卓群数码科技有限公司开发的《中华传世藏书》多媒体全宋词简体版为基础,结合南京师范大学建立的全宋词索引数据库,两个版本相互借鉴校对,以此来建立宋词生语料库。我们的工作就是把数据库中的生语料通过以词语为单位的切分和标注词性加工成熟语料。每次加工校对的时候,我们必须同时填写属性段“加工者”、“加工校对时间”、“校对资料来源”等内容。在生语料中,每首宋词都是一个接一个排列的,词与词之间没有间隔。加工后的语料,切分单位之间用“空格”隔开了。每个“斜杠”右边的字母表示左边的切分单位的词性。用“方括号”括起来的单位表示括号内的两个词组合在一起具有“词”的特性,即该词可分可合,里面分别标注组成的词的词性,外面标注词结构。为了得到高精度的加工结果,我们采取首先由机器进行初步切分,然后由对生语料进行切分和标注,最后再进行一遍人工复查的加工方式。在加工的过程中,通过参考《宋词鉴赏词典》、《稼轩词注》、《新释辑评》套书等参考书籍来对生语料进行校对加工形成熟语料,存储于属性段“熟语料”。加工的项目包括“词切分”和“词性标注”(包括具体人名标注和具体地名标注)。为此,学长们制定了《厦门大学宋词切分标注语料库基本加工规范》,从词义的整体性、词结构的整体性和定型性、具体的语言环境等标准和参考《宋词鉴赏辞典》、《宋词大辞典》、《现代汉语词典》等工具书来确定词切分的标准;我们吸取中国社科院、北京大学和台湾中央研究院等机构的研究成果,从适合计算机处理的角度出发,做了一些改动。把词分为13大类:名词n,动词v,形容词a, 数词m,量词q,代词r,副词d,介词p,连词c,助词u,叹词e,语气词y,拟声词o。名词类可以分为时间词t,方位词f,人名nr和地名ns。把词结构分为12大类:名词性并列结构CN、动词性并列结构CV、形容词性并列结构CA、动宾结构VO、动补结构VC、主谓结构SP、名词性偏正结构XN、动词性偏正结构XV、形容词性偏正结构XA、方位结构NF、数量结构MQ、介宾结构PO。现从标注语料库中摘录一段,示例如下:
生语料:
词牌:水调歌头
引子:公旧序云:“余去岁在东武,作水调歌头以寄子由。今年,子由相从彭门百余日,过中秋而去,作此曲以别余。余以其语过悲,乃为和之,其意以不早退为戒,以退而相从之乐为慰云。”
宋词:安石在东海,
从事鬓惊秋。
中年亲友难别,
丝竹缓离愁。
一旦功成名遂,
准拟东还海道,
扶病入西州。
雅志困轩冕,
遗恨寄沧洲。
岁月暮,
须早计,
要褐裘。
故乡归去千里,
佳处辄迟留。
我醉歌时君和,
醉倒须君扶我,
惟酒可忘忧。
一任刘玄德,
相对卧高楼。
经过加工的熟语料:
作者:苏东坡
词牌:水调歌头
引子:公旧序云:“余去岁在东武,作水调歌头以寄子由。今年,子由相从彭门百余日,过中秋而去,作此曲以别余。余以其语过悲,乃为和之,其意以不早退为戒,以退而相从之乐为慰云。”
宋词:安石/nrz 在/p 东海/ns ,/w
从事/v 鬓/n 惊秋/a 。/w
中年/t [亲/n 友/n]/CN 难/d 别/v ,/w
丝竹/n 缓/v [离/v 愁/n]/XN 。/w
一旦/d [功/n 成/v]/SP [名/n 遂/v]/SP ,/w
准/d 拟/v 东/f 还/v 海道/ns ,/w
扶病/v 入/v 西州/ns 。/w
雅志/n 困/v 轩冕/n ,/w
[遗/v 恨/n]/XN 寄/v 沧洲/ns 。/w
岁月/n 暮/a ,/w
须/v [早/d 计/v]/XV ,/w
要/v [褐/n 裘/n]/XN 。/w
故乡/n [归/v 去/v]/VC [千/m 里/q]/MQ ,/w
佳处/n 辄/d [迟/d 留/v]/XV 。/w
我/r 醉/v 歌/v 时/n 君/rh 和/v ,/w
[醉/v 倒/v]/VC 须/v 君/rh 扶/v 我/rh ,/w
惟/c 酒/n 可/v [忘/v 忧/n]/VO 。/w
一任/v [刘/nrf 玄德/nrz]/nr ,/w
相对/v 卧/v [高/a 楼/n]/XN 。/w
以上是我对这次课题做的简单介绍,下面我谈谈我在这次工作中的一些收获:
第一,通过这次的工作,我深刻地认识到了严谨的态度在学习中的重要性。在对宋词的切分过程中,由于大家各自对宋词的理解不同,对词类的划分标准也有自己的看法,这个连历代语言学家都争论不休的问题,我们却要根据计算机理解的需要,制定出统一的标准。庞大的生语料,十几个人不同的划分标准,这看来非常棘手的问题,我们却不能不很认真地对待。因为计算机如果不能理解我们加工地熟语料,以后任何的工作都不可能完成。如宋词辞典的编撰、宋词的计算机节律分析和朗读、宋词的计算机风格分析、宋词的计算机情感标注分析、宋词的计算机创作、宋词的机器翻译等。所以我们采取各自加工自己负责的生语料,每天晚上进行一次讨论,提出各自在分词标注中的看法,有时甚至会有激烈的争论。但我们对学科知识的理解却在激烈的讨论中得到了巩固。对于我们无法解决的问题,就通过邮件请教老师。这样,标准就在不断的更新中趋向统一,让计算机进行理解。
第二,通过这次的工作,也让我认识到了团队合作的重要性。宋词语料库的建立是一个很大很复杂的课题,在划分词语和标注词性上需要有统一的标准,必须设计一个适用的软件,必须选择既权威又有一定的量的参考书、必须找到庞大的生语料资源。这些都要求我们所有参与的人必须有团队合作的意识,绝对不能各自为政,不顾大局。既分工又合作,在各自完成自己的任务的前提下,又必须考虑到大家工作的一致性。比如在具体分工哪个人负责划分标注那些宋词的时候,虽然我们都知道有些词人的作品非常容易理解,但有些词人的作品则比较难懂,有些词人的作品是用当时标准的“官话”写成的,但有些词人在作品中却用了很多方言词。我们在工作中就不能专挑简单容易的来做,而是要服从于大局,具有团队合作的意识,不管自己的工作有多难,都要认真的完成。
第三,对学科最新研究领域的了解。这次我参加的课题,是由中文系与计算机系合作的,属于交叉学科的范畴。以前我对“计算语言学”的认识是模糊的,而对其中的“语料库语言学”的认识只是停留在老师上课时所做的介绍,并没有亲身体验过这个学科在研究时的具体操作过程,研究时会出现怎样的一些问题等。我只知道以经过加工的大规模语料库为基础的语料库语言学在语言研究和计算机科学研究中都取得了丰硕的成果,而不知道语料库是为什么样的形式出现在计算机中;只知道经过加工的语料库使得计算机能够从语料库中学习到大量的语言学知识,使得计算机具备更强大的语言处理能力,却不知道在这个过程中需要很多的人工干预来帮助计算机理解自然语言。通过这次的实践,我认识到了计算语言学这个学科最基本的研究方法和手段,在实践中验证了所学的知识,也认识到了语言学辉煌的发展前景。我现在可以很自豪地说,当初我选择了中文系,没有错!
第四,对学科知识的再认识。大一时的现代汉语课上,我知道了词类的划分标准问题一直是语法学的一大难题。在我国,经过了汉语学术界几次的大讨论之后,终于确定了划分词类的依据,即词的语法功能、形态和意义,其中主要的是语法功能。而在实际的应用上,我们却遇到了一些难题,有些词不好确定它的词类。我们又知道,从古代汉语词汇发展到现代汉语词汇,其中的一条规律是单音词逐渐向双音化发展,所以在分词的时候就要考虑到这条规律,不能把现代汉语的分词标准用在所要切分的宋词上。还要考虑到计算机的应用问题,以便于计算机更好的理解和处理这些语料。所以,在应用中加深了对所学知识的理解和认识。
第五,对学科框架的补充丰富。这点主要体现在宋词本身。在文学史和文学作品的学习中,我对宋词有了大致的了解,但并没有全面地接触宋词作品。以前所学是知识的框架和代表性作品。通过这次的实践,使自己的知识结构具体化了。这次实践我的任务是完成《宋词鉴赏辞典》的前半部分和《辛弃疾词》上册共420首的宋词切分标注。在对《宋词鉴赏辞典》中宋词的加工里,我对宋代词人的代表作品有了较为全面地阅读和理解,而对《辛弃疾词》的切分标注,也较为全面的阅读了辛弃疾的作品,对辛弃疾一生的经历和思想与其作品的关系有了较全面的把握。与上课时接受的古代文学理论相结合,即丰富了文学专业知识,又提升了语感。
第六,通过这次的实践,我也认识了很多不同专业的学长们,他们给了我在学习和为人上很大的帮助和启发。如我认识了一位中医博士,她的课题是计算机诊断。她利用休息时间,向我们介绍了许多中医的知识和计算机与中医结合的交叉学科方面的知识。让我们大开了眼界,又了解了许多课外的知识。
以上是我在这次宋词语料库的建立工作的总结报告。短短的一个月,时间虽然不长,但我却学习到了很多的东西,让我在学习上、工作上、个人能力锻炼与培养上、生活上都得到了很大的进步。与学长们之间融洽的相处更让我们之间建立了深厚良好的感情。我也要感谢苏新春教授、周昌乐教授和史晓东教授给我这次工作的机会,使我巩固了汉语的专业知识,学习了与专业相关的知识,锻炼了人际交往能力,丰富了暑假的生活。我将把这次工作的收获应用在今后的学习中,不断地提高自己,力争把每件事情都做到最好!