“机器多义词甄别系统”实践报告
撰稿: 编辑: 发布时间: 2016-11-17
实践主题:机器多义词甄别系统
实践时间:2006年8月15日至2006年9月8日
实践单位:国家语言资源检测与研究中心教育教材语言分中心
实践小组人员:王天佐 (嘉庚中文06级)刘楠 (嘉庚中文06级)李安(研究生) 王珊(研究生)洪桂治(研究生)黄挺(嘉庚中文04级)
实践小组人员:王天佐 (嘉庚中文06级)刘楠 (嘉庚中文06级)李安(研究生) 王珊(研究生)洪桂治(研究生)黄挺(嘉庚中文04级)
单位实践指导负责人:苏新春教授(国家语言资源监测与研究中心教育教材语言分中心主任)
实践单位简要概况:
本中心是由教育部语言信息管理司与厦门大学共建的研究平台。本中心上级领导机构为“国家语言资源监测与研究中心领导小组”,领导小组由教育部、新闻出版署、广电部、信息产业部、国家版权中心、国家技术监督局等组成。本中心承担收集、管理、监测国家教育教材语言资源;对教育教材语言资源进行分析和研究;完成国家、部委规定的教育教材语言资源的相关科研项目,对项目实行立项论证、招标、管理、验收;向国家有关部门提供咨询,为制定标准和规范提供依据和参考等任务。
实践具体内容:
课题所要做的就是对词义进行消歧。即为多义词的不同义项的出现环境进行描写,但是这不是一般泛泛的描写,它具有一些特点:一、这种描写是为计算机进行义项判断而写的,我们对规则的描写必须是计算机可以理解的,对于分词、标注词性后的语料,计算机可以识别词、词性、词串;二、我们描述的是一个词的不同义项的区别特征,并不是要把一个义项与汉语中其他所有义项都区分开来,在确定规则的时候要紧紧抓住一个词形的不同义项之间的不同;三、我们的描述具有排他性,也就是说对于一个词的某个义项来说,我们定立的规则必须是唯一地指向这个义项的,不定义那些既是这个义项出现条件又是那个义项出现条件的规则。
我们小组主要是通过软件,对词义进行标注,来辨别多义词在不同环境中的区分。操作要经过以下步骤: 1搜索语料—> 2生成语料库-> 3查询语料-> 4选择规则-> 5规则定义-> 6应用规则的基本步骤。(可参见成果中的成果图)
我们小组每位成员要标注的词有200个,每个单词都会列出最大500条语料(语料来源为文学作品和平面媒体),我们的任务就是把这些语境归类,这样就可以知道一个多义词在语境中的意义。
课题达到的效果和意义:
我们工作的效果是把不同语料中的多义词进行了描写。这样计算机就可以识别不同语境中多义词的意义进而更好地识别自然语言。这样就减少了语境中对多义词释义模棱两可的现象。这种结果就可以对现代汉语中的词做出规则和定义,也可以方便对外汉语的教学。通过我们这段时间的努力,课题有了阶段性的成果。
在实践中的活动和理论问题:
在实践过程中,苏新春教授经常组织我们与各位硕士研究生共同探讨出现的问题。根据对30条样例的考察,及几次讨论得出一个基本的思路:1、相同词性的歧义词歧义情况有一定相似性,这次课题讲分词性进行,主要考察名词、动词、形容词、副词、区别词这几类实词;2、词义标注的指示信息大多是歧义词的前后搭配信息,这些搭配从语法上看和歧义词有不同的关系,从消歧规则的应用上看,可以利用他们的词形本身、词性、义类信息,而不同的词,即便是同一个词性在以上两个方面都是有很大不同的,这种不同将是我们这次课题的主要难点,也是产生问题的主要来源。
心得体会:
第一, 通过这次的工作,我深刻地认识到了严谨的态度在学习中的重要性;
第二, 通过这次的工作,也让我认识到了团队合作的重要性;
第三, 对学科最新研究领域的了解;
第四, 坚定了我们以后更加努力学习的信心,在以前的学习生活中,我们目标只是要考取研究生,觉得只有学习才能充实自己,可是谁不不了解考取研究生要付出什么样的艰辛。通过这次暑期的实践使我们明白了考取研究生要付出的努力,知道我们现在的知识还很不够,我们会以更多的努力投入到今后学习中。
以上是我们在这次机器多义词甄别系统工作的总结报告。将近一个月,时间虽然不长,但我们却学习到了很多的东西,使我们在生活、学习、工作、个人能力锻炼与培养等各方面都取得了很大的进步。与学长们之间融洽的相处更让我们之间建立了深厚的感情。我们也要感谢苏新春教授给我们这次工作的机会,使我们巩固了汉语的专业知识,学习了与专业相关的知识如“计算语言学、词汇学、词典学等”,锻炼了人际交往能力,丰富了暑假的生活。我们将把这次工作的收获应用在今后的学习中,不断地提高自己,力争把每件事情都做到最好