30255字硕士毕业论文汉语词典编纂大型通用语料库建设研究
30255 字硕士毕业论文汉语词典编纂大型通用
语料库建设研究
论文概述:
本文是语言学论文,笔者认为我国在面向辞书编纂的语料库建设这个领域还是相对比较薄弱,
并且所做的尝试也是非常有限的,要想理想而又相对比较成功的建设我们自己的面向辞书编纂
语料库
论文正文:
第一章引言 1.1 语料库建设的研究现状 1.1.1 中国语料库建设的研究现状中国语料库的发展呈现
出多元化趋势,特别是在过去十年中,不同类型的语料库发展迅速,包括普通语料库和特殊语
料库、文本语料库和语音语料库、古今汉语语料库、书面语料库和口语语料库、共时语料库和
历时语料库以及中介语语料库 近十年语料库发展的主要内容是普通语料库和特殊语料库的发展
在通用语料库中,影响最大、应用最广的是国家语委现代汉语语料库、北京大学现代汉语语料
库和北京大学现代汉语标记语料库。中国大陆、香港和台湾的汉语语料库在台湾海峡两岸三地
也发挥着重要作用。 1996 年,刘连元在《现代汉语语料库的发展》一书中详细介绍了现代汉
语语料库的建设 2004 年,金广金、肖航、丽芙和张云帆也在《现代汉语语料库的建设与深度
加工》中介绍了国家语委建立的现代汉语语料库的建设,强调从深度加工的角度进行分析和解
释。 国家语委《现代汉语语料库》建立于 2001 年初,是一个大型的全国平衡语料库,语料库
跨度近 100 年,数据库总容量为 1 亿字。 语料库包括三个广泛的领域:人文社会科学、自然科
学和综合,在这些领域下划分了 40 个子类别,涉及许多实际领域,如行政、礼仪和文件。
2002 年,俞石闻、段慧明、朱学峰和孙斌在《北京大学现代汉语语料库基本处理标准》中对北
京大学现代汉语语料库的建设进行了一定程度的解释 2009 年下半年,该库的总容量超过 7亿
字节。 它主要从口语和书面语的角度进行划分,还包括历史传记、应用文、报纸、电影、戏剧
等。 语料库也可以在互联网上自由共享,其检索方法也便于用户掌握与语料库来源相关的信
息。 本文描述的语料库规模是一个拥有2700 万汉字的现代汉语语料库,在基本处理过程中形
成了一定的标准。本文详细介绍了语料库的处理项目:分词和词性标注、专有名词标注(人名、
地名、组织机构名等)。) 、语素子类标注、动词和形容词的特殊用法标注等。 2000 年,段慧
明、余石闻等人的《大规模汉语标注语料库的开发与使用》从语言资源、制作汉语标注语料库
的必要性、大规模汉语标注语料库的制作、基于标注语料库的汉语分词系统、实验、准确度的
提高以及标注语料库的应用等七个方面对语料库的构建与使用进行了简明的阐述。1.2 研究的
意义和价值 1.2.1 空怀特(White to Fill the Theory of Chinese dictionary)从我国现有词典理论的角
度来看,一些现有的词典理论建设研究取得了很大进展,但从微观角度来看,这些理论大多是
“ ” “ ”在引进国外先进理论的基础上进行的,有些研究是基于 模仿 和追踪 的性质。然而,在这些
理论引入后,我们不能结合我国词典的实际发展,对其进行整合、消化和创新,提出自己的原
创性研究,建立一套适合我国词典编纂的现代原创性理论。 用观念来演绎当代词典的发展,在
一定程度上,一套系统的理论或观念支持将对词典的发展起到至关重要的作用。 当今世界的发
展已经进入信息时代,语言作为一种非常重要的资源必将影响我们生活的方方面面。 为了进一
步提高中国文化软实力的发展,我们不断加大对语言资源的开发和利用。 然而,汉语词典的编
纂不仅可以遵循传统词典理论的规则和规定,还可以引入更多新的现代词典概念,使词典编纂
成为开发和利用语言资源的重要途径。 建立大型通用词典编纂语料库可以使汉语词典编纂进一
步吸收和借鉴国外先进的词典编纂理念和各种语言学理论。 在构建语料库的过程中,我们不仅
可以更好地理解这些理论,还可以成功地将这些理论应用到实践中,并用它们来检验它们是否
符合我国词典建设的实际情况。 从某种意义上说,本研究弥补了传统词典理论的不足,为词典
编纂提供了新的理论支持,努力实现词典编纂的现代化。 因此,建立大规模的汉语词典编纂通
用语料库可以促进汉语词典的理论建设,填补空汉语词典理论的空白,不断为汉语词典的编纂
开辟新的领域。 1.2.2 为促进中文信息处理的发展,中文信息处理主要是指利用计算机技术处
理中文字形、读音和意义等信息。 换句话说,就是让计算机知道汉语,然后更好地记录汉语的
发展。 中文信息处理主要有两种方法: 统计方法和理解方法 在语料库统计的基础上,我们试图
使计算机加深对汉语的理解,最终过渡到基于理解的方法,使计算机的信息处理方法逐渐从经
验方法转向理性方法。 通过对标注信息和语料库标注方法的不断深入研究,我们可以更好地理
解汉语和理解汉语。 在计算机技术飞速发展的今天,为了更好地利用计算机技术来理解、处理
和生成自然语言,首先要做的是使计算机能够正确理解和分析自然语言。 这也促进了中国信息
处理的发展 中文语料库的建设,即计算机辅助词典的编写,是中文信息处理的重要组成部分。
摘要:
展开>>
收起<<
30255字硕士毕业论文汉语词典编纂大型通用语料库建设研究论文概述:本文是语言学论文,笔者认为我国在面向辞书编纂的语料库建设这个领域还是相对比较薄弱,并且所做的尝试也是非常有限的,要想理想而又相对比较成功的建设我们自己的面向辞书编纂语料库论文正文:第一章引言1.1语料库建设的研究现状1.1.1中国语料库建设的研究现状中国语料库的发展呈现出多元化趋势,特别是在过去十年中,不同类型的语料库发展迅速,包括普通语料库和特殊语料库、文本语料库和语音语料库、古今汉语语料库、书面语料库和口语语料库、共时语料库和历时语料库以及中介语语料库近十年语料库发展的主要内容是普通语料库和特殊语料库的发展在通用语料库中,...
相关推荐
-
2024年党建工作要点工作计划5篇供参考
2023-12-16 999+ -
2025年专题生活会对照带头严守政治纪律和政治规矩,维护党的团结统一等“四个带头方面”个人对照检查发言材料4110字文稿
2024-12-21 999+ -
2025年医保局局长、科技局领导干部专题“四个带头”方面对照检查材料2篇例文(附:反面典型案例剖析情况)
2025-02-09 451 -
2025年国有企业党委书记、市总工会党组书记民主生活会“四个带头”方面对照个人检查发言材料2篇文(附:典型案例、上年度整改+个人情况)
2025-02-09 503 -
2025年市委组织部部长、教育局党委书记生活会“四个带头”个人对照检查发言材料2篇文(典型案例+个人事项)
2025-02-09 619 -
2025年市财政局党组书记、局长、市检察院党组领导班子对照“四个带头”方面生活会个人对照检视发言材料2篇文(含以案为鉴反思、以案促改促治方面)
2025-02-09 501 -
市检察院党组、市财政局领导班子2025年生活会对照“四个带头”方面检视发言材料2份文【含以违纪行为为典型案例剖析】
2025-02-09 460 -
2025年市财政局领导对照“四个带头”生活会检视发言材料2篇例文【含以违纪行为为典型案例剖析】
2025-02-09 580 -
单位领导班子2025年聚焦“四个带头”生活会对照检查材料2篇文(含:典型案例剖析反思、落实意识形态责任制)
2025-02-09 748 -
2025年镇党委副书记、市科学技术局领导班子生活会对照“四个带头”检视材料2篇文【含违纪行为典型案例分析】
2025-02-09 254
作者:闻远设计
分类:课程设计课件资料
价格:免费
属性:3 页
大小:17.25KB
格式:DOCX
时间:2023-07-19

