搜索结果: 1-15 共查到“自动分词”相关记录15条 . 查询时间(0.129 秒)
北京大学信息科学技术学院自然语言处理导论课件第二章 中文文本的自动分词。
北京大学信息科学技术学院计算语言学概论课件第七章第一节 自动分词
北京大学信息科学技术学院 计算语言学概论 课件 第七章 第一节 自动分词
2015/1/28
北京大学信息科学技术学院计算语言学概论课件第七章第一节 自动分词。
本文首先阐述了汉语自动分词研究的现实性和可能性,接着围绕该研究中的三个基本问题(切分歧义消解、未登录词处理和语言资源建设)展开了重点讨论,并扼要评介了十几年来产生的各种方法。最后就这个领域未来的研究要点发表了一些个人意见。
中文自动分词·全文检索·统计工具
中文自动分词 全文检索 统计工具
2010/6/13
由南京师范大学语言科技研究所开发的"中文自动分词.全文检索.统计工具"的升级版已正式发布,请大家试用,并多提宝贵建议.
汉语文本自动分词算法的研究
自动分词 分词算法 字典 歧义切分
2010/1/28
分析了中文分词词典的机制,提出了一种改进的整词分词字典结构,并针对机械分词算法的特点,将其与概率算法相结合,探讨了一种中文自动分词概率算法。采用哈希及二分法对词典进行分词匹配。实验表明,该算法具有较高的分词效率和准确率,对于消去歧义词也有较好的性能。
面向中文自动分词的可扩展式电子词典研究
词典结构 自动分词 Hash
2009/7/14
在中文自动分词及词性标注系统中,电子词典是系统的重要组成部分,也是影响系统性能的重要因素之一。介绍了电子词典应该具备的查询功能及常用的组织结构,给出了一种结构为系统词典+用户词典的可扩展式电子词典机制。其系统词典是基于首字Hash散列的逐字二分词典结构,用户词典采用基于首字Hash散列的链接表词典结构,具有很强的扩展性和实用性。
利用覆盖歧义检测法和统计语言模型进行汉语自动分词
统计语言模型 覆盖歧义检测法 自动分词
2009/4/27
该文探讨了利用覆盖歧义检测法和统计语言模型进行汉语自动分词的问题。采用了多次迭代的方法来进行汉语词层面统计语言模型的训练。该方法能够得到更优化的语言模型。该文详细介绍了统计语言模型的训练过程,给出了语言模型复杂度随迭代次数增加而减小的实验结果。还给出了在不同的统计语言模型阶数下切分正确率变化的情况,分析了切分正确率变化的原因。
藏文自动分词系统的设计与实现
格助词 接续特征 藏文 自动分词
2009/1/22
藏文自动分词系统的研制目前在国内仍是空白。本文从四个方面详细报告了书面藏文自动分词系统的具体实现过程,内容包括系统结构、分词知识库的组织与实现以及分词策略、算法设计及其详细的自动分词过程实例。文章最后给出了实验结果,结果表明系统具有较高的切分精度和较好的通用性。
基于格助词和接续特征的藏文自动分词方案*
北京大学计算语言研究所
2008/3/26
本文结合藏文各类形态特征,首次提出了一种基于格助词和接续特征(BCCF, Based on Case-auxiliary word and Continuous Feature)的书面藏文自动分词方案。其总体技术特点是:在格助词、接续特征、字性知识库以及词典支持下,进行逐级定位的确定性分词。初步测试表明:这一方案在发现和消除切分歧义、解决未登录词问题,进而在提高藏文分词精度方面具有很高的实用价值。...
自动分词与词性标注评测
评测 词性标注 自动分词
2008/3/26
一、评测的指导思想 评估一个分词和词性标注系统的优劣有多方面的指标,如分词正确率、分词速度、歧义字段识别率、词性标注正确率、词性标注速度、人工干预性能、软件的易使用性和易维护性等。需要制定统一的定性或定量的标准去评测各个分词系统———词性标注系统。这是一次开拓性的工作,在我国还是第一次进行。因此,需要在起点低,尽量适应全国现有分词软件水平的原则下开展工作,为今后实现全面系统的评测迈开第一步。这次...
全二分快速自动分词算法构建
分词算法 汉语分词
2007/12/28
[摘要]分析现有分词算法存在的不足,在此基础上提出一种新的分词词典,通过为分词词典建立首字Hash表和词索引表两级索引,使得该分词词典支持全二分最大匹配分词算法,利用该分词算法进行自动分词,其时间复杂度实现了大的改善。
一种面向中文信息检索的汉语自动分词方法
中文信息检索 汉语自动分词 词典
2007/12/27
[摘要]阐述信息检索对汉语分词技术的要求,分析中文信息检索与汉语分词技术结合过程中有待解决的关键问题,并重点针对这些要求及关键问题提出一种面向中文信息检索的汉语自动分词方法。
汉语自动分词模式自动机构造研究
中文信息处理 汉语分词 模式自动机 二分查找
2007/12/27
[摘要]基于有限状态自动机,提出一种新型的有限自动机模型--模式自动机,并以该模型为基础,设计出一种新的汉语自动分词模型,给出构造汉语自动分词模型的核心数据结构和构造算法,并分析该分词算法的复杂度。
基于无指导学习策略的无词表条件下的汉语自动分词
汉语自动分词 无指导学习 汉字Bigram 互信息与t-测试的组合
2007/11/1
探讨了基于无指导学习策略和无词表条件下的汉语自动分词方法,以期对研制开放环境下健壮的分词系统有所裨益.全部分词知识源自从生语料库中自动获得的汉字Bigram.在字间互信息和t-测试差的基础上,提出了一种将两者线性叠加的新的统计量md,并引入了峰和谷的概念,进而设计了相应的分词算法.大规模开放测试结果显示,该算法关于字间位置的分词正确率为85.88%,较单独使用互信息或t-测试差分别提高了247%...