搜索结果: 1-9 共查到“计算语言学 统计”相关记录9条 . 查询时间(0.629 秒)
文言信息的自动抽取:基于统计和规则的尝试
文言标注 文本分类 规则模型 统计模型
2016/2/24
文言信息的自动抽取有利于语言监测和语料库构建。同时本文的计算研究也验证了语言学界关于汉语文白系统连续性的自省结论。本文将从混合语料中标注文言文的问题视为短文本分类的问题进行处理。使用基于规则和基于统计的方法对文言文、白话文本进行分类。基于规则的方法中,本文考虑文言常用虚词和句式的影响。在基于统计的分类方法中,本文对N-gram、朴素贝叶斯、最大熵、决策树模型的性能进行了研究。结果表明监测虚词系统的...
多领域中文依存树库构建与影响统计句法分析因素之分析
依存树库 领域迁移 依存句法分析
2016/2/24
为提升依存分析并分析影响其精度的相关因素,该文构建了大规模中文通用依存树库和中等规模领域依存树库。基于这一系列树库,通过句法分析实验考察质量、规模、领域差异等因素对中文依存分析的影响,实验结果表明:(1)树库规模和质量均与句法分析精度成正相关关系,质量应先于规模因素被优先考虑;(2)通用树库和领域树库之间的差异程度与前者对后者的替代性成相关关系;(3)两种树库混合使用的效果同样与领域差异有关。
统计句法分析建模中基于信息论的特征类型分析
统计句法分析 信息论 概率建模 特征类型分析
2009/2/20
统计句法分析利用概率评价模型评价每棵候选句法树存在的可能性,选择概率值最高的候选句法树作为最终的句法分析结果。因此,统计句法分析的核心是一个概率评价模型,而各种概率评价模型的本质区别主要在于它们分别是根据上下文中的哪些特征来赋予句法树概率的。
在统计句法分析研究领域,虽然已经提出了大量的概率评价模型,然而,不同的模型用到了不同类型的特征。如何评价这些特征类型对于句法分析的作用呢?针对以上的问题,...
从句子长度看新闻语体和小说语体—— 一个从统计得来的结果
句子长度 新闻语体 小说语体
2009/2/19
由于信息传递的目标、接受对象以及谈及内容的差异,使得不同的语体都烙上了“特别的”语言特征(linguistic features)。新闻语体面向公众发布消息,这使得它的行文比较正式、语法比较规范、词汇书面化。小说语体面向个人讲述故事,这使得它的行文比较随意、语法不很规范、词汇口语化。句子长度是语言特征的一个表现。长句信息丰富,表述严谨;短句活泼、明快。本文从句子长度这一角度出发,来考察新闻语体和小...
唐宋诗中词汇语义相似度的统计分析及应用
词义相似度 词义联想 概念检索 唐宋诗
2009/2/9
基于上下文的词汇向量空间模型可以用来近似的描述词汇的语义。在此基础上定义的词汇相似或聚类关系可以应用于词典编撰、智能搜索引擎的开发等许多领域。本研究1基于640万字的唐宋诗语料,在进行多字词计算机辅助提取的基础上,定义了相应的词汇语义的统计表达。建立了词汇相似关系的语义网络。开发了具有词义联想功能的面向概念的唐宋诗搜索引擎。实际验证达到了实用水平。
本文综述了基于信源信道思想和基于最大熵思想的统计机器翻译方法并介绍了统计机器翻译的评测方法。基于信源信道的方法将翻译概率表示为一个语言模型和一个翻译模型。而基于最大熵的方法则是利用一系列实数值特征函数的线性组合来求解最优的译文。基于最大熵的统计机器翻译方法比基于信源信道的方法更具有一般性,后者可以看做前者的一个特例。
规则和统计相结合的汉语词类标注方法
词类标注 规则和统计相结合 语料库加工
2009/1/16
本文分析了汉语的多类词现象与汉语词类标注的困难,介绍了汉语词类标注中的规则排歧和统计排歧的处理策略以及规则和统计相结合的处理思路。按此思路设计的软件系统,对封闭语料和开放语料的标注正确率分别达到了96.06%和95.82%。