文学 >>> 应用语言学 >>> 计算语言学 >>>
搜索结果: 106-120 共查到计算语言学相关记录1238条 . 查询时间(0.515 秒)
句子语义分析是语言研究深入发展的客观要求,也是当前制约语言信息处理技术深度应用的主要因素。在探索深层语义分析方法的基础上,文章根据汉语的特点提出了语义依存图深层语义分析理论,并且根据这种理论,建立了一个包含30,000个句子的语义依存图库。以兼语句为重点研究对象,文章研究了语料库中所有纯粹的兼语句所对应的句模情况,进而试图构建基于语义依存图的句模系统,总结句型和句模的映射规则,从而为更好的建立语义...
该文提出了一种基于SVM和泛化模板协作的藏语人物属性抽取方法。该方法首先构建了基于藏语语言规则的模板系统,收集了包括格助词、特殊动词等具有明显语义信息的特征建设模板并泛化。针对规则方法的局限性,该文在模板的基础上,采用SVM机器学习方法,设计了一种处理多分类问题的层次分类器结构,同时对多样化的特征选取给予说明。最后,实验结果表明,基于SVM和模板相结合的方式可以对人物属性抽取的性能有较大提高。
信息的暴涨给文本处理带来了更多的挑战。话题检测能够把大量的信息以话题为单位有效地组织起来,然而最终用户有可能并不需要涉及某一话题的所有文本,而是仅仅关心该话题的具体内容。在我们根据相关文本智能表达话题内容推送给用户之前,自动从相关文本中挑选符合用户需求的文本是一个非常有意义的工作。本文致力于相同话题文本之间的内容比较,目的是有效地选出满足需求的文本。我们通过对话题进行重新定义,并根据此定义设定了话...
微博转发行为是实现信息传播的重要方式,微博转发预测对微博影响力分析、微博话题分析具有重要价值。现有微博转发预测研究大多围绕消息属性、用户属性等微博自身特征,本文提出融合热点话题的微博转发预测方法,对背景热点话题内容和传播趋势对用户转发行为的影响进行量化分析,提出融合背景热点信息的转发兴趣、转发活跃度、行为模式等特征,并基于分类算法建立了面向热点话题相关微博的转发预测模型,在真实数据上的实验结果表明...
在新闻领域标注语料上训练的中文分词系统在跨领域时性能会有明显下降。针对目标领域的大规模标注语料难以获取的问题,该文提出Active learning算法与n-gram统计特征相结合的领域自适应方法。该方法通过对目标领域文本与已有标注语料的差异进行统计分析,选择含有最多未标记过的语言现象的小规模语料优先进行人工标注,然后再结合大规模文本中的n-gram统计特征训练目标领域的分词系统。该文采用了CRF...
对外汉语教学领域,教材上的课文通常围绕一个话题展开,话题是教学内容的集中的体现,也与词汇、语法等不同层面的语言知识间有着密切关联。该文基于大规模教材语料库研究教学话题分类体系,设计了一个包含4个一级话题、23个二级话题和246个三级话题的三层话题框架,并据此对197册汉语经典教材中的5457个文段进行了人工标注及校对,构建了一个规模约12万句的面向对外汉语教学的话题语料库。为了更好地服务于汉语教学...
词义消歧一直是自然语言处理领域中的重要问题,本文将《知网》(HowNet)中表示词语语义的义原信息融入到语言模型的训练中。通过义原向量对词语进行向量化表示,本文实现了词语语义特征的自动学习,提高了特征学习效率。针对多义词的语义消歧,本文将多义词的上下文作为特征,形成特征向量,通过计算多义词词向量与特征向量之间相似度进行词语消歧。作为一种无监督的方法,本方法大大降低了词义消歧的计算和时间成本。在SE...
针对汉语篇章分析的三个任务:篇章单元切割、篇章结构生成和篇章关系识别,本文提出引入框架语义进行分析研究。首先基于框架构建了汉语篇章连贯性描述体系以及相应语料库,然后抽取句首、依存句法、短语结构、目标词、框架等特征,分别训练基于最大熵的篇章单元间有无关系分类器和篇章关系分类器,最后采用贪婪算法自下向上生成篇章结构树。实验证明,框架语义可以有效切割篇章单元,并且框架特征可以有效提升篇章结构以及篇章关系...
篇章机器翻译的首要问题是确定翻译单位。基于汉语和英语的语言知识和英汉翻译的实践,该文提出面向篇章机器翻译的基本单位和复合单位的双层单位体系,讨论了这两种单位支持篇章翻译应满足的性质,并据此勾画了篇章机器翻译的拆分、翻译、装配三步模型(PTA模型)。该文提出,汉语篇章机器翻译的复合单位为广义话题结构对应的文本块,基本单位则是根据广义话题结构流水模型得到的话题自足句;英语篇章机器翻译的复合单位为句号句...
目前基于词嵌入的卷积神经网络文本分类方法已经在情感分析研究中取得了很好的效果。此类方法主要使用基于上下文的词嵌入特征,但在词嵌入过程中通常并未考虑词语本身的情感极性,同时此类方法往往缺乏对大量人工构建情感词典等资源的有效利用。针对这些问题,本文提出了一种结合情感词典和卷积神经网络的情感分类,利用情感词典中的词条对文本中的词语进行抽象表示,在此基础上利用卷积神经网络提取出抽象词语的序列特征,并用于情...
通常复句关系分析基于分类机制,由于缺乏统一逻辑,面临不少分歧。本文提出基于特征结构描写复句关系。复句关系的特征结构由[特征:值]元组构成,本文初步构拟汉语复句关系的特征结构系统,并用于具体分析。较之分类机制,特征结构对复句关系的描写深刻,且分析判断准确、易行。目前特征结构系统开放,但特征调整,可以完善而不大量更改已有特征描写结果。特征结构可用于复句关系的深度语义分析资源构建与计算研究。
Web2.0时代,社会标签是信息资源组织的一种重要方式。标签推荐能够有效的帮助用户收集,定位,查找和共享在线资源。以往的标签推荐算法只是基于一种文本信息,比如基于电影的简介文本来进行标签推荐。但是实际上电影往往存在多种文本信息,比如同时存在摘要信息和评论信息,不同类型的信息能够反映电影的不同方面的属性,因此为了提高电影标签推荐的准确率和有效性,我们同时根据电影的简介和短评进行电影标签自动推荐,并使...
命名实体的翻译等价对在跨语言信息处理中非常重要。传统抽取方法通常使用平行语料库或可比语料库,此类方法受到语料库资源的质量和规模的限制。在日汉翻译领域,一方面,双语资源相对匮乏;另一方面,对于汉字命名实体,通常使用汉字对照表;对于日语纯假名的命名实体,通常采用统计翻译模型,此类方法受到平行语料库的质量和规模的限制,且精度低下。针对此问题,该文提出了一种基于单语语料的面向日语假名的日汉人名翻译对自动抽...
针对汉语词法分析中分词、词性标注、命名实体识别三项子任务分步处理时多类信息难以整合利用,且错误向上传递放大的不足,提出一种三位一体字标注的汉语词法分析方法,该方法将汉语词法分析过程看作字序列的标注过程,将每个字的词位、词性、命名实体三类信息融合到该字的标记中,采用最大熵模型经过一次标注实现汉语词法分析的三项任务。并在Bakeoff2007的PKU语料上进行了封闭测试,通过对该方法和传统分步处理的分...
命名实体在文本中承载信息的重要单元,正确分析存在歧义的命名实体对文本的理解起着关键性作用。该文提出基于多源知识和Ranking SVM的中文微博命名实体链接,结合同义词词典、百科资源等知识产生初始候选实体集合,同时从文本中抽取多种组合特征,利用Ranking SVM对候选实体集合进行排序,从而得到目标实体。在NLPCC20141中文微博实体链接评测数据集上进行了实验,获得了89.40%的平均准确率...

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...