文学 >>> 应用语言学 >>> 计算语言学 >>>
搜索结果: 136-150 共查到计算语言学相关记录1238条 . 查询时间(0.404 秒)
由于对越南语的研究工作相对比较少,因此还没有建立规模相对较大的依存树库。相对于已经拥有了形态丰富、语料成熟的汉语,越南语的依存句法分析要困难的多,所以本文提出了一种借助汉—越双语词对齐语料构建越南语依存树库的方法。首先对汉语—越南语句子对进行词对齐处理,然后对汉语句子进行依存句法分析。最后结合越南语本身的语言特点和有关的语法规则将汉语的依存关系通过汉—越双语词对齐关系映射到越南语句子中,从而生成越...
本文针对大陆、香港和台湾地区(简称大中华区)存在同一种语义但采用不同词语进行表达的语言现象进行分析。首先,我们抓取了维基百科以及简繁体新闻网站上的3,200,000万组大中华区平行句对,手工标注了一致性程度达到95%以上的10,000组大中华区平行词对齐语料库。同时,我们提出了一个基于word2vec的两阶段的大中华区词对齐模型,该模型采用word2vec获取大中华区词语的向量表示形式,并融合了有...
在机器译文自动评价中,匹配具有相同语义、不同表达方式的词或短语是其中一个很大的挑战。许多研究工作提出从双语平行语料或可比语料中抽取复述来增强机器译文和人工译文的匹配。然而双语平行语料或可比语料不仅构建成本高,而且对少数语言对难以大量获取。我们提出通过构建词的Markov网络,从目标语言的单语文本中抽取复述的方法,并利用该复述提高机器译文自动评价方法与人工评价方法的相关性。在WMT'14Metric...
作文跑题检测任务的核心问题是文本相似度计算。传统的文本相似度计算方法一般基于向量空间模型,即把文本表示成高维向量,再计算文本之间的相似度。这种方法只考虑文本中出现的词项(词袋模型) ,而没有利用词项的语义信息。本文提出一种新的文本相似度计算方法:基于词扩展的文本相似度计算方法,将词袋模型(Bag-of-Words)方法与词的分布式表示相结合,在词的分布式表示向量空间中寻找与文本出现的词项语义上相似...
文本提出了一种基于感知器的中文分词增量训练方法。该方法可在训练好的模型基础上添加目标领域标注数据继续训练,解决了大规模切分数据难于共享,源领域与目标领域数据混合需要重新训练等问题。实验表明,增量训练可以有效提升领域适应性,达到与传统数据混合相类似的效果。同时本文方法模型占用空间小,训练时间快,可以快速训练获得目标领域的模型。
维基百科实体分类对自然语言处理和机器学习具有重要的作用。本文采用机器学习的方法对中文维基百科的条目进行实体分类,在利用维基百科页面中半结构化信息和无结构化文本作为基本特征的基础上,结合中文的特点使用扩展特征和语义特征来提高实体分类性能。在人工标注的语料库上的实验表明,这些额外特征有效地提高了ACE分类体系上的实体分类性能,总体F1值达到96%,同时在扩展实体分类上也取得了较好的效果,总体F1值达9...
该文利用定量和定性分析相结合的方法, 考察了现代汉语双音节形名复合词的物性修饰关系, 发现形语素有选择地约束名语素的不同物性角色。当形语素修饰名语素的形式角色或构成角色时,语义解读时常需要补充名词;当形语素修饰名语素的施成角色、功用角色或规约化属性时,语义解读时常需要补充动词。形名复合词的语义建构是物性结构和概念整合共同作用的结果,当形语素激活的物性角色或物性值不
本文用“图”这一数学工具,通过定量分析来揭示语言系统中的隐性规律。 设计了赢家通吃和赢多输少两种生成算法,将理想算法“步步竞争、择优而行” 的博弈论思路贯彻到非理想状态。两种新算法都较前人有更好的概括能力。 赢多输少算法更兼顾了充分概括和适度概括均衡。 生成语图后设计着重准确率的最小简图和着重覆盖率的最大简图归纳算法, 挖掘控制的主流规则、分析语言系统的语言学规律。在
本文提出一种基于词汇模糊集合的模糊推理机以识别汉语主观句。首先,根据主、客观词概念的模糊性,我们定义了两个相应的模糊集合,并在模糊统计方法下,利用TF-IDF从训练语料中获取隶属度函数。然后制定了两个模糊IF-THEN规则,并据此实现了一个模糊推理机以识别汉语主观句。NTCIR-6中文数据上的实验结果表明我们的方法具有一定的可行性。
复杂网络技术的发展为大数据时代的语言研究提供了新的视角。网络方法应用到语言研究的重要目的是探索语言网络的结构特征规律和功能演化规律。本文综述了以图论为基础的复杂网络发展及社会网络、语言网络的主要数学模型,试图从复杂网络共性特征——小世界、无标度特征中进一步剥离出语言网络的个性特征,为语言符号多层级网络结构、功能研究提供参考。
针对汉越双语新闻事件线索分析,提出了基于全局/局部共现词对分布的汉越双语事件线索生成方法。该方法首先将新闻话题词语分布作为全局词语表征全局事件,然后用一定时间粒度下新闻片段特有的时间、人物、地点等事件元素作为局部词语,分析新闻片段中全局词语和局部词语的共现关系,将全局/局部词语的共现规律作为监督信息,结合RCRP算法和汉越双语新闻的对齐语料,构建有监督话题生成主题模型,获得相应时间跨度下代表事件发...
本文以金庸与古龙的小说作为语料,从计算风格学的角度考察二人的风格差异。对比了两人小说的文本从众性、句子破碎度,同时,使用文本聚类的方法对词和词类的N元文法,标点符号的N元文法以及多种特征的总体情况进行了考察,还使用主成分分析和文本分类对八种特征从总体上进行了比较,结果证实金庸与古龙小说风格存在较大差异:金庸小说从众性大于古龙,较多使用俚语方言,口语性更强,同时在语法结构、短语结构、文本节奏以及文本...
该文主要讨论名词的词义描写和研究问题。首先通过对几种主要的词汇语义学理论(包括结构主义语义学、生成主义语义学、概念语义学和自然语义元语言理论)进行介绍和评述,指出它们在对名词进行语义刻画方面存在缺陷和不足;然后,重点引入生成词库理论的物性结构的描写方式,阐明它与前几种理论的区别及其自身的特点;最后,在生成词库理论的基础上,展示物性结构知识在有关名词分析中的四个研究案例(词语缺省、隐喻义生成、供用句...
为提升依存分析并分析影响其精度的相关因素,该文构建了大规模中文通用依存树库和中等规模领域依存树库。基于这一系列树库,通过句法分析实验考察质量、规模、领域差异等因素对中文依存分析的影响,实验结果表明:(1)树库规模和质量均与句法分析精度成正相关关系,质量应先于规模因素被优先考虑;(2)通用树库和领域树库之间的差异程度与前者对后者的替代性成相关关系;(3)两种树库混合使用的效果同样与领域差异有关。
Christopher Manning is a professor of computer science and linguistics at Stanford University. His Ph.D. is from Stanford in 1995, and he held faculty positions at Carnegie Mellon University and the U...

中国研究生教育排行榜-

正在加载...

中国学术期刊排行榜-

正在加载...

世界大学科研机构排行榜-

正在加载...

中国大学排行榜-

正在加载...

人 物-

正在加载...

课 件-

正在加载...

视听资料-

正在加载...

研招资料 -

正在加载...

知识要闻-

正在加载...

国际动态-

正在加载...

会议中心-

正在加载...

学术指南-

正在加载...

学术站点-

正在加载...