文档视界 最新最全的文档下载
当前位置:文档视界 › 用C#NET构建数字图像处理系统(060108)

用C#NET构建数字图像处理系统(060108)

用C#NET构建数字图像处理系统(060108)
用C#NET构建数字图像处理系统(060108)

WordNet发展概况

一、WordNet发展概况 ·关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。 ·这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。 ·另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。 ·第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。 ·建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅https://www.docsj.com/doc/4810401685.html,ler在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。 ·到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。 ·在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。 ·在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM 公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在

一个在线义类词库:词网WordNet

https://www.docsj.com/doc/4810401685.html,/paper_110583811_1/ 论文标题:中文信息处理专题研究:语义研究 一个在线义类词库:词网WordNet 论文作者陈群秀 (论文关键词,论文来源语言文字应用,论文单位京,点击次数184,论文页数69~104页1998年1998月论文网https://www.docsj.com/doc/4810401685.html,/paper_110583811/ 计算机的自然语言理解和处理,依赖于计算语言学的研究成果。) 与计算词汇学和计算句法学相比,计算语义学是计算语言学领域里一门比较年轻的学科。相对而言,句法分析的理论和技术发展得比较成熟、完善,而语义分析的理论和技术起步比较晚,尚处于探索阶段,空白点较多而且难度最大。目前,自然语言理解正处于一个关键时期,处在取得重大突破的前夜,而语义研究领域的进展和突破对全局的进展和突破有至关重要的作用。语义包括词汇义、句义、篇章义等,其中最根本最重要的是词汇义的研究。词汇义的研究和表示的方法有多种,很重要的一种是语义分类。人读的义类词典几乎各国都有,机读的(即信息处理用的)义类词典在日本、美国等先进国家也都有研究或成果。在国内外同类课题中,最著名的是普林斯顿大学Miller等人研制的英语词网数据库WordNet。该词网旨在从心理语言学角度建立英语词汇基本语义关系的实际模型。本文简要介绍这个在线的义类词库。 一词网WordNet的概况 WordNet是一个在线词汇参照系统(在网上可机读的英语词库),是一个基于心理语言学原则的机器词典。WordNet用大家熟悉的拼法来表示词形,用同义词集Synsets(在一定上下文中可以互换的同义词形的列表)来表示词义。有两种关系:词汇的和语义的。词汇关系存在于词形间,语义关系存在于词义间。通常的人读词典或机读词典是按字母顺序组织词汇信息,将拼写相似的词放在一起,而让意思上相近的或相关的词随意地散置。WordNet 则想为广大读者依概念而不是依字母顺序查找词典获取词汇语义知识提供帮助。WordNet 目前包含大约95600个词条(51500个简单词和44100个复合词,它们被组织成约70100个词义或同义词集),描写了上下位、同义、反义、部分—整体等词汇语义关系。有一些国家将WordNet进行了本地化。 WordNet和一个标准的词典之间的最明显的区别就在于WordNet将所有英语词汇分成五类:名词、动词、形容词、副词和功能词。实际上,WordNet只包含名词、动词、形容词和副词。相对来说较小的英语功能词集被省略掉了,这是基于它们可能被作为语言的语法成分的一部分单独存放的假设。名词在词汇记忆中被组织成主题的层次,动词被组织成各种推演(蕴涵)关系,而形容词和副词被组织在N维超空间中。

基于统计词语关联度网络自动构建方法

基于统计词语关联度网络自动构建 方法 1引言 词语语义知识是众多的必要语言知识中一个重要的部分,它的丰富和完善对于计算机自然语言处理能力的提升具有重要的意义。目前较为成熟的语义词典在英语方面有WordNet[1]、FrameNet[2]、MindNet[3]等,汉语方面有How-Net[4]、同义词词林[5]等。这些语义词典从本质上可以看做概念以及概念之间各种关系的集合。它们均为人工开发,从开发到维护往往要耗费大量的人力和时间。自刘群[6]起,已有大量学者参与中文词语相似度技术的研究。目前被广泛研究与采用的两种方法是基于世界知识或某种分类体系的方法和基于统计的上下文向量空间模型方法。目前前者的研究更多一些。由于一些理论上以及运行条件的限制,现有的技术还存在很多问题,难以发

挥理想的效果。基于语义词典的词语相似度计算方法是一种基于语言学和人工智能的 理性主义方法,它利用语义词典,依据概念之间的上下位关系和同义关系,通过计算两个概念在树状概念层次体系中的距离来得 到词语间的相似度。这种方法存在以下几点不足:1)人类语言的词语具有很强的模糊性,一个词语往往有很多种词性、词义,应用语境也是丰富多变。以层次关系明确的关系结构作为知识表示框架并人工添加信息 很难表现模糊性的词语知识;2)词语语义知识复杂且含量巨大,只能由专业人员制定,进行知识密集的研究,希望全面细致地构建词典工作量是极为艰巨的,实际上目前的语义词典都还很不完备;3)规则的制定受人的主观影响比较大,不能准确反映客观现实;4)信息量固定,针对性较强,用户很难根据特定需要以及现实世界变化进行修改或 扩展;5)应用困难,对结构性的知识进行分析处理需要复杂的人工智能技术理论支 持以及大量的假设性强的人工规则制定,由于语言的模糊性,人工规则的假设实际上大

wordnet关系词

English Chinese list of wordnet-related terms 3.3.1 A 各类词网| B 词义关系| C 词类及其他术语| D 语意属性A 各类词网 Bilingual Wordnet (Bi-WN) 双语词网 Chinese Wordnet (CWN) 汉语词网 EuroWordNet (EWN) 欧语词网 WordNet (WN) 词网(特指Princeton WN) B 词义关系 antonym 【反义词】 antonymy反义关系 autoantonymy反义多义(关系) autohyponymy下位多义(关系) hypernym【上位词】泛称词 hypernymy上位关系 hyponym 【下位词】特指词 hyponymy 下位关系 holonym整体词 holonymy整体-部份关系 meronym部份词 meronymy部份-整体关系 metonym 转指词 metonymy 转指关系 near-synonym 近义词 near-synonymy 近义关系 polysemy 【多义性】 synonym 【同义词】 synonymy同义关系 taxonomy 分类架构 troponym方式词 troponymy方式关系 C 词类及其他术语 adjective 【形容词】 adverb 【副词】 agreement 【对谐】,一致性

algorithm 【算法/算法】 ambiguity 歧义 associations 关联 attributes 【属性】 auxiliary verbs 助动词 basic-level categories 基层范畴,底层范畴 buffers 【缓冲区】 case propagation 格位相沿,格位沿袭 categories 范畴 causative 【使动】 cause relation 因果关系 cause 原因 change-of-state verbs 易态动词 collocations 【连用语】 common nouns 普通名词 component-object meronyms组成部份(关系)compounds 复合词 concepts概念 conceptual semantic relation 概念语意关系concordances【关键词(前后文)排序】,汇编connectivity 连结性 constraints 【限制】 context 【语境】,上下文 co-occurrence 共现 count nouns 可数名词 cousins in hyponyms 特指亲属,下位亲属 data mining 数据挖掘 database 数据库 decomposition 分解 derived adverbs 衍生副词 descriptive adjectives 描述性形容词 determiners 限定符 dictionaries 辞典 disambiguation 排歧 distance in lexical trees 词汇树间距 domain-specific knowledge 特定领域知识,领域知识encyclopedic knowledge 百科全书知识,通识知识entail 蕴涵 entailment 【蕴涵】 entry 词条 euphemisms 委婉用法 exceptions 例外 factive叙实 familiarity index 熟悉度索引

WordNet研究

基于WordNet重用的领域本体构建方法研究 摘要:构建本体是开发基于语义信息系统的重要步骤。为了提高构建领域本体的效率,提出了一种基于WordNet重用的领域本体构建方法。该方法分析了WordNet的结构和语义关系,将WordNet抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。通过分析与核对实验数据和结果,表明该方法可以重用WordNet的结构并从中获取领域知识,并半自动地快速构建领域本体。 关键词:WordNet; 重用; 领域本体; 语义; 图模型 Research of Building Domain Ontology Method Based On Reusing WordNet 【Abstract】Building ontology is an important process to develop semantic-based information system. For enhancing the efficiency of building domain ontology, an approach for building a domain ontology reusing WordNet was proposed. The approach analyzed the structure and semantic relations of WordNet and abstracted WordNet as a graph model. Regarding domain terms as the concepts of the ontology, a subgraph whose nodes were domain terms was abstracted and a domain sub-ontology was generated. The ontology was modified and complemented using an ontology editor. By means of analyzing and verifying the figures and results of the experiment, it shows that the structure of WordNet can be reused and domain knowledge is able to be acquired in this approach, and a domain ontology can be built semi-automatically and quickly. 【Key words】WordNet; reusing; domain ontology; semantic; graph model 1 概述 信息技术的知识化和智能化发展趋势,使得信息和数据的表示不只是停留在语法层面,更要聚焦到语义层面。而本体作为语义网的核心技术,它能够在语义层面上描述信息和数据的概念模型,因此为解决该类问题提供了一种良好的途径。在基于本体的应用中,构建本体是一项基本任务。然而现有的领域本体的构建方法基本上是人工处理,该类方法尽管本体概念和概念间的关系处理的比较准确,但是其构建效率不能满足当今信息技术发展的速度要求。因此,自动的领域本体构成方法成为了迫切需求。 本体(Ontology)是共享概念模型的明确的形式化规范说明。这包含四层含义:概念模型、明确、形式化和共享。“概念模型”指通过抽象出客观世界中一些现象的相关概念而得到的模型。“明确”指所使用的概念及使用这些概念的约束都有明确的定义。“形式化”指本体是计算机可读的。“共享”指本体所体现的是共同认可的知识,反映的是相关领域中公认的概念集。本体的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,并从不同层次的形式化模式上给出这些词汇和词汇间相互关系的明确定义。本体的建立是一项非常繁重的工作。因此,如何快速建立本体成为一个热点研究问题。 目前主要有两种方法用于构建本体:第一种是基于数据挖掘的本体构建,第二种是重用现有本体来构建新本体,又分为全自动和半自动构建两种方法。要实现全自动构建本体是非常困难的。 尽管现有的自动领域本体构建的方法在构建效率上取得了一定的提高,但是其所构建领域本体中的概念及其关系由于所采用的技术性能差等原因导致准确度较差。针对以上不足,本文充分利用现有资源,对已提出的一种基于WordNet重用的领域本体构建方法进行研究。该方法将领域术语集看作领域本体中的概念,基于WordNet为源本体,分析其结构和语义关系,自动从WordNet中抽取出相关领域的本体,将其抽象为图模型,从中抽取以领域术语为节点的子图,得到一个领域子本体,再利用编辑工具对其进行修改和完善。实验表明该方法可以重用WordNet的结构,并从中获取领域知识,从而

蒙古语WordNet多义词管理功能

内蒙古师范大学计算机与信息工程学院 毕业论文 题目:蒙古语WordNet多义词管理功能 姓名:德力和 学号:20092102769 指导老师:哈斯

目录 1 WordNet的介绍 (1) 1.1 WordNet多义词数据库的介绍 (1) 2 JSP技术简介 (2) 2.1 JSP技术的涉及 (3) 2.1.1 JDK概述 (3) 2.1.2 Tomcat服务器概述 (4) 3 具体实现方法 (4) 3.1 遇到的困难 (4) 3.2 连接数据库的方法 (4) 3.3 整体设计组成 (5) 3.3.1 设计组成结构图 (5) 3.3.3 查询功能 (7) 3.3.4 编辑修改功能 (8)

蒙古语WordNet多义词管理功能 计算机与信息工程学院2009级师范蒙班德力和20092102769 指导教师哈斯副教授 摘要蒙古语WordNet多义词管理功能是用JSP技术开发的一则管理功能。包括对多义词数据库的查询、添加、修改等等。JSP技术是基于整个Java体系的Web开发技术。利用这一技术可以建立安全、夸平台的先进动态网站。 关键词多义词管理;JSP技术;数据库 1 WordNet的介绍 WordNet就是一种传统的词典信息与现代计算机技术以及心理语言学的研 究成果有效结合的一个产物。在1985年,Princeton大学的一组心理词汇学家和语言学家的开始研究开发的一部词典数据库,这就是WordNet。他们最开始的想法只是打算研发一个能与传统的在线词典紧密结合的辅助工具,但是随着词典库的不断开发与研究工作的进展,WordNet的组织结构以及它所追求的目标都与先前的发生了变化。 1.1 WordNet多义词数据库的介绍 在蒙古文中多义词是普遍存在的。多义词的问题是蒙语文信息处理中词义分析、语句分析阶段中重要的研究对象。而且有关蒙古文多义词的研究很早就有了。把词语的多重意思让计算机能够识别是我们蒙古文信息处理技术中的具体工作。也就说词汇输入系统的研发,机器翻译,语料库的建设等等是整个工程项目中语

wordnetsimilarity介绍

本文利用WordNet Similarity 工具包进行词义相似度的计算 以下十种相似度计算方法: ①Path方法 该方法主要依据Rada提出的基于最短路径的相似度度量方法[126],将两个词义概念在WordNet层次结构树上最短路径长度的倒数作为两者的相似度。 ②Hso方法 该方法即Hirst与St-Onge所提出的基于词汇链的相似度计算方法[128],如2.4节公式 (2.5)所示。两个词义概念之间的词汇链越长,发生的转向次数越多,则相似度越低。 ③Lch方法 该方法由Leacock与Chodorow提出,其对Rada的最短路径方法作了改进,引入了两者在WordNet层次结构树上的深度,如公式(3.2)所示[172]。 其中,表示两个概念在WordNet层次结构树上最短路径的距离,D表示两者在WordNet 概念层次结构树中深度的较大值。12 (, )dss ④Lesk方法 该方法即2.4节介绍的Lesk所提出的基于释义重叠的相似度计算方法,将两个词义概念的释义的重合词语数量作为两者的相似度[13]。 ⑤Lin方法 Lin从信息论的角度来考虑词义概念的相似度,认为相似度取决于不同词义概念所包含信息的共有性(Commonality)和差别性(Difference)[136]。该方法将相似度定义为公式(3.3): 其中c表示s1与s2在WordNet层次结构树上的最深父结点,P(s)表示任选一个词义概念属于类别s的概率。 ⑥Jcn方法 该方法由Jiang和Conrath提出,将词义概念层次结构与语料统计数据结合,将基于最短路径的方法[126]和基于概念结点信息量[133]的方法融合,计算方法如2.4节公式(2.12)所示[135]。 ⑦Random方法 该方法将随机生成数作为两个词义概念之间的相似度,仅作为一种基线对照方法。 ⑧Resnik方法 该方法为由Resnik提出的基于概念结点信息量的相似度计算方法,根据两个概念所共有的最深父结点的信息量,衡量两者的相似度[133]。计算方法如2.4节公式(2.9)所示。 ⑨Wup方法 该方法是由Wu与Palmer提出的基于路径结构的相似度度量方法[173],综合考虑了

wordnet使用教程

Wordnet是一个词典。每个词语(word)可能有多个不同的语义,对应不同的sense。而每个不同的语义(sense)又可能对应多个词,如topic和subject在某些情况下是同义的, 一个sense中的多个消除了多义性的词语叫做lemma。 例如,“publish”是一个word,它可能有多个sense:

1. (39) print, publish -- (put into print; "The newspaper published the news of the royal couple's divorce"; "These news should not be printed") 2. (14) publish, bring out, put out, issue, release -- (prepare and issue for public distribution or sale; "publish a magazine or newspaper") 3. (4) publish, write -- (have (one's written work) issued for publication; "How many books did Georges Simenon write?"; "She published 25 books during her long career") 在第一个sense中,print和publish都是lemma。Sense 1括号内的数字39表示publish以sense 1在某外部语料中出现的次数。显然,publish大多数时候以sense 1出现,很少以sense 3出现。 WordNet的具体用法 NLTK是python的一个自然语言处理工具,其中提供了访问wordnet各种功能的函数。下面简单列举一些常用功能: 得到wordnet本身: from nltk.corpus import wordnet

Wordnet简介

Wordnet是一个WordNet是一个由普林斯顿大学认识科学实验室在心理学教授乔治·A·米勒的指导下建立和维护的英语字典。在WordNet中,名词,动词,形容词和副词各自被组织成一个同义词的网络,每个同义词集合都代表一个基本的语义概念,一个多义词将出现在它的每个意思的同义词集合中。 WordNet是按语义关系组织的,其语义关系有以下几类: (1)同义关系。WordNet最重要的关系就是词的同义关系,因为判断词这种关系的能力是在词汇矩阵中表达词义的先决条件。Wordnet中根据替换原则定义同义词:如果两种表达方式在语言文本中相互替代而不改变其真值,则这两种表达就是同义的。因而,WordNet分成名词,动词、形容词和副词几大类。不同词类中的语义关系类型也不同。比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy (整体部分)关系。名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。 (2)反义关系。反义词是一种词形间的词汇关系,而不是词义间的语义关系。反义关系为WordNet中的形容词和副词提供了一种中心组织原则。 (3)上下位关系。上下位关系具有某种限制,且是一种不对称的关系(Lyons,1977,v01.1),由下它只有唯一的上属关系,这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。下位词继承了它的上位词——更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。这种方法为WordNet中的名词提供了一种核心的组织原则。在名词网络中,通过词语的上下位关系来计算词间的距离是WordNet 中简单常用的一种计算相似度方法。 (4)部分-整体关系(HASA)。一个整体的一部分的概念就是这个整体概念的一部分。如果以英语为母语的人接受以“Ayhas an x(as apart)”或“An Xis a part of Y”为框架构造的句子,则同义词集合{X,X...}表示的概念被称为同义词集合{Y,Y...}表达的概念的部部分关系也具有某种限制,可以被用于构造一种部分等级关系。 WordNet名词网络是最先发展起来的,而且大部分学者的工作都是基于名词网络的。名词网络的主干是蕴涵关系的层次(上位/下位关系),它占据了关系中的将近80%。层次中的最顶层是11个抽象概念,称为基本类别始点(unique beginners),例如实体(entity,“有生命的或无生命的具体存在”),心理特征(psychological feature,“生命有机体的精神上的特征)。名词层次中最深的层次是16个节点。 WordNet还有一个特点是在WordNet中用括号中的一些词以及由一个同义词集合到另一个同义词集合的指针(带有标号的弧)来表示这些关系,这些关系描述了构造一个复杂网络的关系;知道一个词在网络中的位置,就几乎等于了解了这个词的词义。这使得WordNet与各种编程程序结合用于查询词的同义扩展提供了便利。事实上,WordNet提供了很多接口函数帮助用户利用WordNet。

相关文档