当前位置:首页 > 模拟 > 模拟
[导读]汉语框架网络包含丰富的本体语义信息。利用词汇的语义信息来探测框架在本体体系中的关系,利用自主学习技术确定相应本体,完善汉语框架网络本体的配价模式。实验证明,本体学习策略的选取对于本体的构建及语义检索性能的提高,发挥了重要作用。

O 引 言
   
本体学习能力对本体构建和语义Web的快速发展及自动问答技术的发展,具有非常重要的意义。现有本体可深层次理解领域知识,但是手工构建本体的方式远远不能满足语义检索应用的需求。因此,运用本体学习策略提高本体构建的速度成为本体应用的关键。以汉语框架网络本体知识库为基础,采用不同的学习策略来处理不同特征的实例,抽取其中的语义信息,以便更好实现实例的定位和本体归类。同时,通过实时监控,系统检查用户的检索情况,采用适合用户特征的辅策略来控制和修正主策略,提高检索的性能。

l 汉语框架网络本体的构建
   
以FrameNet本体为依据,以法律领域为突破口,从语义角度描述法律概念与概念、词语与词语间的关系,形成语义知识网络,构建法律词汇及其所属框架的计算机可读信息。法律框架网络本体中包含丰富的框架关系、配价模式等语义规则,机器可以此来自主地学习领域内外相关的概念及属性,建立概念之间的关系。通过学习可以实现已有的框架与新框架的有效融合,不断丰富法律框架本体,扩大其语义表述能力,提高本体知识库的归纳、演绎、推理的能力。

2 本体学习策略
   
本体学习是一种可以由本体工程师使用,以便更容易地创建本体的方法,是一套用几种资源以半自动化方式对现存本体进行挖掘、丰富或改造来构建新本体的方法和技术。目前,很多本体学习方法都以不同类型的无结构的,或半结构的,或充分结构化数据来进行训练,运用联想规则、概念聚类、本体修改、概念学习等方法,构建一个自动或半自动的、协同的本体。在汉语框架网络中,我们采用了基于本体学习的半自动本体构建方法,采用多种学习策略,综合构建一体化的本体学习环境,加快本体构建和本体语料加工的进程。此方法能更好的发现概念间的关系,更有效地获得本体信息,是一种比较高效可行的本体构建方法。

    本体学习的过程如图l所示。首先,对各类语料进行处理,其中包括分词、词性标注、句法依存分析、语义信息的提取。其次,从语料库中提取领域术语,使用自然语言处理、学习规则和统计的技术来过滤这些术语,然后使用通用本体中的概念对这些术语进行语义解释,确定术语的语义类型,形成本体学习的结果。最后,由专家对学习结果评估,从而利用通用本体和核心本体来学会新领域本体。
2.1 语义信息的抽取
   
汉语框架网络本体的语义信息由框架、语义元素及语义关系构成,而语义关系包括继承关系、总分关系、使用关系和参照关系等。语义关系是对框架网络本体间共同特性的描述,也是两者的共同关注焦点,故可借助语义关系从一个已知框架来学习另一个未知框架的语义信息。
    构建汉语框架网络本体时,我们采用一个5元组O:={C,R,HC,rel,AO}来表示框架的语义信息。其中:C表示与该框架发生关系的框架集合;R为框架间的关系的集合;XXXXXXX是一种有向关系,HC(Cl,C2)表示框架Cl是框架C2的上位框架,其中框架关系包括继承关系和使用关系;rel:R→C×C是一个函数,亦可表示为R(C1,C2),表示除了继承关系和使用关系外的框架间关系;AO为框架进行本体学习和推理的逻辑化、形式化公理,用以约束本体中的语义信息,校验它的正确性或推导出新的信息。这样,在上述5元组的基础上,将学习任务的初始描述、中间状态、学习到的规则等都借助例句库保存起来,从而形成一组基本事实和判定公理。在公理中,我们利用了句法一语义相对应的学习经验生成一系列规则,把每一个语法成分同它的框架元素联系起来,然后从词元和框架中找出合适的基本联系,此方法对于不可继承的框架元素的确定具有重要意义。然后,把基本学习器组成元学习器,元学习器分配给每个基本学习器一个权重,来显示它所信任基本学习器在元学习器中学习能力。然后,由人工对此进行确认和修正,最终形成完整的框架网络本体语义信息。
    语义信息抽取时,学习器通过给定的学习策略不断地在一组候选框架及例句中挑选最适合的选项加入学习器中,这些候选框架及例句被公理和规则不断地特殊化(借助大量的反例来筛选候选框架及例句),直到它们符合第一类基本学习器的基本条件,然后由第二类学习器进行语义关系的学习。其中,第一类基本学习器利用了每个框架特定的语义信息,来处理框架间的继承关系,从上位框架中继承所有的框架元素。例如,框架“文本”与框架“人造物品”属于继承关系,“人造物品”包含框架元素:创建者、类型、材料、人造物品、创造时间、名称、使用价值等,以其语义信息作为学习的基础,可归纳出“文本”框架应包括的框架元素及其它的语义信息。第二类基本学习器利用框架间的其它语义关系,如总分关系、先与关系、使用关系等。比如,框架“犯罪场景”与框架“犯罪”属于总分关系。“犯罪”部分继承“犯罪场景”的犯罪行为、犯罪人元素,同时增加了时间、地点、动机等其它元素。这需要学习器根据分框架中主体担任的角色不同及情景的差异进行总结而获得。这样,通过学习器的学习,就获得了未知框架网络本体遗失的语义特性,再根据相应的判断公理来学会了未知框架所代表的语义信息。
2.2 配价模式的学习
   
通过对语义信息的学习,我们把句子解析成了若干语法要素和语义元素。配价模式学习过程中,参照已有的本体及其语义模式(配价模式)等信息,根据词性分析、语法分析和句法分析的结果及所总结的规则和统计信息,生成框架的配价模式。
    框架配价模式学习过程:1)对例句做句法依存分析。2)以句法依存树中的结点为目标词,将目标词所有的子树看作一语义元素,每个子树包含的所有词语默认为最大短语。3)根据子树的根结点与目标的句法依存关系类型,与已有配价模式匹配,确定子树在配价模式中充当的框架元素,比如,它们之间为动宾关系,那么子树就作为“受事”框架元素。若存在使义动词则子树所做框架元素为“施事”。最后,如果子树中存在像并列关系之类的依存关系则应当考虑将其进一步细分为若干框架元素,算法如图2所示。

    研究发现,配价模式学习的关键是结合语义信息制定判定规则。利用有用的域约束、依赖约束和相关词语的词性标记限制,我们形成了一系列可操作的启发式规则,提高了配价模式学习的精度。那么,如何来判断初步的配价模式与已有配价模式是匹配的?不同的框架元素在配价模式中的重要性是不同的,应该区别对待。假设句法依存树中的结点受树结构中相邻的结点的特性的影响:如果相邻的结点的关系紧密那么这两个结点也很可能在配价模式中充当重要角色,两者至少有个充当配价模式的很重要框架元素。
2.3 检索特征学习技术策略
   
个性化查询就是用户根据自身兴趣爱好、关注焦点和查询特征进行扩展,来获取精确完整的知识信息。不同用户对事件关注的角度不一样,比如,罪犯及其律师关心的是如何减轻判刑,而检察官则是要找到罪犯的全部犯罪情节。系统能够对用户的各种信息行为进行智能化追踪及分析,搜集用户个性信息及其关注的焦点的种类等信息,并将用户个性化信息储存到数据库里。当系统收到检索请求后,从语料库中检索符合用户信息需求的信息,并利用个性信息过滤掉相关度小的信息,同时细化语义情景,按用户提问将答案精确到最小语义元素。同时,系统建立反馈机制,允许用户对系统推送的信息进行评价和人工选择,然后将作为此类用户的个性化信息。

3 结束语
   
在构建汉语框架网络本体时,以思维科学的基本原理为指导,运用元学习器技术,充分发挥两类基本学习器各自的优点,解决了语义信息的鉴别、已做语义处理知识的理解、未标记文献的利用等问题,从而获得了比单一的基本学习器较高的学习能力;同时总结了一些具有代表性和高精确度的实例和规则,作为系统学习的参数,得到了较好学习未知框架网络本体语义信息的近似值。不同学习策略的实施,提高了系统的归纳、演绎、推理的能力,增强了语义理解能力,能够返回精确匹配的答案。

本站声明: 本文章由作者或相关机构授权发布,目的在于传递更多信息,并不代表本站赞同其观点,本站亦不保证或承诺内容真实性等。需要转载请联系该专栏作者,如若文章内容侵犯您的权益,请及时联系本站删除。
换一批
延伸阅读

摘要:群星闪耀,亚洲科技FF盛宴 澳门2024年6月12日 /美通社/ -- 5月25日,第四届BEYOND国际科技创新博览会(BEYOND Expo 2024)以"Embracing the Uncertaintie...

关键字: 创始人 AN STAGE BSP

其中囊括迈阿密站和摩纳哥赛车史上首次双赛 英国伦敦2024年6月11日 /美通社/ -- FE 今天宣布了ABB 国际汽联电动方程式世界锦标赛第11赛季的暂定赛历,这将是其历史上首次完成17场比赛,跨越几个大洲在11个...

关键字: 电动 BSP ABB GEN

北京2024年6月11日 /美通社/ -- 6月6日-8日,2024中国汽车重庆论坛举行。论坛以"在变革的时代 塑造行业的未来"为主题,吸引全球行业精英,重点关注新能源、智能...

关键字: 中国汽车 数字化 BSP AN

柏林2024年6月11日 /美通社/ -- 据德国汽车行业协会(VDA)的最新消息,去年德国生产了127万量电动汽车(BEV和PHEV),其中95.5万辆是纯电动汽车。这使得德国成为欧洲生产电动汽车最多的国家。预计今年德...

关键字: 电动汽车 BSP 纯电动汽车 AI

作者 Mohamad Ali| IBM咨询首席运营官 北京2024年5月24日 /美通社/ -- 生成式AI的兴起几乎在所有面向上给业务带来改变。根据 IBM 商业价值研究院最新的年度 CEO 研究,近60%...

关键字: IBM AI BSP 模型

台北2024年5月21日 /美通社/ -- 提供针对AMD WRX90和TRX50主板优化的DDR5 OC R-DIMM 提供容量128GB(16GBx8)到768GB(96GBx8),速度5600MHz到8...

关键字: AMD 内存 BSP GB

上海2024年5月20日 /美通社/ -- 2024年5月16日,世界知名的生命科学公司 Eppendorf 集团于第二十三届生物制品年会上成功举办了"疫路超越 推流出新"的产品发布会,正式推出大规模...

关键字: RF PEN BSP IMAC

北京2024年5月20日 /美通社/ -- 过去五年里,支付和收款方式日新月异,其发展和变化比过去五十年都要迅猛。从嵌入式数字商务的出现,到"一拍即付"的...

关键字: VI BSP PAY COM

华钦科技集团(纳斯达克代码: CLPS ,以下简称"华钦科技"或"集团")近日宣布致敬 IBM 大型机 60 载辉煌历程,并将继续实施集团大型机人才培养计划。

关键字: IBM BSP 研发中心 PS

助力科研与检测新突破 上海2024年5月15日 /美通社/ -- 全球知名的科学仪器和服务提供商珀金埃尔默公司今日在上海举办了主题为"创新不止,探索无界"的新品发布会,集中展示了其在分析仪器领域的最...

关键字: 质谱仪 BSP DSC 气相色谱
关闭
关闭