中国工程论文网
代写工程论文
当前位置:工程论文网 > 软件工程论文 > 面向领域的实体搜索技术研究

面向领域的实体搜索技术研究

时间:2018-10-04 22:17来源:www.e-lunwen.com 作者:lgg 点击:
本文是一篇软件工程论文,软件开发过程是随着开发技术的演化而随之改进的。从早期的瀑布式(Waterfall)的开发模型到后来出现的螺旋式的迭代(Spiral)开发,以致最近开始兴起的敏捷开发
本文是一篇软件工程论文,软件开发过程是随着开发技术的演化而随之改进的。从早期的瀑布式(Waterfall)的开发模型到后来出现的螺旋式的迭代(Spiral)开发,以致最近开始兴起的敏捷开发方法(Agile),他们展示出了在不同的时代软件产业对于开发过程的不同的认识,以及对于不同类型项目的理解方法。(以上内容来自百度百科)今天为大家推荐一篇软件工程论文,供大家参考。
 
第一章 绪论
 
随着互联网技术的不断革新和发展,信息资源的数量和人们获取信息的渠道越来越多。在互联网提供了更多信息量的同时,人们对信息的准确性有了更高的要求。实体搜索与现有的网页关键字搜索的不同之处在于实体搜索更注重用户的搜索意图,返回的结果更加准确和简洁,因此成为了下一个热点研究的搜索模式,具有很大的应用价值和研究意义。
 
1.1 研究背景及意义
现今互联网技术的发展在不断地改变人们的生活方式,人们更多地选择使用网络来获取信息。在互联网的发展进程中,生成信息的方式在逐渐多元化,Web1.0 是以商业公司为主体,单向地在网站上发布信息,这使得网络上信息的来源比较单一;而 Web2.0是将用户也作为信息的产生者,互联网用户不仅仅可以在网络上获取自己所要的信息,也可以将自己的信息分享到互联网这个大平台。面对如此海量的信息,人们需要从其中进行信息获取,最关键的是如何正确理解用户的需求,以及从这些信息中找到准确的结果。搜索引擎的产生为用户提供了一个与互联网知识库连接的桥梁,用户通过在搜索引擎中输入自己想要的信息关键字,这个搜索请求提交至互联网信息库中进行匹配,最终返回给用户一系列相关网页的结果集合。尽管这种基于关键字的搜索方式已经非常便利地满足了人们对信息获取的需求,而且各大搜索引擎,例如 Google、Yahoo、Bing 和百度等,在信息的精度和召回率上也达到了较高的水平,但是用户的需求是千差万别的,现有的搜索模式在处理搜索语句和结果返回上都存在一定的缺陷。无论用户提交的搜索语句是单个词还是具有多重复杂修饰关系的语句,现有的搜索引擎都是将搜索语句按照统一的基于关键字的方式处理。对于表达复杂意图的搜索语句,会忽略语句中各词语之间的逻辑语义关系,这样可能使返回的结果与用户实际的搜索需求不相符合。在这种情况下,需要用户通过减少搜索语句的词汇等方式调整搜索语句的结构,进行再次搜索。在返回结果的呈现上,现在的搜索引擎都是以一系列网页列表的形式展现,用户还需要进一步浏览信息结构各异的网页来人工判别筛选网页中自己所需要的结果信息。以上基于关键字搜索的缺陷无疑会大大影响用户的搜索体验,降低了搜索的效率,增加了用户在搜索信息时的时间成本。
.........
 
1.2 研究现状
虽然现有的搜索模式已经逐渐成熟,但是用户的需求也在不断提高,大家希望获得更为精确简洁的结果,由此产生的研究方向——基于Web的实体搜索,成为了广大科研人员和学者研究的新热点。现就本文涉及的技术要点的研究现状分类介绍如下。
 
(1)搜索语句的处理
Z.Wang[1]等人基于短文本搜索语句提出了一种得到语句首部和修饰成分的方法。通过大量的搜索日志总结出搜索语句首部和修饰成分,并提出了一个概念泛化机制,使其应用在短文本搜索语句的首部和修饰成分的检测上。Oh.H.R[2]等人提出了将查询处理具体化的方法,必须遵循以下步骤:分析出搜索语句中的第一对象和第二对象,然后根据用户的输入得到第一对象与第二对象之间的联系,最后分析出两个对象之间的关系结构,以便于搜索处理。R.S.Roy[3]等人针对Web搜索的语句进行了研究,以IR性能为指标提出了评估查询语句分割效果的框架。此框架可以直接反映不同分割算法之间的差别与效率,并给出分割部分的最佳检测结果的见解分析,更好更直观地显示了查询分割的结果,这种方法有助于提高Web搜索结果的准确性。Kim.K[4]等人针对短文本的分类问题提出了语句语义无关的内核(language independent semantic(LIS) kernel)这一概念,在无需使用语法标记和词汇数据库的条件下,可以准确地计算出短文本文档之间相似性。其他学者也提出过关于语义核的定义,在文献[5]中对直接使用语义特征标识语义核的思想提出了改进,具体是将语句中提取多个特征向量并使用奇异值分解等方法确定语义核。另外一些关于搜索语句处理的研究工作通过对搜索语句成分使用概念注释,有利于查询的处理和理解[6-7]。在文献[6]中,为了更好地理解查询需求和意图,定义了内核对象(kernel-object)表示主要搜索目的,修饰语(modifier)表示搜索结果的限定条件。
........
 
第二章 面向领域的实体搜索框架
 
现今互联网的信息量在日益增长,使得人们越来越多地使用搜索引擎来查询有用的信息。搜索工具在发展中不断地进步,所使用的互联网技术也逐渐成熟,但是随着人们需求的多样化,传统搜索引擎在结果的准确性、相关性和结果展示上未能充分满足用户的搜索需求。本章首先介绍传统搜索引擎的工作原理和相关技术,分析了目前搜索引擎的一些缺点和不足之处,由此可知实体搜索的研究是有现实应用意义的。本章重点介绍本文实体搜索的一些主要研究内容以及相关实现方法。
 
2.1 传统搜索技术
网络爬虫(Crawler)是指具有一定规则特征的程序,主要用于自动抽取互联网上的信息。搜索引擎的网页数据是依靠网络爬虫集成的[26-27]。由于互联网是一个巨大的信息资源库,不同网页的信息都可以通过页面中的超链接获得,这样网络爬虫程序可以快速遍历整个互联网中的信息。首先将互联网中的一部分网页地址挑选出来作为种子URL,并放入待抓取URL队列中。爬虫程序依次从待抓取URL队列中读取URL进行DNS解析,然后使用网页下载器将页面内容下载到本地。对于已经下载完成的网页,将其URL存放进已抓取URL队列中,并检查这些网页中的超链接网址。在这些超链接网址中,对于不存在于已抓取URL队列的网址,将这些网址存入待抓取URL队列等待爬虫程序的进一步抓取。若仍有待抓取的URL,则重复执行上述操作,否则表示爬虫程序完成了网页的整个集成过程。爬虫框架的流程图如图2-2所示[28]。
.........
 
2.2 实体搜索概述
实体搜索是针对用户对精确的搜索结果的需求而提出的一种搜索模式,主要特点是返回的搜索结果是精确的实体结果,一般以列表形式展现。实体这个概念是由哲学领域的研究者提出,经过社会科技的不断发展,实体在不同行业和领域都有了特定的含义和使用价值。如今,在信息行业,实体就是指一个对象或者概念,并且这个对象或者概念具有某些特征或属性。比如“北京”是一个实体,具有“地理位置”“人口”等属性。本节对实体搜索涉及的概念给出了明确的定义,并介绍了实体搜索所应用到的相关技术。实体搜索不同于传统的关键字搜索,其主要区别不仅仅在于结果的展示方式不一样,搜索的流程也是各有特点。实体搜索框架如图2-3所示。由图2-3可知,实体搜索主要包含网络爬虫、Web信息抽取、搜索语句的解析、实体筛选和实体排序。与传统搜索引擎的思想一样,实体搜索也需要从互联网上使用网络爬虫技术下载构建网页数据库,这是网络爬虫模块;Web信息抽取模块主要包括网页的预处理,由此得到规范的网页以方便后续分析,以及使用规则抽取实体相关的内容部分,并使用模型和Wrapper工具提取实体信息,然后建立实体信息索引库;用户查询模块包括搜索语句的解析,并根据解析结果在实体信息索引库中筛选结果实体,对这些实体根据用户的搜索需求采用一定的排序策略做排序处理,然后将结果返回给用户。
........
 
第三章 基于百科知识库的实体搜索方法 ..............15
3.1 概念模型 ....15
3.1.1 相关概念 ...........15
3.1.2 方法框架 ...........16
3.2 搜索语句解析策略 .......17
3.3 实体搜索策略 ...........21
3.3.1 知识库数据的特征分析 ..........21
3.3.2 实体的抽取 .........21
3.4 实验评估 ....22
3.4.1 实验设计 ...........22
3.5 本章小结 ....26
第四章 基于实体特征的实体搜索方法 .....27
4.1 实体搜索框架 ...........27
4.2 Web 网页的选定与处理策略...........29
4.3 结果实体的筛选策略 .....36
4.4 实验评估 ....40
4.5 本章小结 ....42
第五章 系统设计与实现 ......43
5.1 设计思路 ....43
5.2 相关技术 ....43
5.3 系统功能 ....44
5.4 系统评估 ....44
5.5 本章小结 ....46
 
第五章 系统设计与实现
 
通过对百科知识库特征和实体特征的研究分析,本文提出了基于百科知识库的实体搜索方法和基于实体特征的实体搜索方法,并详细介绍了这两种方法的框架、实现思路以及实验设计。本章针对基于实体特征的实体搜索方法实现了面向领域的搜索引擎。
 
5.1 设计思路
此系统设计的重点有两个:第一个是将互联网上面向领域的网页数据集成至本地数据库;第二个是提供给用户一个搜索接口,获得用户输入的搜索语句,对搜索语句进行解析,然后结合本文提出的基于实体特征的实体搜索方法,可以返回给用户最直接的结果信息,不需要用户再次筛选判别返回结果的页面内容。系统的框架如图5-1所示。本系统的实现使用的开发语言是Java,其中,搜索语句解析模块用到了自然语言处理技术,由于本系统的使用范围是中文搜索语句,所以选用语言处理工具IKAnalyzer完成分词工作,使用StanfordNLP生成带有词性标注的短语结构树,然后根据第三章提出的搜索语句解析策略,获得中心语、修饰语集;本地数据库的信息集成工作是将面向领域的网页数据通过爬虫技术实现,构建了面向领域的本地网页数据库;方法实现部分是以第四章基于实体特征的搜索方法为核心思想,使用Java语言开发实现的实体搜索方法。
..........
 
总结
 
现今,随着互联网技术的发展,社会和互联网的联系日益紧密,人们越来越依赖互联网获取所需信息,主要的方式是在搜索引擎中提交搜索语句。虽然现有的搜索引擎可以满足用户的基本搜索需求,但是,随着搜索引擎的不断使用和深入研究,也发现了现有搜索引擎存在的一些问题:(1)按关键字简单搜索,忽略了用户的搜索意图;(2)返回结果为网页列表,所含杂质信息较多;(3)通用型搜索引擎为主,缺少面向领域的搜索引擎。针对以上问题,本文首先对搜索语句解析,提出了侧重分析用户搜索目的的方法,得到中心语和多个修饰语,并且中心语代表用户搜索结果的实体类别,修饰语代表搜索结果的属性,用于限定中心语的属性范围。并以此解析方法为基础,分别研究论证了基于百科知识库的实体搜索方法和基于实体特征的实体搜索方法。基于百科知识库的实体搜索方法是以百科知识库为数据源,考虑到百科知识库网页结构的规整性和网页属性信息的完整性,提出了对解析后的搜索语句成分重组,并找出最大有效子搜索语句的方法,确定了最大有效子搜索语句对应的百科页面之后,再提出从百科页面中确定结果实体的方法。另外针对领域提出了基于实体特征的实体搜索方法,本文的主要工作和贡献总结如下:
(1) 分析用户的搜索语句,以理解用户查询意图为出发点,提出了将语句分解为一个中心语和多个修饰语的方法,根据解析所得到的语义块,将这些语义块重组,得到多个子搜索语句。
(2) 以百科知识库为数据源,分析了百科页面的结构,以及搜索结果实体在百科页面中的分布特征,在此基础上提出了实体搜索的方法。首先,在子搜索语句中找到有对应百科页面的最大有效子搜索语句,然后,在最大子搜索语句的百科页面中确定满足搜索要求的候选实体,将实体的属性信息与搜索语句中的修饰语对比,进而筛选出最终符合要求的结果实体。
(3) 以面向领域的数据源为基础,提出了基于实体特征的实体搜索方法。其中建立了面向高考领域的本地信息库和实体特征信息库,提出了网页正文信息的确定方法,以及根据实体特征筛选匹配结果实体的方法。
(4) 根据基于实体特征的实体搜索方法实现了原型系统。此系统提供了一个输入接口,供用户输入搜索语句,在对用户的搜索语句解析后,结合本文的实体搜索方法,最终将返回的结果实体集展现在搜索系统的前台页面上。
..........
参考文献(略)
(责任编辑:gufeng)
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
栏目列表
点击提交代写需求
点击提交代写需求
点击提交代写需求
推荐内容