一种基于句子关系图的多文档摘要方法

    公开(公告)号:CN1828608A

    公开(公告)日:2006-09-06

    申请号:CN200610072586.8

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

    一种用于基于内容的海量图片快速检索的索引构建方法

    公开(公告)号:CN1687932A

    公开(公告)日:2005-10-26

    申请号:CN200510073464.6

    申请日:2005-05-30

    Abstract: 本发明涉及一种用于基于内容的海量图片快速检索的索引构建方法,属于智能信息处理技术。现有技术中,对海量图片进行基于内容的检索时,系统响应的时间长,检索效率低,且系统的健壮性不够强。本发明针对基于内容的海量图片快速检索的效率与系统健壮性问题,在平衡多路查找树的索引结构基础上,引入聚类调整机制并提出最小完备子树更新策略和非线性特征量化算法。采用本发明所述的方法将大大提高索引结构的性能,降低检索响应时间,增强系统健壮性,对基于内容的海量图片快速检索系统具有重要的应用价值。

    一种基于快速排序算法的快速分页排序方法

    公开(公告)号:CN1581162A

    公开(公告)日:2005-02-16

    申请号:CN200410004752.1

    申请日:2004-03-03

    Abstract: 本发明涉及一种基于快速排序算法的快速分页排序方法。现有的排序方法在对所有数据完全排序之前难以知道指定范围内包括哪些数据及它们之间的顺序,所以现有技术是对所有数据先进行完全排序,然后输出指定范围的数据子集,这必然存在大量不必要的计算开销,影响了计算机系统的响应速度。本发明所述的方法主要是采用类似快速排序算法(Quick Sort)分治的策略,利用缓存机制,不断将不属于指定范围内的元素排除,并逐渐排序定位指定范围内的数据,从而解决了快速分页排序的问题。采用本发明所述的方法,能有效地解决海量数据环境下的分页排序问题,大大减少了不必要的计算开销,避免了重复计算,提高了计算机系统的响应速度。

    关系型数据库与全文检索相结合的检索方法

    公开(公告)号:CN100481076C

    公开(公告)日:2009-04-22

    申请号:CN200510132443.7

    申请日:2005-12-23

    Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法,为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库,并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库,检索时将检索条件根据需要分拆为数据库检索和全文检索两部分,分别形成相应的查询语句,数据库检索条件要求符合标准SQL规范,全文检索条件要求符合全文检索语法规则,然后前者提交关系型数据库进行数据库检索,后者提交全文检索引擎进行全文检索,从而实现两检索并行执行,大大提高检索的性能,并且能够提供全文检索引擎特定的检索机制。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN100418093C

    公开(公告)日:2008-09-10

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种基于文档扩展的单文档摘要方法

    公开(公告)号:CN1916904A

    公开(公告)日:2007-02-21

    申请号:CN200610112788.0

    申请日:2006-09-01

    Abstract: 本发明涉及一种基于文档扩展的单文档摘要方法,属于语言文字处理技术领域。现有的几乎所有单文档自动摘要方法均只利用单篇文档自身的信息进行摘要。例如,目前的基于图排列的单文档自动摘要方法只利用了单篇文档内句子之间的相似关系选择重要的句子生成摘要。本发明所述的方法充分利用了相似文档之间的信息冗余性来改进现有的单文档自动摘要方法,该方法首先从文档集中找到与当前文档最相似的少数几篇文档,然后基于这些文档对当前文档中的句子进行全局重要性评价,进而从当前文档中挑选真正重要的句子生成摘要。采用本发明所述的方法,改进了现有的基于图排列的单文档自动摘要方法,在实际评测中取得了比较好的效果。

    一种网络内容引用自动发现的方法

    公开(公告)号:CN1770159A

    公开(公告)日:2006-05-10

    申请号:CN200510109600.2

    申请日:2005-10-28

    Abstract: 本发明涉及一种网络内容引用自动发现的方法,属于智能信息处理技术。现有技术中,由于没有自动发现网络内容引用的方法,使得网络内容同质化问题非常严重,没有授权的内容引用转载随处可见。本发明以网络搜索技术与智能分析技术及自然语言理解技术为基础,提出一种自动发现网络内容引用的方法,该方法将引用分析过程分成了两步,引入了预搜索过程,不但极大地加快了自动发现的过程,而且可利用搜索引擎网站提供的检索服务,免除开销巨大的网页抓取与建立内容索引等工作。本发明方法不仅使得自动发现网站内容引用成为可能,而且使得系统所需硬件条件要求低,速度快,对保护网络内容的知识产权具有重要的实用价值。

Patent Agency Ranking