关系型数据库与全文检索相结合的检索方法

    公开(公告)号:CN1987853A

    公开(公告)日:2007-06-27

    申请号:CN200510132443.7

    申请日:2005-12-23

    Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法,为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库,并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库,检索时将检索条件根据需要分拆为数据库检索和全文检索两部分,分别形成相应的查询语句,数据库检索条件要求符合标准SQL规范,全文检索条件要求符合全文检索语法规则,然后前者提交关系型数据库进行数据库检索,后者提交全文检索引擎进行全文检索,从而实现两检索并行执行,大大提高检索的性能,并且能够提供全文检索引擎特定的检索机制。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN1828609A

    公开(公告)日:2006-09-06

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种自动分析互联网上热点主题传播过程的方法及系统

    公开(公告)号:CN101231641B

    公开(公告)日:2010-05-19

    申请号:CN200710062944.1

    申请日:2007-01-22

    Abstract: 本发明涉及一种自动分析互联网上热点主题传播过程的方法及系统,属于智能信息处理技术。由于互联网上文本信息的不断增长,自动从海量文本中检测与分析热点或敏感主题是文本挖掘和信息检索领域的一个重要课题,具有重大的实用价值。本发明利用自然语言处理方法,自动分析给定热点或敏感主题中的文档信息传播过程:对主题中的文档按照时间排序之后,从第一篇文档开始对当前文档利用模式匹配方法搜索其转载出处,如果未发现其转载出处,则进一步利用文档相似度比较方法判断其转载出处,同时获取对应的源文档。最后将转载关系以图形化的方式直观地呈现给用户。本方法可广泛应用于互联网智能信息处理、舆情分析与监控等。

    基于文档结构的文档相似性度量方法

    公开(公告)号:CN100543735C

    公开(公告)日:2009-09-23

    申请号:CN200510117412.4

    申请日:2005-10-31

    Abstract: 本发明公开了一种基于文档结构的文档相似性度量方法,涉及一种自然语言的处理方法。针对度量方法中丢失了词语在文档各个部分的分布信息,本发明提出的方法包括以下步骤:(1)对于需要比较的两个文档X和Y,分别使用文档结构分析方法找出每个文档的子主题序列;(2)利用相似性度量方法计算任意两个分别属于不同文档的子主题之间的相似度值;(3)对步骤(1)及步骤(2)得到的子主题序列及子主题之间的相似度值,建立一个带权二部图G={X,Y,E};(4)对带权二部图G={X,Y,E}求解最优匹配,对最优匹配的总权值进行规范化处理,即得到文档X与Y的相似度值。本发明提出的方法,提高了文档相似性判断的准确度。

    一种自动检测新闻事件的方法

    公开(公告)号:CN100461177C

    公开(公告)日:2009-02-11

    申请号:CN200610007219.X

    申请日:2006-02-14

    Abstract: 本发明涉及一种自动检测新闻事件的方法,属于智能信息处理技术。现有技术中,事件检测技术仅仅考虑在固定的小数据集合上的错检率和漏检率,常出现新闻事件被误分为多个小事件的情况,并且事件检测的精确度不高,常出现检测到的事件内容过于宽泛的情况。本发明所述的方法针对持续新闻流事件检测的实际应用,通过引入事件排序,事件合并和调整,新闻报道淘汰,以及新闻事件描述等步骤,提出了一个实用的新闻事件检测方法。采用本发明所述的方法,能够明显提高新闻事件的检测效果,大大增强其实用性。本方法可广泛地应用于智能信息处理。

    一种词汇语义褒贬获得方法、系统及装置

    公开(公告)号:CN101315625A

    公开(公告)日:2008-12-03

    申请号:CN200710099802.2

    申请日:2007-05-30

    Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

Patent Agency Ranking