一种在全文检索系统中快速更新数据域的方法

    公开(公告)号:CN100498782C

    公开(公告)日:2009-06-10

    申请号:CN200610112797.X

    申请日:2006-09-01

    Abstract: 本发明公开了一种全文检索系统支持数据域快速更新的方法。本发明在倒排索引的技术基础上,对需要进行快速更新的数据域采用非倒排索引方式。通过将动态索引结构与倒排索引结构相结合,在全文检索系统中实现对数据域的快速更新,并通过线性索引,辅助从文档标识快速找到数据域的原内容并进行删除。该发明方法在略微降低建索引和检索的效率情况下,对部分数据域的更新具有很好的效率,达到了使全文检索系统可支持数据域快速更新的目的。随着信息技术的广泛应用,信息量爆炸性增长,信息检索的应用越来越深入,本发明的方法具有广泛的应用前景。

    一种基于句子关系图的多文档摘要方法

    公开(公告)号:CN100435145C

    公开(公告)日:2008-11-19

    申请号:CN200610072586.8

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。

    一种用于基于内容的海量图片快速检索的索引构建方法

    公开(公告)号:CN100371934C

    公开(公告)日:2008-02-27

    申请号:CN200510073464.6

    申请日:2005-05-30

    Abstract: 本发明涉及一种用于基于内容的海量图片快速检索的索引构建方法,属于智能信息处理技术。现有技术中,对海量图片进行基于内容的检索时,系统响应的时间长,检索效率低,且系统的健壮性不够强。本发明针对基于内容的海量图片快速检索的效率与系统健壮性问题,在平衡多路查找树的索引结构基础上,引入聚类调整机制并提出最小完备子树更新策略和非线性特征量化算法。采用本发明所述的方法将大大提高索引结构的性能,降低检索响应时间,增强系统健壮性,对基于内容的海量图片快速检索系统具有重要的应用价值。

    一种音频片断之间相似度度量的方法

    公开(公告)号:CN101079044A

    公开(公告)日:2007-11-28

    申请号:CN200610080669.1

    申请日:2006-05-25

    Abstract: 本发明公开了一种音频片断之间相似度度量的方法。现有技术中,没有考虑音频片断中具体内容的差别而采用音频特征表示整个音频片断,因此不能有效度量音频内容的相似度。针对上述问题,本发明把音频片断度量分为两个层次:音频单元和音频片断。在音频单元阶段,本发明定义音频单元是一系列音质相似的音频帧,首先把音频片断分割为一个个音频单元,然后度量两个音频片断中音频单元的相似度;在音频片断阶段,基于音频单元的度量结果,把两个音频片断的相似度度量建模为一个带权二分图,最后使用最优匹配度量两个音频片断的相似度。试验结果表明,与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。

    建立内容管理系统的方法
    16.
    发明公开

    公开(公告)号:CN1996281A

    公开(公告)日:2007-07-11

    申请号:CN200510132590.4

    申请日:2005-12-26

    Abstract: 本发明公开了一种建立内容管理系统的方法。针对现有内容管理系统无法跨类型检索、无法体现内容之间的关联和包含关系以及数据的内在组织,本发明提出:将内容的元数据划分为公共元数据和扩展元数据,针对公共元数据和扩展元数据进行数据建模,建立用于存储内容的元数据的数据库;采用递归方式存储对象数据,建立用于存储用户对象数据的存储空间。所述公共元数据为所有类型对象数据都具有的元数据,所述扩展元数据为对象数据特有的元数据。本发明提出的方法能够实现跨类型检索,提高内容复合效率,体现了内容之间的关联关系和对象数据的内在组织。

    一种基于快速排序算法的快速分页排序方法

    公开(公告)号:CN1282113C

    公开(公告)日:2006-10-25

    申请号:CN200410004752.1

    申请日:2004-03-03

    Abstract: 本发明涉及一种基于快速排序算法的快速分页排序方法。现有的排序方法在对所有数据完全排序之前难以知道指定范围内包括哪些数据及它们之间的顺序,所以现有技术是对所有数据先进行完全排序,然后输出指定范围的数据子集,这必然存在大量不必要的计算开销,影响了计算机系统的响应速度。本发明所述的方法主要是采用类似快速排序算法(Quick Sort)分治的策略,利用缓存机制,不断将不属于指定范围内的元素排除,并逐渐排序定位指定范围内的数据,从而解决了快速分页排序的问题。采用本发明所述的方法,能有效地解决海量数据环境下的分页排序问题,大大减少了不必要的计算开销,避免了重复计算,提高了计算机系统的响应速度。

    一种用于海量文本快速相似搜索的方法

    公开(公告)号:CN1790321A

    公开(公告)日:2006-06-21

    申请号:CN200510117001.5

    申请日:2005-10-28

    Abstract: 本发明涉及一种用于海量文本快速相似搜索的方法,属于智能信息处理技术。当数据集的维数较高(超过20)或数据量很大(超过10万)时,现有技术方法的性能迅速降低,难以满足海量文本的相似搜索。本发明提出一种海量文本快速相似搜索方法。它提出两步搜索策略,首先通过快速预选进行文本的预搜索,从而快速排除绝大多数的不相关文档,然后在剩余的小结果集上进一步判断相似性。该方法具有很高的效率,可适用于对海量文本的搜索。本发明的方法在海量信息智能检索、文本消重、内容引用发现等应用领域中具有广泛的应用前景。

    一种基于语音分类识别的新闻视频检索方法

    公开(公告)号:CN100508587C

    公开(公告)日:2009-07-01

    申请号:CN200610007965.9

    申请日:2006-02-24

    Abstract: 本发明属于计算机语音识别及视频检索技术领域,具体涉及一种基于语音分类识别的新闻视频检索方法。现有技术中,在进行视频检索时,一般是从视频中提取出颜色、纹理等底层特征,然后根据这些特征进行视频检索,无法有效实现从文本到新闻视频的检索,应用非常不方便。本发明所述的方法是在新闻视频中自动分割出标准语音的所有语音片断;然后运用语音识别系统,对分割出的标准语音进行识别,由于新闻视频中的标准语音能够反映该视频的主要内容,因此很容易地实现从文本到视频的新闻检索。采用本发明所述的方法,可以实现自动识别新闻视频中的标准语音,有效实现从文本到视频的新闻检索,从而充分发挥音频分析和检索技术在信息检索中的巨大作用。

Patent Agency Ranking