一种重要新闻事件检测和摘要的方法

    公开(公告)号:CN1710563A

    公开(公告)日:2005-12-21

    申请号:CN200510084213.8

    申请日:2005-07-18

    Abstract: 本发明属于视频分析和检索技术领域,具体涉及一种重要新闻事件检测和摘要的方法。现有的视频摘要方法主要是针对一段视频进行摘要,但如何在多个电视台或电视频道的新闻视频数据库里,自动检测重要新闻,并按照重要度从高到低形成用户指定时间的新闻摘要,现有技术并没有涉及。本发明首先使用视频事件相似度的度量方法,计算出新闻视频库里所有新闻事件的相似度;然后,使用聚类算法,把同一新闻事件的不同报道分割为一个个聚类;最后,根据每个事件聚类中的成员数目及播报的频道和时间,自动检测重要新闻事件,并按照重要度高低,形成用户指定时间的新闻摘要。实践结果表明,本发明能够有效检测重要新闻并形成相应的新闻摘要。

    一种音频片断之间相似度度量的方法

    公开(公告)号:CN100585592C

    公开(公告)日:2010-01-27

    申请号:CN200610080669.1

    申请日:2006-05-25

    Abstract: 本发明公开了一种音频片断之间相似度度量的方法。现有技术中,没有考虑音频片断中具体内容的差别而采用音频特征表示整个音频片断,因此不能有效度量音频内容的相似度。针对上述问题,本发明把音频片断度量分为两个层次:音频单元和音频片断。在音频单元阶段,本发明定义音频单元是一系列音质相似的音频帧,首先把音频片断分割为一个个音频单元,然后度量两个音频片断中音频单元的相似度;在音频片断阶段,基于音频单元的度量结果,把两个音频片断的相似度度量建模为一个带权二分图,最后使用最优匹配度量两个音频片断的相似度。试验结果表明,与现有方法相比,本发明可以取得更高的检索准确性,从而充分发挥音频检索技术在信息检索中的巨大作用。

    关系型数据库与全文检索相结合的检索方法

    公开(公告)号:CN1987853A

    公开(公告)日:2007-06-27

    申请号:CN200510132443.7

    申请日:2005-12-23

    Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法,为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库,并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库,检索时将检索条件根据需要分拆为数据库检索和全文检索两部分,分别形成相应的查询语句,数据库检索条件要求符合标准SQL规范,全文检索条件要求符合全文检索语法规则,然后前者提交关系型数据库进行数据库检索,后者提交全文检索引擎进行全文检索,从而实现两检索并行执行,大大提高检索的性能,并且能够提供全文检索引擎特定的检索机制。

    一种基于簇排列的面向主题或查询的多文档摘要方法

    公开(公告)号:CN1828609A

    公开(公告)日:2006-09-06

    申请号:CN200610072587.2

    申请日:2006-04-13

    Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法,在用户搜索感兴趣的主题时,不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法,该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系,从而使得生成的摘要既能包含文档集的主要信息,又能诠释主题或回答查询,同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求,返回相关的新闻信息,从而得到更好的面向主题或查询的多文档摘要,可以满足不同用户的个性化需求。

    一种新闻网页正文信息的提取方法

    公开(公告)号:CN1786965A

    公开(公告)日:2006-06-14

    申请号:CN200510132372.0

    申请日:2005-12-21

    Abstract: 本发明涉及一种新闻网页正文信息的提取方法,属于网页信息分析处理技术领域。现有技术中,通常采用包装器来抽取网页中感兴趣的数据,而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容,并以特定形式加以表示的,包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构,把网页数据的层次结构信息转化为用向量表达,构建和解析Html树,然后将Html树的各层次数据做对比,进行数据过滤,细化、识别,和数据重组,提取所需的数据信息。采用本发明所述的方法,适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息,速度快,准确性高。

    一种词汇语义褒贬获得方法、系统及装置

    公开(公告)号:CN100593783C

    公开(公告)日:2010-03-10

    申请号:CN200710099802.2

    申请日:2007-05-30

    Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

Patent Agency Ranking