Patent search ap:("北京北大方正技术研究院有限公司" OR "北京大学计算机科学技术研究所") AND inv:"吴於茜" Page 1

1.

发明公开
一种重要新闻事件检测和摘要的方法无效

公开(公告)号：CN1710563A

公开(公告)日：2005-12-21

申请号：CN200510084213.8

申请日：2005-07-18

Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所

Inventor： 彭宇新 , 吴於茜 , 陈晓欧

IPC: G06F17/30 , H04N7/00

Abstract: 本发明属于视频分析和检索技术领域，具体涉及一种重要新闻事件检测和摘要的方法。现有的视频摘要方法主要是针对一段视频进行摘要，但如何在多个电视台或电视频道的新闻视频数据库里，自动检测重要新闻，并按照重要度从高到低形成用户指定时间的新闻摘要，现有技术并没有涉及。本发明首先使用视频事件相似度的度量方法，计算出新闻视频库里所有新闻事件的相似度；然后，使用聚类算法，把同一新闻事件的不同报道分割为一个个聚类；最后，根据每个事件聚类中的成员数目及播报的频道和时间，自动检测重要新闻事件，并按照重要度高低，形成用户指定时间的新闻摘要。实践结果表明，本发明能够有效检测重要新闻并形成相应的新闻摘要。

2.

发明授权
一种对半结构化文档集进行文本挖掘的方法失效

公开(公告)号：CN1180377C

公开(公告)日：2004-12-15

申请号：CN02129045.8

申请日：2002-08-29

Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所

Inventor： 杨建武 , 陈晓鸥 , 吴於茜 , 万小军 , 王选 , 陈堃銶

IPC: G06N7/00

Abstract: 本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷，提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘，由于充分的利用了半结构化文档中的结构信息与链接信息，挖掘效果大大改进。本方法可广泛地应用于智能信息处理。

3.

发明公开
一种对半结构化文档集进行文本挖掘的方法失效

公开(公告)号：CN1399228A

公开(公告)日：2003-02-26

申请号：CN02129045.8

申请日：2002-08-29

Applicant: 北京北大方正技术研究院有限公司 , 北京大学计算机科学技术研究所

Inventor： 杨建武 , 陈晓鸥 , 吴於茜 , 万小军 , 王选 , 陈堃銶

IPC: G06N7/00 , G06F17/21

Abstract: 本发明属于智能信息处理技术，具体涉及一种对半结构化文档集进行文本挖掘的方法。本发明针对现有的文本挖掘处理半结构化文档集存在的挖掘效果差的缺陷，提出了一种针对半结构化文档的结构链接向量模型的挖掘方法。它能够综合利用半结构化文档中的字词信息、结构信息与链接信息，并以统一的数学模型进行表示。采用该模型对半结构化文档集进行文本挖掘，由于充分的利用了半结构化文档中的结构信息与链接信息，挖掘效果大大改进。本方法可广泛地应用于智能信息处理。

4.

发明授权
一种音频片断之间相似度度量的方法失效转让

公开(公告)号：CN100585592C

公开(公告)日：2010-01-27

申请号：CN200610080669.1

申请日：2006-05-25

Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司

Inventor： 彭宇新 , 房翠华 , 陈晓鸥 , 吴於茜

IPC: G06F17/30

Abstract: 本发明公开了一种音频片断之间相似度度量的方法。现有技术中，没有考虑音频片断中具体内容的差别而采用音频特征表示整个音频片断，因此不能有效度量音频内容的相似度。针对上述问题，本发明把音频片断度量分为两个层次：音频单元和音频片断。在音频单元阶段，本发明定义音频单元是一系列音质相似的音频帧，首先把音频片断分割为一个个音频单元，然后度量两个音频片断中音频单元的相似度；在音频片断阶段，基于音频单元的度量结果，把两个音频片断的相似度度量建模为一个带权二分图，最后使用最优匹配度量两个音频片断的相似度。试验结果表明，与现有方法相比，本发明可以取得更高的检索准确性，从而充分发挥音频检索技术在信息检索中的巨大作用。

5.

发明授权
一种支持全文检索系统同时检索数值类型数据域的方法失效转让

公开(公告)号：CN100498783C

公开(公告)日：2009-06-10

申请号：CN200610112798.4

申请日：2006-09-01

Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司

Inventor： 杨建武 , 李超 , 张阜东 , 吴於茜

IPC: G06F17/30

Abstract: 本发明公开了一种支持全文检索系统同时检索数值类型数据域的方法。该方法通过将数值类型的数据值转换成具有固定长度的有序的位串作为索引项实现数值类型数据的快速索引与检索，实现了全文检索系统对数值类型数据域的支持，解决了全文检索系统对结构化数据支持的问题。从而达到了使全文检索系统可同时对结构化数据和非结构化数据进行处理的目的。随着信息量爆炸性增长，信息检索的需要越来越深入，本发明的方法具有广泛的应用前景。

6.

发明公开
一种支持全文检索系统同时检索数值类型数据域的方法失效转让

公开(公告)号：CN101136014A

公开(公告)日：2008-03-05

申请号：CN200610112798.4

申请日：2006-09-01

Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司

Inventor： 杨建武 , 李超 , 张阜东 , 吴於茜

IPC: G06F17/30

Abstract: 本发明公开了一种支持全文检索系统同时检索数值类型数据域的方法。该方法通过将数值类型的数据值转换成具有固定长度的有序的位串作为索引项实现数值类型数据的快速索引与检索，实现了全文检索系统对数值类型数据域的支持，解决了全文检索系统对结构化数据支持的问题。从而达到了使全文检索系统可同时对结构化数据和非结构化数据进行处理的目的。随着信息量爆炸性增长，信息检索的需要越来越深入，本发明的方法具有广泛的应用前景。

7.

发明公开
关系型数据库与全文检索相结合的检索方法失效转让

公开(公告)号：CN1987853A

公开(公告)日：2007-06-27

申请号：CN200510132443.7

申请日：2005-12-23

Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学

Inventor： 王仲 , 杨建武 , 王绪胜 , 孙红娥 , 吴於茜

IPC: G06F17/30

Abstract: 本发明公开了一种关系型数据库与全文检索相结合的检索方法，为克服现有技术中关系型数据库中SQL检索方式与全文检索方式不能很好的结合、效率低下的问题而发明。包括一个以上的数据库，并对每一个数据库中需要的属性字段创建数据库检索索引库和由全文检索引擎创建全文索引库，检索时将检索条件根据需要分拆为数据库检索和全文检索两部分，分别形成相应的查询语句，数据库检索条件要求符合标准SQL规范，全文检索条件要求符合全文检索语法规则，然后前者提交关系型数据库进行数据库检索，后者提交全文检索引擎进行全文检索，从而实现两检索并行执行，大大提高检索的性能，并且能够提供全文检索引擎特定的检索机制。

8.

发明公开
一种基于簇排列的面向主题或查询的多文档摘要方法失效转让

公开(公告)号：CN1828609A

公开(公告)日：2006-09-06

申请号：CN200610072587.2

申请日：2006-04-13

Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司

Inventor： 万小军 , 杨建武 , 吴於茜 , 陈晓鸥 , 肖建国

IPC: G06F17/30 , G06F17/27

Abstract: 本发明涉及一种基于簇排列的面向主题或查询的多文档摘要方法，属于语言文字处理技术领域。现有的多文档摘要方法，在用户搜索感兴趣的主题时，不能准确地根据用户定义的兴趣爱好等属性返回相关的新闻信息和面向用户属性的摘要。本发明所述的方法提供了一种新的半监督学习算法即基于簇排列的算法，该方法全面考虑了句子之间的相互关系以及句子和用户主题或查询之间的关系，从而使得生成的摘要既能包含文档集的主要信息，又能诠释主题或回答查询，同时利用差异性惩罚算法来保证摘要的新颖性。采用本发明所述的方法能够根据用户的兴趣爱好等需求，返回相关的新闻信息，从而得到更好的面向主题或查询的多文档摘要，可以满足不同用户的个性化需求。

9.

发明公开
一种新闻网页正文信息的提取方法失效转让

公开(公告)号：CN1786965A

公开(公告)日：2006-06-14

申请号：CN200510132372.0

申请日：2005-12-21

Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学

Inventor： 舒文兵 , 吴於茜 , 肖建国

IPC: G06F17/30

Abstract: 本发明涉及一种新闻网页正文信息的提取方法，属于网页信息分析处理技术领域。现有技术中，通常采用包装器来抽取网页中感兴趣的数据，而包装器是根据一定的信息模式识别知识从特定的信息源中按固定规则抽取相关内容，并以特定形式加以表示的，包装器所需的信息模式识别知识的获取是一个费时费力且需要较高智能的工作。本发明所述的方法以堆栈数据结构，把网页数据的层次结构信息转化为用向量表达，构建和解析Html树，然后将Html树的各层次数据做对比，进行数据过滤，细化、识别，和数据重组，提取所需的数据信息。采用本发明所述的方法，适用于长期从一固定站点抓取由模版生成的新闻网页中的新闻信息，速度快，准确性高。

10.

发明授权
一种词汇语义褒贬获得方法、系统及装置失效

公开(公告)号：CN100593783C

公开(公告)日：2010-03-10

申请号：CN200710099802.2

申请日：2007-05-30

Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学

Inventor： 路斌 , 万小军 , 杨建武 , 吴於茜 , 陈晓鸥

IPC: G06F17/30 , G06F17/27

Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置，用以提高确定词汇语义褒贬的准确率。在本发明中，通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息；获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例；根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息；根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。

Search Results

Country/Region

Patent validity

Application date

Publication (announcement) day

applicant

The country/region where the applicant is located

Inventor

IPC

IPC Department

IPC class

IPC subclass

IPC group

IPC team

Appearance classification