-
公开(公告)号:CN111291545A
公开(公告)日:2020-06-16
申请号:CN202010089052.6
申请日:2020-02-12
Applicant: 株式会社三菱综合研究所 , 北京大学 , 株式会社北京大学天公系统 , 北京天公瑞丰科技有限公司
IPC: G06F40/18 , G06F40/106 , G06Q40/00
Abstract: 本发明实施例公开了一种对象项目的文稿生成方法、装置、电子设备及存储介质,方法包括:获取存储的至少一个对象项目以及与各对象项目关联的对象数值;对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,根据评价结果从对象项目及对象数值中选择目标对象项目和目标对象数值;将补充信息补充到目标对象项目和目标对象数值中,生成文稿,并将生成的文稿进行输出。通过对第一时间段的对象数值以及与第二时间段的对象数值相比第一时间段的对象数值的变化进行评价,能够根据选择的目标对象项目和目标对象数值自动生成对象项目的文稿,以更高的精度选择更有实际意义的对象数值,为用户提供更有益的信息。
-
公开(公告)号:CN102110103B
公开(公告)日:2014-04-09
申请号:CN200910243515.3
申请日:2009-12-25
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
IPC: G06F17/30
Abstract: 本发明提供了一种获取预定义字符数据的方法和装置,本发明的方法包括:对待处理字符数据进行词性标注,划分出显性字符数据或/和隐性字符数据;从所述显性字符数据中查找出具有预定义字符数据类型的数据,作为所述显性字符数据的预定义字符数据;从基准字符数据的中心实体中查找出具有所述预定义字符数据类型的数据,作为与所述隐性字符数据相对应的预定义字符数据。本发明还提供一种获取预定义字符数据的装置。本发明可按照用户的需求,选择预定义类型的字符数据,对于处理语法形式不规则的句子,尤其是句子中本身不存在显性对象的句子,提高了获得的结果范围、准确度。
-
公开(公告)号:CN101727462B
公开(公告)日:2012-04-25
申请号:CN200810224334.1
申请日:2008-10-17
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种中文比较句分类器模型生成、中文比较句识别方法及装置,包括:将数据集各句子中每一个包含设定的比较关键词的分句转化成一个序列,并为序列建立与其对应分句所属句子相同的类别标记;得到序列集;采用序列模式挖掘算法从序列集中挖掘出若干比较模式,组成比较模式集;用每一个序列逐一匹配比较模式集中的各比较模式,根据匹配结果及比较模式总数量,得到与每一个序列对应的一组特征向量;根据所述特征向量及与其对应的所述序列的类别标记,生成分类器模型;然后通过得到的比较模式集和分类器模型,识别读入的未知类别的句子,确定其是否是比较句。通过自动学习比较句的模式特征,生成分类器模型,自动、有效地识别文本中的比较句。
-
公开(公告)号:CN102110087A
公开(公告)日:2011-06-29
申请号:CN200910243474.8
申请日:2009-12-24
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司 , 北京北大方正电子有限公司
Abstract: 本发明提供了一种字符数据中实体消解的方法和装置,其中,该方法包括:获取字符数据中的基准语料和待处理语料;从基准语料内获得第一实体集合,将第一实体集合内实体建立共指关系,得到第二实体集合;从待处理语料内获得第三实体集合,并通过第三实体集合和第一实体集合构造出训练集、测试集;采用分类方法对训练集和测试集进行运算;按照运算后的结果识别出第三实体集合与第二实体集合之间的共指关系。本发明克服了字符中由于存在不规范、口语化等特点,向用户呈现词语之间的共指关系错误的问题,进而达到了指向准确、便于用户识别的效果。
-
公开(公告)号:CN101996190A
公开(公告)日:2011-03-30
申请号:CN200910090455.6
申请日:2009-08-12
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种从网页中抽取信息的方法及装置,用以解决现有技术中不能从非结构化格式的网页中获取准确的信息问题。该方法包括:查找网页中的每种信息属性,获取每种信息属性对应的信息属性候选集,根据保存的信息属性间的位置关系与布局关系概率的对应关系,查找至少两种信息属性间的至少一个最大布局关系概率,并确定查找到的最大布局关系概率对应的位置关系,从所述至少两种信息属性对应的信息属性候选集中,抽取满足所述位置关系的信息属性组合。
-
公开(公告)号:CN101729520A
公开(公告)日:2010-06-09
申请号:CN200810224969.1
申请日:2008-10-28
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
Abstract: 本发明公开了一种敏感信息的检测方法及装置,以避免现有的信息检测技术由于不能识别关键词的变异形式而造成检测效果不佳的问题。该方法获得关键词库,所述关键词库中包含对关键词进行变异处理得到的关键词变异形式信息;在检查出待检测信息中包含所述关键词库中的关键词变异形式信息时,确定待检测信息包含敏感信息。
-
公开(公告)号:CN100593783C
公开(公告)日:2010-03-10
申请号:CN200710099802.2
申请日:2007-05-30
Applicant: 北大方正集团有限公司 , 北京北大方正技术研究院有限公司 , 北京大学
Abstract: 本发明公开了一种词汇语义褒贬获得方法、系统及装置,用以提高确定词汇语义褒贬的准确率。在本发明中,通过搜索引擎查询获得命中待处理词汇的第一文档数、命中所述待处理词汇分别与每个种子词汇的结合的第二文档数集合以及命中所述结合的文档集合中相应的摘要信息;获得每个种子词汇对应的摘要信息中所述待处理词汇与相应种子词汇间符合设定共现关系的文档比例;根据所述查询的总文档数量、所述第一文档数、所述第二文档数集合、命中每个种子词汇的第三文档数集合以及每个种子词汇对应的文档比例获得所述待处理词汇与每个种子词汇的点间互信息;根据各种子词汇的褒贬情况及相应的点间互信息确定所述待处理词汇的语义褒贬。
-
公开(公告)号:CN101458708A
公开(公告)日:2009-06-17
申请号:CN200810239256.2
申请日:2008-12-05
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务信息科技有限公司
IPC: G06F17/30
Abstract: 本发明公开了一种检索结果聚类方法及装置,用以解决按照现有技术提供的检索结果聚类方法使得用户难以按照聚类标签找到符合自己需求的检索结果的问题。其中,本发明公开的该方法包括步骤:从检索结果中选取规定数目的短语;针对选取到的每个短语,对检索结果中包含该短语的检索结果进行聚类,并将该短语作为该聚类的标签。
-
公开(公告)号:CN101446940A
公开(公告)日:2009-06-03
申请号:CN200710187480.7
申请日:2007-11-27
Applicant: 北京大学 , 北大方正集团有限公司 , 北京方正电子政务技术有限公司
IPC: G06F17/27
Abstract: 本发明公开了一种为文档集自动生成摘要的方法及装置,涉及语言文字处理领域,为了解决现有技术为文档集生成摘要时,需要对文档集中全部文档的每个句子重新计算权重,造成生成摘要的速度慢、效率低的问题而发明;其包括如下步骤:计算所述新文档中每个句子的权重;更新所述文档集已有摘要中句子的权重;获得新文档和文档集已有摘要的所有非重复句子的权重排序;生成所述文档集的新摘要。本发明适用于多文档进行自动生成摘要。
-
公开(公告)号:CN100435145C
公开(公告)日:2008-11-19
申请号:CN200610072586.8
申请日:2006-04-13
Applicant: 北大方正集团有限公司 , 北京大学 , 北京北大方正技术研究院有限公司
Abstract: 本发明涉及一种基于句子关系图的多文档摘要方法,属于语言文字处理技术领域。现有的多文档摘要方法中,没有采用有效的措施保持摘要中句子的新颖性,也没有区分句子之间不同类型的关系,只简单利用了句子的自身内容来计算句子之间的关系,没有考虑句子之间可扩散的特性。本发明所述的方法提出了一种完整的基于句子关系图的多文档摘要架构,利用句子关系的扩散特性计算句子之间的真实语义关系,同时,区别对待了文档内句子关系和文档间句子关系这两种不同的关系。采用本发明所述的方法,扩展了基于图结构的摘要方法,在抽取句子的过程中既考虑句子的信息丰富程度,又考虑其新颖程度,在实际评测中取得了很好的效果。
-
-
-
-
-
-
-
-
-