同名人物搜索方法及系统
    31.
    发明授权

    公开(公告)号:CN102880623B

    公开(公告)日:2015-09-09

    申请号:CN201110209561.9

    申请日:2011-07-13

    Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。

    从评论性文本中提取评价性信息的方法和装置

    公开(公告)号:CN102163189B

    公开(公告)日:2014-07-23

    申请号:CN201010120101.4

    申请日:2010-02-24

    Abstract: 一种提取评价性信息的方法和装置。该方法包括:预处理步骤,对所收集的评论性文本进行预处理,以便获得与评论性文本中包含的至少一个被评价对象相关的评论性成分以及至少一个被评价对象在评论性文本中的位置;第一提取步骤,对经过预处理的评论性文本进行初始匹配处理,以便提取得到包含至少一个评价向量的第一评价向量集合;第二提取步骤,通过扩展所述至少一个被评价对象的作用域来进行扩展的匹配处理,以便为所述第一评价向量集合中的、缺少被评价对象的至少一个评价向量获得相应的被评价对象,从而获得第二评价向量集合。根据本发明的方法可使得从评论性文本中提取有意义的评价性信息的覆盖率得到提高,且提升提取处理的准确性。

    确定微博与给定实体的相关性的方法和装置

    公开(公告)号:CN103164428A

    公开(公告)日:2013-06-19

    申请号:CN201110414476.6

    申请日:2011-12-13

    Abstract: 本发明涉及确定微博与给定实体的相关性的方法和装置。确定多个微博中的每个微博与给定实体的相关性的方法包括:提取多个微博中的每个微博的特征;根据所提取的特征确定微博之间的相似度;以及利用所确定的微博之间的相似度,基于半监督分类器来确定多个微博中的每个微博与给定实体的相关性。

    同名人物搜索方法及系统
    34.
    发明公开

    公开(公告)号:CN102880623A

    公开(公告)日:2013-01-16

    申请号:CN201110209561.9

    申请日:2011-07-13

    Abstract: 本发明实施例公开了一种同名人物搜索方法及装置,其中,所述方法包括:针对输入的目标人物名称,检索得到包含所述目标人物名称的相关文档;分别提取各个相关文档中的人物关系特征信息,统计各个相关文档中的所述人物关系特征信息,建立人物关系图,并计算所述目标人物名称与所述人物关系图中其他人物名称之间的关系强度;根据各个相关文档各自包含的人物名称,以及所述关系强度,为各个相关文档建立人物关系特征向量;根据所述人物关系特征向量,对各个相关文档进行聚类,得到人物关系聚类结果,以便至少根据所述人物关系聚类结果给出搜索结果。通过本发明,能够提高同名人物聚类的准确度,进而提高搜索结果的质量,提升搜索引擎的性能。

    生成与维护网页内容抽取模板的方法和设备

    公开(公告)号:CN102073654B

    公开(公告)日:2012-12-19

    申请号:CN200910226108.1

    申请日:2009-11-20

    Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。

    用于统计目标观众的收视率的方法和装置

    公开(公告)号:CN102655607A

    公开(公告)日:2012-09-05

    申请号:CN201110062124.9

    申请日:2011-03-04

    Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。

    产生抽取模板的方法、设备和抽取网页内容的方法和设备

    公开(公告)号:CN101833554A

    公开(公告)日:2010-09-15

    申请号:CN200910127231.8

    申请日:2009-03-09

    Inventor: 夏迎炬 张姝 于浩

    Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。

    目标语句提取方法、问题生成方法以及信息处理设备

    公开(公告)号:CN110852110B

    公开(公告)日:2023-08-04

    申请号:CN201810827532.0

    申请日:2018-07-25

    Inventor: 张姝 孟遥

    Abstract: 提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。

    对实体词的语义关系进行分类的方法、装置和电子设备

    公开(公告)号:CN108021544A

    公开(公告)日:2018-05-11

    申请号:CN201610929103.5

    申请日:2016-10-31

    Inventor: 张姝 杨铭 孙俊

    Abstract: 本申请实施例提供一种对文本序列中实体词的语义关系进行分类的方法、装置和电子设备,该装置包括:第一获得单元,其用于将文本序列中的每个词用词向量表示,以构建第一矩阵;第二获得单元,其利用深度学习模型对所述第一矩阵进行处理,以获得第二矩阵;第三获得单元,其利用2个以上的注意力模型,对所述第二矩阵进行处理,以确定所述文本序列中词的受关注程度,并基于所述受关注程度获得所述文本序列的第三矩阵;分类单元,其至少根据所述文本序列的所述第三矩阵,以及预先存储的分类模型,来确定所述文本序列中的实体词之间的语义关系。根据本实施例,能够提高分类效率。

    一种自适应且分布无关的时间序列异常点检测方法

    公开(公告)号:CN105678409A

    公开(公告)日:2016-06-15

    申请号:CN201511029681.5

    申请日:2015-12-31

    CPC classification number: G06Q10/04

    Abstract: 一种自适应且分布无关的时间序列异常点检测方法,涉及信息技术领域,尤其涉及一种自适应且分布无关的时间序列异常点检测方法。本发明为了解决现有时间序列数据中存在未知分布、界限控制难、参数需求多、训练数据少以及‘异常’本身的模糊性的问题。本发明按以下步骤进行:一、异常点的定义;二、时间序列特征化;三、相似度和异常度确定;四、基于统计假设检验的检测;五、增强式模糊化过程。本发明解决了现有技术中时间序列数据存在的一系列技术问题,并取得良好技术效果。本发明可应用于信息技术领域。

Patent Agency Ranking