数据处理方法和设备
    11.
    发明授权

    公开(公告)号:CN103514167B

    公开(公告)日:2017-03-01

    申请号:CN201210202800.2

    申请日:2012-06-15

    Inventor: 张波 孟遥 于浩

    Abstract: 本发明公开了一种数据处理方法和设备,该方法可以包括:活跃时间区间确定步骤,用于确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;关键词提取步骤,用于从所确定的活跃时间区间内的所有微博提取关键词;以及话题确定步骤,用于基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。根据本发明,可以挖掘特定微博用户群在不同的活跃时间区间内所关注的话题,从而有针对性地进行信息发布和获取,大大提高了信息处理的效率。

    提取用于抽取实体的模板的方法和设备

    公开(公告)号:CN105677632A

    公开(公告)日:2016-06-15

    申请号:CN201410663066.9

    申请日:2014-11-19

    Abstract: 本发明公开了提取用于抽取实体的模板的方法和设备。根据本发明的提取用于抽取实体的模板的方法包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。

    基于微博平台的扩展关键词获取方法和设备

    公开(公告)号:CN103164415B

    公开(公告)日:2016-03-23

    申请号:CN201110410180.7

    申请日:2011-12-09

    Inventor: 张波 孟遥 于浩

    Abstract: 本发明公开了一种基于微博平台的扩展关键词获取方法和设备,该方法包括:条目获取步骤,以输入的关键词在微博平台进行搜索,以获取与所输入的关键词相关联的多个条目;微博条目图构建步骤,以多个条目作为节点、以各节点之间的关系作为边,计算微博条目图的各节点和各条边的权重,从而构建微博条目图;关键词袋提取步骤,从多个条目提取关键词袋;以及关键词扩展图构建步骤,以所输入的关键词和关键词袋中的各个关键词作为节点、以所输入的关键词与各个关键词之间的关系作为边,计算关键词扩展图的各节点和各条边的权重,从而构建关键词扩展图。根据本发明的实施例,能够实时地获取扩展关键词,提高了检索效率,有利于更高效地获取知识和信息。

    异常信息确定装置和方法以及电子设备

    公开(公告)号:CN104572646B

    公开(公告)日:2017-10-17

    申请号:CN201310473243.2

    申请日:2013-10-11

    Inventor: 张波 孟遥 孙俊

    Abstract: 本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。

    异常信息确定装置和方法以及电子设备

    公开(公告)号:CN104572646A

    公开(公告)日:2015-04-29

    申请号:CN201310473243.2

    申请日:2013-10-11

    Inventor: 张波 孟遥 孙俊

    CPC classification number: G06F16/9535

    Abstract: 本公开提供一种异常信息确定装置和方法以及电子设备。该异常信息确定装置包括:搜索单元,用于在预定信息源中搜索与特定关键词相关的信息;异常信息候选确定单元,用于根据异常信息的传播规律,确定搜索单元搜索到的信息中的异常信息候选;以及异常信息确定单元,用于基于异常信息候选构建异常信息分类器,并使用异常信息分类器在异常信息候选中确定异常信息。根据本公开的异常信息确定装置和方法以及电子设备能够更准确、可靠地确定诸如网络的信息源中的异常信息。

    对实体关系模式进行聚类、提取的方法和设备

    公开(公告)号:CN103365912A

    公开(公告)日:2013-10-23

    申请号:CN201210100155.3

    申请日:2012-04-06

    Abstract: 提供了一种对实体关系模式进行聚类、提取的方法和设备。对实体关系模式进行聚类的方法包括:对原始句子进行预处理,以识别原始句子中表示实体的实体词;根据实体词和关系词本体中的关系词以及实体词和关系词在预处理后的句子中的特定出现序列确定预处理后的句子中的实体词之间的实体关系,并且根据所确定的实体关系将预处理后的句子拆分成子句;提取拆分后的子句的实体关系模式,其中,子句的实体关系模式用实体词及实体词之间的中语境组成的关系元组来表示;计算所提取的子句的实体关系模式之间的第一相似度;以及根据所计算的子句的实体关系模式之间的第一相似度,将子句的实体关系模式聚类成实体关系模式类。

    超文本抓取方法和装置
    17.
    发明公开

    公开(公告)号:CN108694197A

    公开(公告)日:2018-10-23

    申请号:CN201710228779.6

    申请日:2017-04-10

    Inventor: 张波 孟遥 孙俊

    Abstract: 本申请公开了一种超文本抓取方法和装置。其中,基于第一种子页面,对链接页面进行第一遍历,以抓取超文本页面。对于通过第一遍历抓取的每一个当前页面,获得其第一权威度。若第一权威度大于第一阈值,则保留该当前页面,并基于该当前页面继续遍历;否则舍弃该当前页面,并从第二训练页面集合中选取与该当前页面相似的页面,以其所包含的链接所指向的链接页面中第二权威度最大的页面作为当前页面继续遍历;其中,所述第二权威度是对第二训练页面的权威度加以调整后的值。

    信息处理装置、信息处理方法以及信息处理设备

    公开(公告)号:CN107577683A

    公开(公告)日:2018-01-12

    申请号:CN201610523111.X

    申请日:2016-07-05

    Inventor: 张波 孟遥 孙俊

    Abstract: 本公开提供了信息处理装置、信息处理方法以及信息处理设备。信息处理装置包括:初始提取单元,其基于用户的第一输入,从作为关注对象的初始搜索结果的网页中提取与所述关注对象的特定属性有关的关注部分;初始模板生成单元,其基于所述用户的第二输入,对所述关注部分进行标注并从所述关注部分中提取所述关注对象的属性,并且利用标注的关注部分进行训练,以生成与所述关注对象的属性的上下文有关的初始属性环境模板;以及扩展模板生成单元,其利用所述初始属性环境模板,从网络中提取与所述关注对象的属性相关的网页信息,以获得扩展搜索结果,并且基于所述扩展搜索结果生成与所述关注对象的属性的上下文有关的扩展属性环境模板。

    信息处理装置和方法以及信息定位装置

    公开(公告)号:CN106802890A

    公开(公告)日:2017-06-06

    申请号:CN201510830867.4

    申请日:2015-11-25

    Inventor: 张波 孟遥 孙俊

    Abstract: 本公开提供了信息处理装置和方法以及信息定位装置。信息处理装置包括:搜索单元,用于搜索与关注对象有关的结构化的网页信息;语义特征获取单元,用于获取能够对搜索到的网页信息进行表征的语义特征,所述语义特征表示所搜索到的网页信息中的、与所述关注对象相关联的内容;以及样式特征获取单元,用于获取能够对搜索到的网页信息进行表征的样式特征,所述样式特征表示所搜索到的网页信息的结构,其中,所述样式特征获取单元被配置为计算搜索到的网页信息的DOM树中的、与给定节点有关的标签名、标识和类名的出现频率,并得到以所述出现频率为权重的样式向量,以作为所述样式特征。

    数据处理方法和设备
    20.
    发明公开

    公开(公告)号:CN103514168A

    公开(公告)日:2014-01-15

    申请号:CN201210203751.4

    申请日:2012-06-15

    Inventor: 张波 孟遥 于浩

    CPC classification number: G06F17/30864 G06F17/3071

    Abstract: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。

Patent Agency Ranking