网页内容提取方法和装置
    21.
    发明授权

    公开(公告)号:CN102236658B

    公开(公告)日:2015-01-14

    申请号:CN201010157766.2

    申请日:2010-04-26

    Abstract: 本发明公开了一种网页内容提取方法和装置。该网页内容提取装置包括:网页分割部分,被配置成对网页进行分割,得到至少一个布局块;布局块集合生成部分,被配置成在所述布局块中,找出具有相同宽度的布局块,得到至少一个布局块集合,各集合的布局块具有不同的宽度;布局块确定部分,被配置成确定具有最多布局块的布局块集合;内容提取部分,被配置成基于所述具有最多布局块的布局块集合来提取网页内容,其中,所述内容提取部分被配置成:根据布局块在网页中的位置,在所述具有最多布局块的布局块集合中找出首块和尾块;提取所述首块、所述尾块以及位置在所述首块和所述尾块之间的布局块的内容作为所述网页内容。

    从文本中挖掘语义关键词的方法和设备

    公开(公告)号:CN104239300A

    公开(公告)日:2014-12-24

    申请号:CN201310223884.2

    申请日:2013-06-06

    Inventor: 缪庆亮 孟遥 于浩

    CPC classification number: G06F16/3334

    Abstract: 本发明公开了从文本中挖掘语义关键词的方法和设备。根据本发明的方法包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。

    数据处理装置、数据处理方法以及电子设备

    公开(公告)号:CN104111917A

    公开(公告)日:2014-10-22

    申请号:CN201310138955.9

    申请日:2013-04-19

    Inventor: 张姝 孟遥 于浩

    CPC classification number: G06F17/28

    Abstract: 本发明提供了数据处理装置、数据处理方法以及电子设备,以克服现有的语言数据处理技术所存在的处理精度不高的问题。上述数据处理装置包括:语义角色标注单元,用于对源语言语句以及作为其译文的候选调序结果的多个目标语言语句分别进行语义角色标注,以获得源语言语义角色序列以及多个目标语言语义角色序列;匹配单元,用于基于预定双语语料库获得上述源语言语义角色序列分别与每个上述目标语言语义角色序列之间的匹配分数;以及调序结果确定单元,用于将匹配分数最高的目标语言语义角色序列对应的候选调序结果确定为最终调序结果。本发明的上述技术能够应用于数据处理领域。

    信息处理装置以及信息处理方法

    公开(公告)号:CN104102657A

    公开(公告)日:2014-10-15

    申请号:CN201310121409.4

    申请日:2013-04-09

    CPC classification number: G06F17/30867

    Abstract: 本发明涉及与混搭(mashup)技术相关的信息处理装置和信息处理方法。根据本发明的实施例的信息处理装置包括:记录单元,其被配置为记录对资源进行访问的请求;发现单元,其被配置为在记录单元中查找符合与资源状态变化有关的预定模式的请求组合;以及混搭单元,其被配置为在与请求组合相对应的功能组合中确定可混搭的功能组合,其中功能对应于针对相同类型的资源或者同一资源的、具有相同动作类型的请求。通过根据本发明的实施例的信息处理装置和相应的信息处理方法,实现了针对用户的使用习惯来提供混搭应用。

    处理包含字符的图像的方法和设备

    公开(公告)号:CN102402693B

    公开(公告)日:2014-07-30

    申请号:CN201010280256.4

    申请日:2010-09-09

    Inventor: 孙俊 于浩 直井聪

    CPC classification number: G06K9/6814 G06K9/6224

    Abstract: 提供了处理包含字符的图像的方法和设备。该方法包括:在字符集中搜索与该字符集中的某个字符(称为第一字符)在形状上相似度最高的一个或更多个字符,形成该第一字符的相似字符列表;在所述字符集中搜索与所述第一字符的相似字符列表中的每个字符在形状上相似度高的一个或更多个字符,作为所述第一字符的相似字符列表中的每个字符的相似字符列表;及在这些相似字符列表中选择彼此之间在形状上相似度高的一个或更多个字符,作为一个字符簇。

    用于评价文本的情感度的方法和设备

    公开(公告)号:CN103885933A

    公开(公告)日:2014-06-25

    申请号:CN201210564243.9

    申请日:2012-12-21

    Inventor: 缪庆亮 孟遥 于浩

    Abstract: 本发明公开了一种用于评价文本的情感度的方法和设备。所述用于评价文本的情感度的方法包括:从待评价的文本中抽取目标词和观点词;在包括有目标词簇与观点词之间的情感关系的情感语义图中,搜索与所抽取的目标词对应的或者在语义上最相近的目标词簇,搜索与所述目标词簇相关联的所述观点词;根据所述情感语义图中的所述目标词簇与所述观点词之间的情感强度和情感极性,计算所述待评价的文本的情感度。

    用于组合工具的方法和装置

    公开(公告)号:CN103838559A

    公开(公告)日:2014-06-04

    申请号:CN201210484672.5

    申请日:2012-11-23

    Inventor: 苏亮 孟遥 于浩

    Abstract: 本发明涉及一种用于组合工具的方法和装置。该方法包括以下步骤:基于对各个工具的输入和输出定义的抽象输入类型和抽象输出类型,生成用于各个工具的语义描述文件,其中所定义的抽象输入类型和抽象输出类型构成本体库;将从各个工具中选择的、要组合的多个工具封装成符合工具组合引擎要求的格式;响应于用户操作,将封装后的要组合的多个工具进行组合,并且将所得到的组合传送到工具组合引擎;根据用于要组合的多个工具的多个语义描述文件,利用本体库对组合内的工具之间的输入和输出是否可连接进行判断;以及基于判断的结果,确定组合是否有效。

    识别多级词汇组合的方法和设备

    公开(公告)号:CN102402695B

    公开(公告)日:2014-05-14

    申请号:CN201010280236.7

    申请日:2010-09-09

    Abstract: 提供了识别多级词汇组合的方法和设备。一种识别多级词汇组合的方法,所述多级词汇组合包括多个级别的词汇,不同的上级词汇对应于不同的下级词汇候选集的子集,该方法包括:分别独立识别每级词汇;根据每级词汇的识别结果来确定多级词汇组合的识别结果。根据本发明的识别多级词汇组合的方法和设备具有较强的容错性,能够实现高识别率和低拒识率。

    实体关系分类装置和实体关系分类方法

    公开(公告)号:CN103678316A

    公开(公告)日:2014-03-26

    申请号:CN201210320607.9

    申请日:2012-08-31

    Inventor: 缪庆亮 孟遥 于浩

    CPC classification number: G06F16/951 G06F17/278

    Abstract: 本发明公开了一种实体关系分类装置和实体关系分类方法,所述实体关系分类装置包括特征抽取单元,被配置为抽取输入样本中的实体的特征和实体上下文的特征;分类器,被配置为基于所述特征进行分类,得到以下概率中的至少一部分:所述实体及其特征、所述实体上下文及其特征、各种实体关系的概率,或者前述各项的各种组合的条件概率,其中,所述分类器是基于实体和实体上下文的预定模式构建的;以及实体关系概率计算单元,被配置为基于所得到的各个概率计算在所述实体和所述实体上下文的前提下各种实体关系的概率。

Patent Agency Ranking