-
公开(公告)号:CN108733663A
公开(公告)日:2018-11-02
申请号:CN201710240236.6
申请日:2017-04-13
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种网页抓取方法和设备,该方法包括:基于第一基准URL和第二基准URL来搜索将第一基准URL所指向的第一基准网页与第二基准URL所指向的第二基准网页链接的链路,其中第一基准网页的主题与第二基准网页的主题相似;基于链路中的中间网页的数量来计算抓取深度,抓取深度限定从特定中间网页开始抓取与特定中间网页链接的网页时在深度方向上抓取网页的数量;以及围绕中心网页,基于抓取深度来扩展地抓取与第一基准网页或第二基准网页的网页结构相似的网页,其中在没有中间网页时中心网页为第一基准网页和第二基准网页,在存在中间网页时,中心网页为中间网页。根据本发明的方法和设备无需人工指定URL过滤条件,从而易于操作。
-
公开(公告)号:CN104123274B
公开(公告)日:2018-06-12
申请号:CN201310150456.1
申请日:2013-04-26
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明涉及一种对中间语的词语进行评价的方法和对中间语的词语进行评价的装置以及机器翻译方法和机器翻译设备。对中间语的词语进行评价的方法,包括确定中间语的词语相对于源语言的第一特定属性;确定中间语的词语相对于目标语的第二特定属性;根据第一特定属性和第二特定属性来计算中间语的词语的可靠性分数;以及根据可靠性分数来评价中间语的词语,其中,中间语的词语是将源语言的特定词语翻译成目标语的词语的桥梁,其中,中间语的词语的可靠性是该中间语的词语成为将源语言的特定词语翻译成目标语的词语的桥梁的可能性与语义准确性的平衡。
-
公开(公告)号:CN104462126B
公开(公告)日:2018-04-27
申请号:CN201310432213.7
申请日:2013-09-22
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供一种实体链接方法及装置,该方法包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
-
公开(公告)号:CN107766869A
公开(公告)日:2018-03-06
申请号:CN201610703646.5
申请日:2016-08-22
Applicant: 富士通株式会社
CPC classification number: G06K9/6215 , G06K9/6256 , G06K9/6267 , G06Q30/0255 , G06Q30/0271
Abstract: 本发明公开了一种对象分类方法和对象分类设备。该对象分类方法包括:将表征对象的项目序列转换为对象对应的层次结构;比较对象对应的层次结构与已知类型的层次结构的相似度;以及将相似度最大的层次结构的已知类型确定为对象的类型;其中,所述已知类型的层次结构和/或所述对象对应的层次结构中的节点被泛化,并且层次结构中越深层次中的节点被泛化的数量越多。
-
公开(公告)号:CN104239289B
公开(公告)日:2017-08-29
申请号:CN201310252998.X
申请日:2013-06-24
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明公开了音节划分方法和音节划分设备。根据本发明的音节划分方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
-
公开(公告)号:CN103514168B
公开(公告)日:2017-05-03
申请号:CN201210203751.4
申请日:2012-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。
-
公开(公告)号:CN103514192B
公开(公告)日:2017-03-01
申请号:CN201210212254.0
申请日:2012-06-21
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 公开了一种数据处理方法和设备,该方法包括:微博搜索步骤,在搜索引擎中输入给定实体的名称,以获取与该名称相关的多条微博作为目标集合;预处理步骤,对所获取的多条微博中的每条微博进行预处理,以获取与多条微博中的每条微博相关的正文信息;关系特征获取步骤,基于所获取的正文信息,获取多条微博中的各条微博的第一关系特征和第二关系特征,第一关系特征表示微博与给定实体的直接相关网页信息之间的关系,且第二关系特征表示微博与给定实体的间接相关网页信息之间的关系;以及相关性确定步骤,利用第一分类器和第二分类器,分别根据第一关系特征和第二关系特征,基于共同训练方式来确定多条微博中的各条微博与给定实体之间的相关性。
-
公开(公告)号:CN106293785A
公开(公告)日:2017-01-04
申请号:CN201510262400.4
申请日:2015-05-21
Applicant: 富士通株式会社
IPC: G06F9/445
Abstract: 本发明涉及对级联样式表的规则集进行优化的方法和装置。该方法包括:对级联样式表的规则集中的规则的语法进行归一化以消除数据在格式上的不一致;用规则和其对应的特征构成多值关系二维表,多值关系二维表的每一行为级联样式表的规则集中的规则,列为该规则所对应的特征;将多值关系二维表转换为形式背景表,形式背景表为单值关系二维表;以及基于形式背景表生成规则之间的从属关系。根据本发明的方法和装置,能够以可视化的形式展示规则及规则间的从属关系,从而提高CSS代码的灵活性和可重用性,并且提高CSS代码的开发质量。
-
公开(公告)号:CN106202129A
公开(公告)日:2016-12-07
申请号:CN201510232776.0
申请日:2015-05-08
Applicant: 富士通株式会社
Abstract: 本发明公开了一种为未发表的微博推荐话题词的方法和设备。为未发表的微博推荐话题词的方法包括:针对该微博,计算多个已有话题词的推荐得分,每个话题词的推荐得分与包含该话题词的已发表微博的数量、该话题词的扩散趋势中的至少一个、以及该微博和该话题词的内容相关性有关;以及根据话题词的推荐得分,向用户推荐适合加入该微博的话题词;其中,该话题词的扩散趋势通过如下步骤计算:统计过去每天发表的包含该话题词的微博的数量,以得到时间序列;根据该时间序列,估计趋势曲线;计算该趋势曲线在当天的斜率,作为该话题词的扩散趋势。
-
公开(公告)号:CN106156143A
公开(公告)日:2016-11-23
申请号:CN201510172386.9
申请日:2015-04-13
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明实施例提供一种网页处理装置和网页处理方法,用于在实体网页中嵌入资源描述框架属性(RDFa),该装置包括:第一识别单元,其用于识别网页的实体类型,所述实体类型对应有至少一个RDFa;第一划分单元,其基于所述网页的视觉结构以及所述实体类型,将所述网页划分为至少一个语义片段;第一确定单元,根据预先确定的语义片段与RDFa的对应关系,确定所述网页中每个语义片段所对应的所述实体类型中的RDFa,其中,所述对应关系是基于网页检索所获得的训练网页而确定的;以及嵌入单元,其用于在所述网页的每个语义片段中嵌入对应的RDFa。根据本发明实施例,无需对训练网页进行预先的人工标注,从而节省时间和人力,并且具有良好的扩展性。
-
-
-
-
-
-
-
-
-