-
公开(公告)号:CN107967285A
公开(公告)日:2018-04-27
申请号:CN201610917225.2
申请日:2016-10-20
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30654 , G06F17/30731
Abstract: 本发明涉及数据处理方法和数据处理装置。根据本发明的数据处理方法包括:基于语义知识库构建问题语句的语义图;根据所述语义图确定所述问题语句的答案类型;根据所述答案类型从所述语义图中确定候选语义子图;根据所述候选语义子图确定一个或者多个候选三元组;根据所述问题语句确定问题三元组;以及基于所述一个或者多个候选三元组中的每个候选三元组与所述问题三元组的相似度来确定所述问题语句的答案。使用根据本发明的数据处理方法和数据处理装置,能够快速可靠地根据语义知识库确定问题语句的答案。
-
公开(公告)号:CN107402933A
公开(公告)日:2017-11-28
申请号:CN201610342051.1
申请日:2016-05-20
Applicant: 富士通株式会社
Abstract: 公开了一种实体多音字消歧方法和实体多音字消歧设备,其中该实体多音字消歧方法包括:实体识别步骤,用于从输入的文本中识别出包括多音字的至少一个实体;以及确定发音步骤,对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据的数据集中的相应实体,并且基于相应实体的其属性值包含发音的至少一个属性和/或与相应实体相关联的发音,确定该实体的发音。根据本公开的实施例,能够从关联开放数据中找出实体的发音,从而能够对实体多音字的发音进行消歧。
-
公开(公告)号:CN104239300B
公开(公告)日:2017-10-20
申请号:CN201310223884.2
申请日:2013-06-06
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了从文本中挖掘语义关键词的方法和设备。根据本发明的方法包括:在文本中搜索已知词,以得到多个候选关键词;根据所述已知词的参考概率和/或上下文,计算所述多个候选关键词的候选概率,所述参考概率表明所述已知词作为锚文本的可能性,所述候选概率表明所述候选关键词作为语义关键词的可能性;以及根据所述多个候选关键词的候选概率,确定所述多个候选关键词是否为所述文本的语义关键词。
-
公开(公告)号:CN106339401A
公开(公告)日:2017-01-18
申请号:CN201510419260.7
申请日:2015-07-16
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F16/2462
Abstract: 本发明公开了一种确定实体之间的关系的方法和设备。该方法包括:基于实体特征,计算数据中的实体的两两之间的相似度、数据中的实体与知识库中的实体的两两之间的相似度;根据上述实体间的相似度,确定上述实体间的初步关系;基于所确定的初步关系以及相应的相似度、知识库中的实体的两两之间的永久关系,更新语义图,该语义图中的节点是数据中的实体和知识库中的实体,节点间的边标记有上述初步关系和永久关系以及相应的置信度;以及基于语义图,调整上述初步关系和/或相应的置信度;其中,调整后的语义图中的实体之间的置信度为1的关系即为所确定的实体之间的关系。
-
公开(公告)号:CN105989080A
公开(公告)日:2016-10-05
申请号:CN201510072365.X
申请日:2015-02-11
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明涉及确定实体属性值的装置和方法。该装置包括:数据源确定单元,被配置为以实体的名称或别称作为检索词在互联网或数据库中进行检索,确定与该实体相关的数据源,实体是给定实体集合中的一个实体;数据源置信度计算单元,被配置为针对所获得的每个数据源,根据该数据源包含的各项记录与给定实体集合中的所有实体的相似度计算该数据源的置信度;属性值置信度计算单元,被配置为根据数据源的置信度计算实体的每个属性值的置信度;以及属性值确定单元,被配置为根据每个属性值的置信度来确定实体的属性值。根据本发明的装置和方法,根据多个数据源中实体属性及属性值,找到最可信的属性值,并对实体的属性进行补全,获得更加丰富的实体信息。
-
公开(公告)号:CN105718433A
公开(公告)日:2016-06-29
申请号:CN201410737646.8
申请日:2014-12-05
Applicant: 富士通株式会社
Abstract: 本发明涉及一种表格语义化装置和方法。该装置包括:实体确定单元,被配置为将所述表格的实体列中的每一行的实体名与互联网知识库中的实体进行连接来确定各实体名在所述互联网知识库中对应的实体;属性确定单元,被配置为对于所述表格的每一行,将每一列的值与该行对应的实体在互联网知识库中的属性值的进行匹配,基于匹配结果来确定每一列对应的属性;以及表格语义化单元,被配置为基于所确定的实体和每一列对应的属性将所述表格语义化。根据本发明的表格语义化装置和方法,能够将表格信息转换为语义表示,从而将表格中隐式的语义信息显式化,并且还可以对互联网知识库进行补充和完善。
-
公开(公告)号:CN105677632A
公开(公告)日:2016-06-15
申请号:CN201410663066.9
申请日:2014-11-19
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明公开了提取用于抽取实体的模板的方法和设备。根据本发明的提取用于抽取实体的模板的方法包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。
-
公开(公告)号:CN104881397A
公开(公告)日:2015-09-02
申请号:CN201410068944.2
申请日:2014-02-27
Applicant: 富士通株式会社
Abstract: 本发明涉及一种在多个语境中对缩写词进行扩展的方法和装置。该方法包括:在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词;在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将其确定为第二类候选全称词;将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定第三类候选全称词;以及根据多个语境与第一类候选全称词和/或第二类候选词的对应关系以及置信度来构建训练数据集,学习分类模型,确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。
-
公开(公告)号:CN104142948A
公开(公告)日:2014-11-12
申请号:CN201310169283.8
申请日:2013-05-09
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了挖掘领域观点领袖的方法和设备。根据本发明的挖掘领域观点领袖的方法包括:针对给定的多个领域,从多个评论者的评论中,确定每个评论者对每个领域的兴趣度;根据所述每个评论者对每个领域的兴趣度,确定每个领域中的所述多个评论者之间的关系;以及根据所述每个领域中的所述多个评论者之间的关系,确定每个领域中其评论的影响力大的领域观点领袖。
-
公开(公告)号:CN104462126B
公开(公告)日:2018-04-27
申请号:CN201310432213.7
申请日:2013-09-22
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供一种实体链接方法及装置,该方法包括:获取实体提及的潜在链接实体;扩展所述实体提及所在的原始文本得到所述实体提及对应的第一文本,计算所述第一文本与所述潜在链接实体对应的第二文本的文本相似度;根据所述文本相似度计算所述潜在链接实体与所述实体提及的匹配度;以及将所述实体提及链接到具有满足预设条件的匹配度的潜在链接实体。本发明中,对实体提及所在的原始文本进行扩展,利用扩展后的文本筛选潜在链接实体,从而能够提高链接实体的准确性。
-
-
-
-
-
-
-
-
-