-
公开(公告)号:CN107402933A
公开(公告)日:2017-11-28
申请号:CN201610342051.1
申请日:2016-05-20
Applicant: 富士通株式会社
Abstract: 公开了一种实体多音字消歧方法和实体多音字消歧设备,其中该实体多音字消歧方法包括:实体识别步骤,用于从输入的文本中识别出包括多音字的至少一个实体;以及确定发音步骤,对于所述至少一个实体中的每个实体,将该实体链接到关联开放数据的数据集中的相应实体,并且基于相应实体的其属性值包含发音的至少一个属性和/或与相应实体相关联的发音,确定该实体的发音。根据本公开的实施例,能够从关联开放数据中找出实体的发音,从而能够对实体多音字的发音进行消歧。
-
公开(公告)号:CN103853706B
公开(公告)日:2017-04-12
申请号:CN201210519822.1
申请日:2012-12-06
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体‑繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
-
公开(公告)号:CN105677632A
公开(公告)日:2016-06-15
申请号:CN201410663066.9
申请日:2014-11-19
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本发明公开了提取用于抽取实体的模板的方法和设备。根据本发明的提取用于抽取实体的模板的方法包括:从训练语料中,创建参考表,所述参考表包括:符合第一预定条件的普通字符和元字符的组合、相应的评价值;根据参考表,从训练语料中,提取候选模板;利用验证语料,验证候选模板的有效性;根据验证结果,调整所述参考表中的相关评价值;以及在满足第二预定条件时将所述第二预定条件被满足时的候选模板确定为所提取的模板。
-
公开(公告)号:CN105095699A
公开(公告)日:2015-11-25
申请号:CN201410214374.3
申请日:2014-05-20
Applicant: 富士通株式会社
IPC: G06F21/16
Abstract: 本发明涉及一种在文本中嵌入水印信息的方法、从文本中解码水印信息的方法以及在文本中嵌入水印信息的装置。在文本中嵌入水印信息的方法包括:在文本中识别这样的字符,每个字符的编码属于一个集合,集合包含初始编码和至少一个候选编码,初始编码和候选编码属于同一字符编码集合但表示具有相同字形的字符;以及通过用所识别字符的初始编码是否被相应候选编码所替换来表示第一位值和第二位值,将水印信息编码到文本中。
-
公开(公告)号:CN103853706A
公开(公告)日:2014-06-11
申请号:CN201210519822.1
申请日:2012-12-06
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明公开了一种用于将简体汉语句子转换为繁体汉语句子的方法和设备。所述方法包括:由基于简体-繁体字符一对多转换表的序列标注模型,对输入的简体汉语句子进行序列标注,以得到多组序列标注结果及其组概率;对所述简体汉语句子进行分词和词性标注;根据所述简体汉语句子中的歧义字的词性和歧义词的转换概率中的至少一个以及所述组概率,从所述多组序列标注结果中选择最佳标注结果;以及按照所述最佳标注结果,基于所述一对多转换表,将所输入的简体汉语句子中的、所述一对多转换表中出现的简体字符转换为繁体字符;其中在所述一对多转换表中,每一个简体字符对应于按顺序排列的多个候选繁体字符。
-
公开(公告)号:CN116244404A
公开(公告)日:2023-06-09
申请号:CN202111470762.4
申请日:2021-12-03
Applicant: 富士通株式会社
IPC: G06F16/33 , G06F40/211 , G06F40/284 , G06F18/214
Abstract: 本公开内容涉及生成扩展预训练语言模型的方法和装置以及自然语言处理方法。根据本公开内容的一个实施例,该生成扩展预训练语言模型的方法包括以迭代方式训练扩展预训练语言模型。训练扩展预训练语言模型包括:基于用于随机掩藏包含未登录词汇的样本句子中的词汇的第一掩码生成样本句子的编码特征;基于编码特征生成预测掩藏词汇;以及基于预测掩藏词汇调整扩展预训练语言模型。本公开内容的方法和装置的有益效果包括以下中的至少一个:减少训练时间、提高任务精度、节省硬件资源及使用便利。
-
公开(公告)号:CN112560470A
公开(公告)日:2021-03-26
申请号:CN201910842145.9
申请日:2019-09-06
Applicant: 富士通株式会社
IPC: G06F40/289
Abstract: 本公开内容涉及生成用于识别文本中的化学名称的有限状态自动机的方法、装置及识别方法。根据本公开内容的一个实施例,该方法包括以下步骤:将有机物名称集中出现的字符片段的类别的表示常量代入所述有机物名称集以得到转换名称集;基于转换名称集中重复出现的转换名称片段更新转换名称集;以及基于更新的转换名称集生成有限状态自动机。本公开内容的方法、装置和存储介质至少能有助于实现如下效果之一:自动生成识别规则、生成有限状态自动机的方法简单、识别化学名称效率高、识别率高。
-
-
公开(公告)号:CN106557528A
公开(公告)日:2017-04-05
申请号:CN201510641498.4
申请日:2015-09-30
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了一种信息处理装置及方法。其中,信息处理装置包括:第一获取单元,被配置成获取待识别实体的第一属性特征向量,其中,所述第一属性特征向量至少反映语义数据库的属性中的至少一部分在描述语义数据库中包括的特定类型的实体时的重要性程度;以及类型识别单元,被配置成基于所述第一属性特征向量判定所述待识别实体是否属于所述特定类型。根据本发明实施例的方法和装置,可以自动、准确地判定待识别实体是否属于特定类型/子类型,从而在信息处理过程中大大降低计算量并提高查询结果的准确率。
-
公开(公告)号:CN106354728A
公开(公告)日:2017-01-25
申请号:CN201510419244.8
申请日:2015-07-16
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了一种利用语义图生成对象之间的关联强度的方法和设备。该方法包括:按照预先确定的针对对象的语义图结构,从与对象相关联的数据集构建语义图,其中,语义图的节点包括对象节点和与对象相关联的关联数据节点,两节点之间的边表明两节点之间存在语义关系,边的权重表明语义关系的强弱;在语义图中搜索第一对象节点与第二对象节点之间满足条件的语义路径;根据每个语义路径包括的边的权重,计算每个语义路径的关联强度;以及根据每个语义路径的关联强度和每个语义路径的权重,计算第一对象节点和第二对象节点之间的关联强度。
-
-
-
-
-
-
-
-
-