-
公开(公告)号:CN103853702A
公开(公告)日:2014-06-11
申请号:CN201210520870.2
申请日:2012-12-06
Applicant: 富士通株式会社
IPC: G06F17/27
Abstract: 本申请公开了一种校正语料中的成语错误的装置和方法,该装置包括:变形成语检测单元,检测语料中成语的变形;第一判断单元,判断成语的变形是否存在于近义词词典或易混淆词词典中;语义相似确定单元,在确定成语的变形不在近义词词典和易混淆词词典中时,确定其与原成语之间的语义是否相似;第二判断单元,在确定成语的变形与原成语之间的语义不相似时,确定其不正确,否则确定其正确;语音相似度计算单元,在确定成语的变形不正确的情况下,计算成语的变形与原成语之间的语音相似度;字形相似度计算单元,在确定成语的变形不正确的情况下,计算其与原成语之间的字形相似度;以及校正单元,在确定成语的变形不正确的情况下,校正成语的变形。
-
公开(公告)号:CN103678285A
公开(公告)日:2014-03-26
申请号:CN201210320544.7
申请日:2012-08-31
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明公开了一种机器翻译方法和机器翻译系统。所述机器翻译方法包括:利用多个机器翻译设备,分别将源语言的原文翻译为目标语言,以得到多个候选译文;利用语言模型,针对多个候选译文分别计算语言模型得分;分别获得多个机器翻译设备给出的关于多个候选译文的设备得分;基于原文的长度和候选译文的长度,针对多个候选译文分别计算长度得分;基于语言模型得分、设备得分、长度得分的至少一个,分别计算多个候选译文的总得分;以及选择总得分最高的候选译文作为机器翻译的结果。
-
公开(公告)号:CN102855263A
公开(公告)日:2013-01-02
申请号:CN201110192171.5
申请日:2011-06-30
Applicant: 富士通株式会社
Abstract: 本发明实施例公开了一种对双语语料库进行句子对齐的方法及装置,其中双语语料库中的源语言语料和目标语言语料是块对齐的,所述方法包括:针对源语言和目标语言的每个对齐块,利用从源块和目标块中提取出的源关键词列表和目标关键词列表生成候选翻译对列表;根据候选翻译对列表中的每个翻译对的翻译概率生成双语词典;以双语词典中的每个条目中的源和目标关键词对为种子翻译对,并参考种子翻译对的上下文内容对双语词典进行扩展;将源块中的源句子翻译成目标语言,并计算翻译结果与目标块中的目标句子之间的相似度;依据相似度对源句子和目标句子进行对齐。通过本发明实施例,能够简化句子对齐时的流程,进而提高句子对齐的效率。
-
-
公开(公告)号:CN118780286A
公开(公告)日:2024-10-15
申请号:CN202310369065.2
申请日:2023-04-06
Applicant: 富士通株式会社
IPC: G06F40/295 , G06F40/30 , G06N3/045
Abstract: 本公开涉及一种信息处理装置、信息处理方法和机器可读存储介质。信息处理装置包括:构建单元,其通过原始训练样本、针对原始训练样本中的每个实体对分别构建对应于每个实体对的多个训练样本,多个训练样本中的至少一部分反映实体对中的实体之间的局部上下文关系;以及训练单元,其利用多个训练样本、针对每个实体对训练文档级关系抽取模型中的预训练语言模型,以学习每个实体对中的实体的描述在不同上下文中的重要性。该信息处理装置可以使预训练语言模型学习到描述在不同上下文中的重要性,而不需要额外的人工标注。
-
公开(公告)号:CN110472646B
公开(公告)日:2023-02-28
申请号:CN201810437393.0
申请日:2018-05-09
Applicant: 富士通株式会社
IPC: G06F18/214 , G06F18/2433
Abstract: 本公开提供了一种数据处理设备、数据处理方法及介质。根据本公开的数据处理装置包括:差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及异常检测单元,其检测所述输入数据集中的异常数据,其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。使用根据本公开的数据处理装置,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。
-
公开(公告)号:CN115563270A
公开(公告)日:2023-01-03
申请号:CN202110747494.X
申请日:2021-07-01
Applicant: 富士通株式会社
IPC: G06F16/35 , G06F16/36 , G06F40/295
Abstract: 公开了呈现提示信息的方法和装置以及存储介质。该方法包括:生成针对实体的掩码向量,该掩码向量用于在实体和上下文所构成的语句中标识出实体的位置;由BERT层基于实体和上下文生成第一向量和第二向量;由实体平均层基于掩码向量和第二向量生成第三向量;由拼接层对第一向量和第三向量进行拼接以生成第四向量;由第一分类器基于第四向量预测实体对应于预定义的多个概念中的哪一个概念;由第二分类器基于第四向量预测实体对应于预定义的多个类型中的哪一个类型;联合地训练第一分类器和第二分类器;基于经训练的第一分类器的预测结果确定实体所对应的概念,并且基于所确定的概念生成提示信息,以呈现给用户。
-
公开(公告)号:CN114911924A
公开(公告)日:2022-08-16
申请号:CN202110177358.1
申请日:2021-02-07
Applicant: 富士通株式会社
IPC: G06F16/35 , G06F40/211 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种多任务学习网络以及基于多任务学习网络的方法。该多任务学习网络包括:任务网络以及合并网络。其中任务网络包括多个子任务网络,多个子任务网络针对相同的输入生成相应的特征向量,合并网络对相应的特征向量进行拼接、对拼接后的特征向量进行优化并得到最终输出,其中多个子任务网络中的每个子任务网络包括编码层和任务层,编码层将所述输入转换成包括维度信息的编码向量并将编码向量发送到所述任务层,任务层对编码向量进行处理以生成特征向量。
-
公开(公告)号:CN111914092A
公开(公告)日:2020-11-10
申请号:CN201910384663.0
申请日:2019-05-09
Applicant: 富士通株式会社
IPC: G06F16/36
Abstract: 公开了一种针对作者消歧的信息处理装置、方法和介质。所述装置包括:图谱构建单元,其配置成基于从文献库中提取的实体及其属性来构建知识图谱,所述实体包括作者实体及其相关联的实体;遍历单元,其配置成遍历所构建的知识图谱,以获得有关作者的节点序列;对齐单元,其配置成针对所述节点序列,基于所述属性进行节点对齐;以及计算单元,其配置成计算对齐的节点序列之间的相似度,其中,根据所计算的相似度进行所述作者消歧。
-
公开(公告)号:CN111339396A
公开(公告)日:2020-06-26
申请号:CN201811549846.5
申请日:2018-12-18
Applicant: 富士通株式会社
IPC: G06F16/9535 , G06F16/35
Abstract: 本发明涉及一种提取网页内容的方法,包括:计算网页特征与至少一个网页特征聚类的代表集合的相似度,代表集合包括相应网页特征聚类中彼此间相似度较高的网页特征的样本;确定与网页特征的相似度最高的代表集合;用网页特征更新与所确定的代表集合关联的网页特征聚类;重新计算所更新的网页特征聚类的代表集合;以及根据与所更新的网页特征聚类关联的提取模板从网页中提取内容。
-
-
-
-
-
-
-
-
-