-
公开(公告)号:CN102073654B
公开(公告)日:2012-12-19
申请号:CN200910226108.1
申请日:2009-11-20
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明提供了生成与维护网页内容抽取模板的方法和设备。所述生成网页内容抽取模板的装置包括:输入单元;权重计算单元,被配置成计算各个输入树中的每种类型的节点的权重;最大对齐关系计算单元;合并单元;确定单元;和选择单元。所述维护网页内容抽取模板的装置包括:相似度计算单元,计算出相似度序列;统计量计算单元,利用预定大小的窗口遍历所述相似度序列并计算窗口中的统计量;统计量判断单元,根据计算的统计量来判断网页内容抽取模板是否已不适应输入网页;和重新计算单元。本发明可以高效地自动生成网页内容抽取模板,并在由于网页发生变化而导致抽取模板失效或者准确度下降时,可以快速地自动重新生成网页内容抽取模板。
-
公开(公告)号:CN102655607A
公开(公告)日:2012-09-05
申请号:CN201110062124.9
申请日:2011-03-04
Applicant: 富士通株式会社
IPC: H04N21/258 , G06F17/30
Abstract: 本发明涉及用于统计目标观众的收视率的方法和装置。用于统计目标观众的收视率的方法包括:分类体系构建步骤,构建分类体系;知识库构建步骤,对分类体系进行组织以构建知识库;收视数据获取步骤,获取收视数据;收视数据表示步骤,按照所述分类体系中所包括的与目标观众相关联的分类体系,基于知识库将收视数据表示成相应特征空间中的点;分类器构造步骤,按照与目标观众相关联的分类体系,在特征空间中通过小样本学习来构造分类器;以及收视率统计步骤,利用所构造的分类器统计目标观众的收视率。通过本发明,可以提高收视率的准确性并可以统计针对目标观众的收视率。
-
公开(公告)号:CN101833554A
公开(公告)日:2010-09-15
申请号:CN200910127231.8
申请日:2009-03-09
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 产生抽取模板的方法、设备和抽取网页内容的方法和设备。生成网页内容抽取模板的方法包括:根据一个网页建立文档对象模型树,以作为初始的联合树;根据与所述网页结构相似的多个输入网页中的每个输入网页,建立文档对象模型树,以作为输入树;计算每个所述输入树和所述联合树之间的最大对齐关系;将所述输入树中每个对齐节点的内容累计到所述联合树中的相应对齐节点,并且根据所述输入树中的每个对齐节点在联合树中的相应对齐节点的位置以及输入树中的未对齐节点和对齐节点的位置关系,将所述输入树的未对齐节点插入到联合树中;确定所述联合树中最可能具有期望文本内容的节点;和选择所述联合树中包含所确定的节点的子树作为所述网页内容抽取模板。
-
公开(公告)号:CN113032553B
公开(公告)日:2024-08-06
申请号:CN201911250452.4
申请日:2019-12-09
Applicant: 富士通株式会社
Abstract: 本公开涉及信息处理方法和信息处理装置。根据本公开的信息处理装置包括:提取单元,被配置成将多路数据转换为张量数据并且提取所述张量数据的核心张量;聚类单元,被配置成对所述核心张量执行聚类处理;贡献度计算单元,被配置成针对所述核心张量的每个簇,计算所述张量数据的各分量数据的贡献度;以及降采样单元,被配置成基于所述贡献度对所述张量数据执行降采样处理。根据本公开的信息处理装置和信息处理方法在保留张量数据的高阶特征的同时减小张量数据的存储空间和处理成本,提高用于张量数据的分类模型的分类准确性。
-
公开(公告)号:CN116090556A
公开(公告)日:2023-05-09
申请号:CN202111276397.3
申请日:2021-10-29
Applicant: 富士通株式会社
Abstract: 公开了信息处理方法、信息处理装置和存储介质。一种用于对机器学习模型的预测结果进行解释的方法,包括:基于机器学习模型的训练样本集以及相应的已知标签来提取多个规则;确定在多个规则之中待预测样本所符合的一个或多个匹配规则;生成针对机器学习模型的解释模型,该解释模型提供对于机器学习模型针对单个待预测样本所生成的预测结果的解释;生成与匹配规则分别对应的反事实规则;在训练样本集中确定符合反事实规则之一的训练样本,并且形成包含所确定的训练样本的反事实候选集;基于多个目标函数针对反事实候选集执行多目标优化,以生成反事实解释,该反事实解释为待预测样本提供改变预测结果所需要满足的条件。
-
公开(公告)号:CN107402914B
公开(公告)日:2020-12-15
申请号:CN201610341719.0
申请日:2016-05-20
Applicant: 富士通株式会社
IPC: G06F40/284 , G06F40/30 , G06N3/08
Abstract: 本发明涉及自然语言深度学习系统和方法。该系统包括:误差计算单元,其被配置成在对自然语言深度学习系统进行训练时,根据基于样本对的损失函数来计算样本的误差值,损失函数为相似度损失函数与类别损失函数的组合,其中,相似度损失函数基于如下准则来定义:当样本对的真实类别相同时,其类别预测向量值之间的差别应当较小,而当样本对的真实类别不同时,其类别预测向量值之间的差别应当较大,类别损失函数基于样本对的类别误差来定义。在该系统中,基于样本对设计损失函数,减少了基于样本对损失学习的代价。
-
公开(公告)号:CN110852110A
公开(公告)日:2020-02-28
申请号:CN201810827532.0
申请日:2018-07-25
Applicant: 富士通株式会社
Abstract: 提供了目标语句提取方法、问题生成方法以及信息处理设备。目标语句提取方法包括:通过将待处理文档中的每个词用词向量表示,构建第一语义序列;利用深度学习模型对第一语义序列进行处理,以获得第二语义序列,第二语义序列的每个元素与第一语义序列中的每个词向量对应并且体现了与该词向量有关的上下文信息;基于待处理文档中的各个词在预先获得的文档和语句对数据库中的匹配结果,分别对第二语义序列中的各个元素进行加权处理;利用序列标注模型对加权处理后的第二语义序列进行标注,并基于标注结果获取待处理文档中的目标语句,其中,深度学习模型和序列标注模型是利用标记好的训练文档和训练语句而预先训练获得的。
-
公开(公告)号:CN109947905A
公开(公告)日:2019-06-28
申请号:CN201710696739.4
申请日:2017-08-15
Applicant: 富士通株式会社
IPC: G06F16/332 , G06F16/2458
Abstract: 本发明公开了一种生成提问回答对的方法和设备。该方法包括:从已有提问回答对中,确定回答源自产品说明书的提问回答对;判断给定产品的说明书与回答源自产品说明书的提问回答对是否匹配;以及基于匹配的给定产品的说明书与回答源自产品说明书的提问回答对,生成针对给定产品的提问回答对。
-
公开(公告)号:CN108694443A
公开(公告)日:2018-10-23
申请号:CN201710217479.8
申请日:2017-04-05
Applicant: 富士通株式会社
IPC: G06N3/08
CPC classification number: G06N3/08
Abstract: 本发明涉及基于神经网络的语言模型训练方法和装置。该方法包括:针对训练集中的每一个目标词,利用噪声生成网络生成目标词特征和噪声词特征,其中,目标词特征和噪声词特征具有各自对应的类别标签;利用上下文神经网络提取目标词的上下文特征;将目标词特征、噪声词特征以及上下文特征构成训练样本输入二分类器;迭代更新噪声生成网络的参数和上下文神经网络的参数,直到二分类器的预测误差接近预定值时停止更新;以及用训练得到的上下文神经网络作为语言模型。根据本发明的方法和装置可以训练得到一种收敛速度较快同时泛化能力较好的语言模型。
-
公开(公告)号:CN104239289B
公开(公告)日:2017-08-29
申请号:CN201310252998.X
申请日:2013-06-24
Applicant: 富士通株式会社
IPC: G06F17/28
Abstract: 本发明公开了音节划分方法和音节划分设备。根据本发明的音节划分方法包括:对于给定的多音节语言单词,根据多音节语言的已知音节表,枚举所有可能的音节划分方式,所述已知音节表中记录有已知音节及其特征概率;根据所述已知音节的特征概率和与所述多音节语言单词对应的单音节语言单词的读音形式,计算每种音节划分方式的总得分;以及选择总得分最高的音节划分方式,作为所述多音节语言单词的音节划分结果。
-
-
-
-
-
-
-
-
-