-
公开(公告)号:CN103514168B
公开(公告)日:2017-05-03
申请号:CN201210203751.4
申请日:2012-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 一种数据处理方法和设备,该方法包括:信息搜索步骤,用于根据定制的类别,在预定信息源中输入关于所定制的类别的关键词以进行搜索,从而获得与所输入的关键词相关的多条信息;属性设定步骤,用于基于预定标准,为所获得的多条信息设定属性;第一分类器调整步骤,用于根据所设定的属性,动态地调整用于对从预定信息源获得的信息进行分类的预设第一分类器;及分类步骤,用于利用调整后的第一分类器对所获得的多条信息进行分类,其中重复执行属性设定步骤、第一分类器调整步骤及分类步骤,直至第一分类器的分类结果满足预定条件为止。根据本发明,可以通过自适应方式调整分类模型,提高了数据处理效率和信息获取的准确度。
-
公开(公告)号:CN104951478A
公开(公告)日:2015-09-30
申请号:CN201410126767.9
申请日:2014-03-31
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 本发明公开了信息处理方法和信息处理装置,该信息处理方法包括:根据预设关键词在多个媒体平台中进行搜索以得到各个媒体平台中与关键词有关的媒体条目集合;针对每个媒体条目集合,计算媒体条目之间的内容重复度,并根据算出的内容重复度对该媒体条目集合中的媒体条目进行整合,以将内容重复度满足预定条件的媒体条目整合为重复集合;从每个重复集合提取关键词,并根据所提取的关键词确定在该重复集合所属的自身媒体平台及其它媒体平台中的相似媒体条目,从而根据相似媒体条目确定话题;以及利用从话题中提取的表示该话题在多个媒体平台间的差异性的特定特征和通过对该话题预先进行标注得到的标注结果,构建用于确定该话题的状态的分类模型。
-
公开(公告)号:CN103514167A
公开(公告)日:2014-01-15
申请号:CN201210202800.2
申请日:2012-06-15
Applicant: 富士通株式会社
IPC: G06F17/30
CPC classification number: G06F17/30864
Abstract: 本发明公开了一种数据处理方法和设备,该方法可以包括:活跃时间区间确定步骤,用于确定具有相似活跃习惯的微博用户群,并且基于所确定的微博用户群中的关注用户发布的微博来确定各个微博用户群的活跃时间区间;关键词提取步骤,用于从所确定的活跃时间区间内的所有微博提取关键词;以及话题确定步骤,用于基于所提取的关键词,确定所确定的活跃时间区间内的相应话题。根据本发明,可以挖掘特定微博用户群在不同的活跃时间区间内所关注的话题,从而有针对性地进行信息发布和获取,大大提高了信息处理的效率。
-
公开(公告)号:CN102881285A
公开(公告)日:2013-01-16
申请号:CN201110204284.2
申请日:2011-07-15
Applicant: 富士通株式会社
IPC: G10L15/22
Abstract: 本发明实施例公开了一种韵律标注的方法及专用标注设备,所述方法包括:接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据;记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息;生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。通过本发明实施例,能够使标注的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。本发明实施例提供的专用标注设备也更适合盲人使用。
-
公开(公告)号:CN108694198A
公开(公告)日:2018-10-23
申请号:CN201710229239.X
申请日:2017-04-10
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 公开了一种信息收集设备和信息收集方法。该信息收集设备包括:检索单元,被配置成以预定概率选择关键词库,在选择了关键词库的情况下,从关键词库中选择关键词作为当前扩展词以与指定核心词组合进行检索,而在未选择关键词库的情况下,从扩展词库选择扩展词作为当前扩展词以与指定核心词组合进行检索或者仅使用指定核心词进行检索;以及判定单元,被配置成以预定的判定模型判定所检索到的信息是否有用,并将判定有用的信息加入到信息库中。根据本公开的实施例,可以实现信息的自动快速收集。
-
公开(公告)号:CN103365912B
公开(公告)日:2016-12-14
申请号:CN201210100155.3
申请日:2012-04-06
Applicant: 富士通株式会社
IPC: G06F17/30
Abstract: 提供了一种对实体关系模式进行聚类、提取的方法和设备。对实体关系模式进行聚类的方法包括:对原始句子进行预处理,以识别原始句子中表示实体的实体词;根据实体词和关系词本体中的关系词以及实体词和关系词在预处理后的句子中的特定出现序列确定预处理后的句子中的实体词之间的实体关系,并且根据所确定的实体关系将预处理后的句子拆分成子句;提取拆分后的子句的实体关系模式,其中,子句的实体关系模式用实体词及实体词之间的中语境组成的关系元组来表示;计算所提取的子句的实体关系模式之间的第一相似度;以及根据所计算的子句的实体关系模式之间的第一相似度,将子句的实体关系模式聚类成实体关系模式类。
-
公开(公告)号:CN102881285B
公开(公告)日:2015-10-21
申请号:CN201110204284.2
申请日:2011-07-15
Applicant: 富士通株式会社
IPC: G10L15/22
Abstract: 本发明实施例公开了一种韵律标注的方法及专用标注设备,所述方法包括:接收模块,用于接收待标注的音频数据标识,所述音频数据标识包括音频数据的批次和/或数据条目号;播放模块,用于依据所述音频数据标识向标注者播放相对应的音频数据;记录模块,用于在检测到所述标注者触发了标注过程的情况下,记录与所述标注者的标注行为相关的信息;生成模块,用于根据所述与标注者的标注行为相关的信息生成所述音频数据的音频标注信息。通过本发明实施例,能够使标注的音频标注数据更准确,进而也使得采用音频标注数据进行语音合成的准确度或者流畅程度都能够满足实际需求。本发明实施例提供的专用标注设备也更适合盲人使用。
-
-
公开(公告)号:CN108733405A
公开(公告)日:2018-11-02
申请号:CN201710239759.9
申请日:2017-04-13
Applicant: 富士通株式会社
Abstract: 公开了一种训练网页分布式表示模型的方法和装置,其中该方法包括:生成多个网页中的每个网页的文档对象模型(DOM)树结构;针对每个网页的DOM树结构,提取预定数目的预定长度的节点序列,其中每个节点序列的提取包括:随机选择广度优先遍历方式和深度优先遍历方式之一;以及从DOM树结构中随机选取一个节点,并且以所述一个节点作为起始节点,以所选择的遍历方式从DOM树结构中提取节点序列;以及基于所提取的节点序列训练所述网页分布式表示模型,网页分布式表示模型用于生成输入网页的表示向量。根据本公开的实施例,能够融合网页的文本信息和结构信息。
-
公开(公告)号:CN107977352A
公开(公告)日:2018-05-01
申请号:CN201610921729.1
申请日:2016-10-21
Applicant: 富士通株式会社
Abstract: 本公开涉及信息处理装置和方法。信息处理装置包括:语料获取单元,其获取来自因特网的文本语料,其中,所述文本语料包括训练语料以及未标注语料;词向量训练单元,其针对所述训练语料训练词向量,其中每个词的词向量为k维;词向量降维单元,其对所述训练语料中的每个句子的所有词的词向量组成的矩阵进行降维;以及归一化单元,其对降维的矩阵进行归一化处理,以获得归一化的词向量特征。根据本公开的信息处理装置可以有效地将词向量降维并归一化到固定维数,继而获得归一化的词向量特征。
-
-
-
-
-
-
-
-
-