数据处理设备、数据处理方法及介质

    公开(公告)号:CN110472646A

    公开(公告)日:2019-11-19

    申请号:CN201810437393.0

    申请日:2018-05-09

    Abstract: 本公开提供了一种数据处理设备、数据处理方法及介质。根据本公开的数据处理装置包括:差异获取单元,其获取两个输入数据之间的差异,其中,所述两个输入数据分别来自输入数据集与标记数据集;以及异常检测单元,其检测所述输入数据集中的异常数据,其中,对所述差异获取单元和所述异常检测单元进行训练,直到所述异常检测单元最终获得所述输入数据集中的异常数据的位置。使用根据本公开的数据处理装置,其通过两个相互交互的网络对异常数据进行检测,进而同时提高了这两个网络的性能。

    用于构造数据库的方法和装置

    公开(公告)号:CN108694208A

    公开(公告)日:2018-10-23

    申请号:CN201710233439.2

    申请日:2017-04-11

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 本公开涉及构造数据库的方法和装置。根据本公开的方法用于构造包括多个实体的数据库,其中每个实体由若干三元组 组成。该方法包括如下步骤:通过搜索引擎搜索与主语相关的网页;获得网页的结构化描述;基于网页的结构化描述确定网页中的重复性结构;从网页中的重复性结构提取谓语和宾语以形成三元组;以及合并具有同一主语的三元组以构成实体。

    地名消岐方法和地名消岐装置

    公开(公告)号:CN108572960A

    公开(公告)日:2018-09-25

    申请号:CN201710134401.X

    申请日:2017-03-08

    Inventor: 房璐 缪庆亮 孟遥

    Abstract: 本发明公开了一种地名消岐方法和地名消岐装置。根据一个具体实施示例的地名消岐方法包括:从文本中提取待消岐地名和所述待消岐地名的上下文;从关联开放数据中检索与所述待消岐地名相关的候选地名实体;以及根据所述上下文与候选地名实体的相似度、所述待消岐地名指向候选地名实体的相对重要性、以及所述上下文与候选地名实体的属性值中所包含的关联实体之间的匹配程度中的至少一个从所述候选地名实体中选择待消岐地名实际所指的地名实体。

    表格重构装置和方法
    5.
    发明授权

    公开(公告)号:CN105573971B

    公开(公告)日:2018-09-25

    申请号:CN201410532186.5

    申请日:2014-10-10

    Inventor: 缪庆亮 孟遥

    Abstract: 本发明涉及一种表格重构装置和方法。该装置包括:列属性确定单元,被配置成确定表格中每一列的属性;描述对象确定单元,被配置成通过将所确定的每一列的属性与语义知识库链接来确定表格中的描述对象;描述对象相关属性确定单元,被配置成在语义知识库中确定每个描述对象的属性集合,计算表格中每一列的属性与属性集合中的每个属性的第一相似度来确定表格中与描述对象相关的属性;以及表格重构单元,被配置成使用描述对象和与描述对象相关的属性对表格进行重构。根据本发明的表格重构装置和方法,能够将结构复杂、字段重叠、包括多个描述对象和属性的表格重构成结构简单、描述对象单一的单一描述对象表格。

    缩简词的消歧方法和消歧设备

    公开(公告)号:CN108170662A

    公开(公告)日:2018-06-15

    申请号:CN201611115210.0

    申请日:2016-12-07

    Abstract: 本发明公开了一种缩简词的消歧方法和消歧设备。该消歧方法包括:针对待处理文本中的缩简词,查找共现语义知识库中与该缩简词对应的全称实体;在查找到多个全称实体的情况下,针对每一个全称实体,检索待处理文本中出现的、共现语义知识库中与该全称实体存在关联关系的参考实体;基于参考实体与该全称实体之间的共现支持概率TF‑IDF,计算该全称实体的共现概率;基于共现概率,选择多个全称实体之一作为与该缩简词对应的全称实体;其中,所述TF‑IDF等于参考实体与该全称实体的共现次数TF和参考实体与该全称实体的逆向文件频率IDF之积。

    生成关系计算模型的方法和估计实体对之间关系的方法

    公开(公告)号:CN107957998A

    公开(公告)日:2018-04-24

    申请号:CN201610898619.8

    申请日:2016-10-14

    Inventor: 缪庆亮 孟遥

    CPC classification number: G06F17/30604

    Abstract: 本发明涉及生成关系计算模型的方法和估计实体对之间关系的方法。根据本发明的生成关系计算模型的方法包括:生成语义图;从语义图中选取具有第一类型关系的节点对和不具有所述第一类型关系的节点对作为第一类型训练样本对;以及根据第一类型训练样本对训练第一类型训练样本对的两个节点之间的路径所包含的边的第一类型关系权重参数,其中,关系计算模型包括语义图和第一类型关系权重参数。使用根据本发明的生成关系计算模型的方法和估计实体对之间关系的方法能够可靠地建立关系计算模型,并根据该模型准确地计算实体对之间关系的强弱,进而估计实体对之间的关系。

    输入法的候选词语的排序方法和排序设备

    公开(公告)号:CN107765883A

    公开(公告)日:2018-03-06

    申请号:CN201610702677.9

    申请日:2016-08-22

    CPC classification number: G06F3/0233 G06F17/278 G06F17/2785

    Abstract: 本发明公开了一种输入法的候选词语的排序方法和排序设备。该排序方法包括:获得与当前输入对应的多个候选词语;确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度;以及根据所确定的语义相关度,对多个候选词语进行排序;其中,确定多个候选词语中的每一个候选词语与参考词语之间的语义相关度包括:针对每一个候选词语,计算其语义向量与参考词语的语义向量的相似度之和或平均相似度,作为所述语义相关度;其中,所述每一个候选词语的语义向量通过如下步骤获得:将所述每一个候选词语链接到预定知识库中的一个或多个候选实体;以及将所述候选实体的描述输入到语义模型,以得到对应的语义向量。

    缩写词扩展方法和装置
    9.
    发明授权

    公开(公告)号:CN104881397B

    公开(公告)日:2018-01-30

    申请号:CN201410068944.2

    申请日:2014-02-27

    Inventor: 缪庆亮 孟遥

    Abstract: 本发明涉及一种在多个语境中对缩写词进行扩展的方法和装置。该方法包括:在多个语境中,将与缩写词具有共现模式关系的全称词确定为缩写词的第一类候选全称词;在不存在具有共现模式关系的缩写词和全称词的语境中,将第一类候选全称词作为检索词进行检索,如果某个语境含有第一类候选全称词,则将其确定为第二类候选全称词;将基于网络信息获取的与第一类候选全称词不同的所有其他与缩写词对应的全称词作为检索词进行检索,确定第三类候选全称词;以及根据多个语境与第一类候选全称词和/或第二类候选全称词的对应关系以及置信度来构建训练数据集,学习分类模型,确定第三类候选全称词的置信度,从而确定缩写词在各个语境中对应的全称词。

    生成用户词典的方法和装置

    公开(公告)号:CN107390892A

    公开(公告)日:2017-11-24

    申请号:CN201610325791.4

    申请日:2016-05-17

    Inventor: 郑仲光 孟遥 孙俊

    Abstract: 本发明涉及生成用户词典的方法和装置。该方法包括:跟踪用户的编辑历史,编辑历史包括多个单元,其中每个单元存储用户输入的拼音和对应的文字;从编辑历史还原出词的列表;计算每两个相邻词之间的转移概率;根据所计算的转移概率提取连续多个转移概率均小于预定阈值的词作为候选词串;以及当候选词串的包含至少两个词的子词串所对应的拼音被再次输入时,将子词串作为新词插入用户词典中。根据本发明的生成用户词典的方法和装置可以跟踪用户输入历史并自动挖掘用户词典的方法,能够满足各种输入习惯的用户,从而提高IME的效率和体验。

Patent Agency Ranking