基于自编码器融合文档信息的事件触发词抽取方法及系统

    公开(公告)号:CN110135457A

    公开(公告)日:2019-08-16

    申请号:CN201910288771.8

    申请日:2019-04-11

    Abstract: 本发明涉及一种基于自编码器融合文档信息的事件触发词抽取方法,包括:以未标注自由文本语料生成训练集,训练GRU模型以构建该自编码器;对训练语料进行预处理和标签标注,提取待识别词;以该自编码器获取该待识别词在其所在文档内的文档向量,作为该待识别词的全局特征;以该待识别词的词向量和实体类型分布式表达,作为该待识别词的局部特征;将该全局特征和该局部特征进行向量拼接,获得该待识别词的上下文特征;将该上下文特征输入Bi-GRU模型进行多分类,以识别该待识别词是否为事件触发词及该待识别词的对应事件类型。

    一种基于视觉特征的图数据检测方法、系统

    公开(公告)号:CN109828995A

    公开(公告)日:2019-05-31

    申请号:CN201811533324.6

    申请日:2018-12-14

    Abstract: 本发明涉及一种基于视觉特征的图数据检测方法和系统,包括:获取待分析的图数据,并统计该图数据的分布特征;将该分布特征输入基于视觉特征的分类模型,得到该图数据中具有相同类别的节点,通过将类别相同的该节点划分至同一分组,得到多个分组;利用基于视觉的分析模型对该分组进行聚合分析,得到每个分组的聚类特征,根据每个分组的该聚类特征进行模式总结和异常检测处理,并将每个分组的该聚类特征、模式总结结果和异常检测结果作为该图数据的检测结果。本发明不直接对大图数据的邻接矩阵或者拉普拉斯矩阵进行分解操作,处理速度快,效率高,具有更强的及时性。

    一种基于分布式内存云的图数据存储方法和系统

    公开(公告)号:CN108600321A

    公开(公告)日:2018-09-28

    申请号:CN201810253247.2

    申请日:2018-03-26

    Abstract: 本发明涉及一种基于分布式内存云的图数据存储方法和系统,包括:图服务层,用于在分布式内存云中为每个服务器分配虚拟节点,根据虚拟节点的哈希值,将虚拟节点映射到哈希环,保存映射关系作为哈希映射表,获取每个服务器所存储的图数据,同过在哈希映射表上检索图数据的哈希值,将图数据存入对应的虚拟节点;当增加新服务器时,在分布式内存云中为新服务器分配新虚拟节点并更新哈希映射表,根据新虚拟节点的哈希值,将新虚拟节点加入哈希环中,并根据虚拟节点存储的图数据的哈希值和更新后的哈希映射表,对哈希环中每个虚拟节点进行数据迁移。通过一致性哈希算法使本发明支持动态扩容,也即能增加或删除节点,且节点发生故障时能尽量减少损失。

    一种新闻事件要素抽取方法与装置

    公开(公告)号:CN104408093B

    公开(公告)日:2018-01-26

    申请号:CN201410645944.4

    申请日:2014-11-14

    Abstract: 本发明提供一种新闻事件要素抽取方法,包括:识别新闻文本中包含的人名并抽取人名特征;根据所抽取的人名特征计算人名成为新闻事件的主角的概率;以及基于该概率识别出新闻事件的主角。在一些实施例中,所述方法还包括:抽取关于新闻事件的主角的观点和发言的语句,以及新闻事件发生的地点和时间。本发明在保证抽取准确率的前提下,能够克服人工分析整理新闻信息成本高、效率低的问题,同时,也为新闻事件检索、新闻报道跟踪等上层应用提供支持。

    一种面向网络用户的个性化文本排序及推荐方法

    公开(公告)号:CN104298732B

    公开(公告)日:2018-01-09

    申请号:CN201410514028.7

    申请日:2014-09-29

    Abstract: 本发明提供一种面向网络用户的个性化文本排序及推荐方法,所述个性化文本排序方法包括对于用户的每条包括具有关键词和运算符的表达式的兴趣规则,执行以下步骤:1)、对于多个文本中的每个文本提取关键词和该关键词在该文本中的权重。2)、对于所述多个文本中的每个文本,计算该文本与该兴趣规则对应的表达式树的相似度;其中,表达式树是根据兴趣规则中包括的表达式建立的,表达式树中的节点分为运算符节点和文本节点,文本节点包括关键词和该关键词在该兴趣规则中的权重。3)、根据与所述表达式树的相似度大小,对所述多个文本中的每个文本进行排序。本发明能够在稀疏用户行为的场景下有效地将符合个性化需求的文本信息推荐给用户。

    KAD网络中由关键词哈希值推测关键词的方法及系统

    公开(公告)号:CN103605708B

    公开(公告)日:2017-12-08

    申请号:CN201310556473.5

    申请日:2013-11-11

    Abstract: 本发明提供一种KAD网络中由关键词哈希值推测关键词的方法及系统。所述方法包括利用关键词哈希值在KAD网络中搜索相关资源文件,得到所述相关资源文件的文件名;以及对所述相关资源文件的文件名进行分词处理,得到候选关键词及其在所述相关资源文件的文件名中出现的次数。所述方法还包括根据候选关键词在所述相关资源文件的文件名中出现的次数推测关键词。本发明可以准确地得到KAD网络中关键词哈希值对应的关键词信息,便于监管KAD网络、提高网络安全。

    面向开放网络知识库的实体间关系推断方法及系统

    公开(公告)号:CN103824115B

    公开(公告)日:2017-07-21

    申请号:CN201410072412.6

    申请日:2014-02-28

    Abstract: 本发明提供一种面向开放网络知识库的实体间关系推断方法。该方法包括根据目标实体从知识库中找出所有与该目标实体之间有关系路径相连的所有实体作为候选实体集;根据待推断的目标关系从所述知识库中找出的所有存在所述目标关系的实体对;以及综合考虑所找出的各实体对间的关系路径信息以及各实体的属性信息来从所述候选实体集中选出可能与该目标实体存在所述目标关系的候选实体。该方法利用知识库中已有的实体关系和实体的属性自动对实体间的关系进行推理,有效改善了推断效果,实现了对知识库中关系的丰富与完善。

    一种子话题挖掘方法
    68.
    发明公开

    公开(公告)号:CN106844416A

    公开(公告)日:2017-06-13

    申请号:CN201611024146.5

    申请日:2016-11-17

    Abstract: 本发明提供一种子话题挖掘方法,包括:1)对语料库中每篇文档的每个词语的主题值进行初始化;2)基于当前的各篇文档的各个词语的主题值,对于每篇文章中的每个词语,分别计算该词语来自各个子话题的概率以及计算该词语来自背景模块的概率,然后基于所计算出的概率,利用吉布斯采样算法重新为每篇文章中的每个词语分配主题值;其中,词语来自背景模块的概率根据预先统计的背景模块中的词语分布向量计算,所述背景模块中的词语分布向量在迭代过程中始终恒定;3)如果满足停止迭代的条件则根据当前的主题值信息得出LDA子话题,如果否,则回到步骤2)。本发明能够显著地提升针对专题文章集合的话题挖掘效果。

    一种数据加载的方法和设备

    公开(公告)号:CN106354870A

    公开(公告)日:2017-01-25

    申请号:CN201610828103.6

    申请日:2016-09-18

    CPC classification number: G06F16/254

    Abstract: 本发明提供一种数据加载系统和方法。所述方法包括:多个数据加载节点中的一个接收加载请求;响应于该加载请求,在多个数据加载节点中启动与该加载请求相对应的加载服务进程,以及生成加载标识,该加载标识与该加载服务进程相关联;数据源节点基于所述加载标识获得所述加载服务进程的监听地址;数据源节点向该监听地址发送待加载数据;数据加载节点从该监听地址接收来自该数据源节点的待加载数据,以及按照设置的路由规则将数据转发至其他数据加载节点,或者将数据加载到相关联的存储设备。根据本发明的方法,可以提高数据加载的安全性和可靠性,避免采用硬件或者频繁启动加载而带来的损耗成本,并且利用并发的系统资源来执行数据加载的过程。

Patent Agency Ranking