一种小样本命名实体识别模型训练方法及识别方法

    公开(公告)号:CN115759103A

    公开(公告)日:2023-03-07

    申请号:CN202211527749.2

    申请日:2022-11-30

    Abstract: 本发明提供一种小样本命名实体识别模型训练方法,包括:S1、获取训练集、训练集类型描述集合以及支持集、支持集类型描述集合;S2、分别在训练集和支持集上挖掘每个样本中的线索词并进行线索词标注以分别获得包含命名实体标签和线索词标签的训练集和支持集;S3、采用经步骤S2处理后的训练集和训练集类型描述集合对基础命名实体识别模型进行多轮迭代训练至收敛;S4、采用经步骤S2处理后的支持集和支持集类型描述集合对经步骤S3训练后的基础命名实体识别模型进行迁移训练直至收敛,获得由编码器和最近邻分类器组成的小样本命名实体识别模型。

    基于因果关系的序列到序列文本摘要生成方法及系统

    公开(公告)号:CN115658881A

    公开(公告)日:2023-01-31

    申请号:CN202211215316.3

    申请日:2022-09-30

    Abstract: 本发明提出一种基于因果关系的序列到序列文本摘要生成方法和系统,属于自然语言处理和自动文本摘要生成领域。本方法受到因果理论的启发,从数据生成的角度研究了摘要任务中各要素的因果关系。该方法首先引入两个不可观测变量,得出摘要任务的结构因果模型;然后根据结构因果模型得出相应的序列到序列生成框架,用于建模原文和摘要的生成过程。该框架包含三个核心模块:双隐变量变分编码器、原文重构解码器和摘要预测解码器。此方法不仅比现有的端到端深度文本摘要方法具备更强的可解释性,还具备更好的摘要性能和更强的泛化能力。该方法是一个具备强适用性的序列到序列框架,因此可以迁移到更多模型主体、生成任务和不同数据集上。

    一种基于类别稠密向量表示的通用文本分类方法及系统

    公开(公告)号:CN111259658B

    公开(公告)日:2022-08-19

    申请号:CN202010080710.5

    申请日:2020-02-05

    Abstract: 本发明提出一种基于类别稠密向量表示的通用文本分类方法及系统,包括:获取包括以标记类别文本的训练数据,使用全连接网络处理该训练数据,得到各类别的类别稠密向量;将待分类文本输入至深度神经网络,得到该待分类文本中每个词的词稠密向量,并集合该词稠密向量得到该待分类文本的文本稠密向量;将该文本稠密向量和该类别稠密向量输入至匹配度测量模型,得到该待分类文本属于各类别的概率分布,将该待分类文本与该概率分布中概率最大的类别相匹配,作为该待分类文本的分类结果。本发明基于类别稠密向量表示,将文本分类问题转化为文本匹配问题,通过计算输入文本与每个类别之间的匹配程度,将文本分到匹配程度最大的类别之中。

    一种开放域文本的实体关系抽取方法及系统

    公开(公告)号:CN114021566A

    公开(公告)日:2022-02-08

    申请号:CN202111268377.1

    申请日:2021-10-29

    Abstract: 本发明提出一种开放域文本的实体关系抽取方法和系统,包括:获取已标注的文本作为训练数据,实体识别抽取训练数据中所有命名实体和名词短语,并对其进行数据增强;以增强后的数据为输入,训练神经网络模型,得到实体关系分类模型;统计增强后的数据中各命名实体和名词短语出现的词频,并将词频大于预设值的命名实体和名词短语标记为过滤词汇;获取开放域文本及其对应的头实体,抽取开放域文本中除过滤词汇以外的命名实体和名词短语并输入实体关系分类模型,得到开放域文本的实体关系。通过有效的数据增强策略,无需增加额外的成本,有效解决由于候选尾实体带来的噪音问题导致的实体关系识别在实际应用中效果不佳的问题。

    一种基于动态代码生成的图计算方法及系统

    公开(公告)号:CN110287378B

    公开(公告)日:2021-10-19

    申请号:CN201910441015.4

    申请日:2019-05-24

    Abstract: 本发明提出一种基于动态代码生成的图计算方法及系统,包括:根据建图请求,构造包含图操作原语的中间图结构,并将中间图结构与图名关联后存入中间图缓存器;根据图算法请求,生成由外部代码字节码构成的图算法结构,发送至图算法缓存器;以执行请求检索中间图缓存器和图算法缓存器,得到待执行中间图结构、待执行图算法结构与参数列表组成的三元组,并在本地代码缓存器中检索三元组,得到本地代码缓存器中的执行对象,以执行得到结果。本发明在本地代码空间中注入生成代码,消除了数据交换的开销;构建了可二次编译的中间图结构,使图数据的访问代码可进行编译优化;同时增加了中间图结构缓存与图算法缓存,规避了图计算的预处理开销。

    一种用于金融市场监管的流动性评价方法

    公开(公告)号:CN112907380A

    公开(公告)日:2021-06-04

    申请号:CN202110317928.2

    申请日:2021-03-25

    Abstract: 本发明提供一种用于金融市场监管的流动性评价方法,包括:步骤L1,基于获取的交易记录建立交易网络有向图;所述交易记录包括卖方、买方、交易量、交易次数;所述交易网络有向图中,节点代表交易者,边由卖方指向买方,边上的权重为交易量;步骤L2,对所述交易网络有向图网络做k‑core分解,将所述交易网络有向图按层划分;步骤L3,计算每两层之间的流动性指标;步骤L4,基于层间的所述流动性指标,生成层间流动性分布图。

    一种网站列表页面的分类方法、系统及存储介质

    公开(公告)号:CN112287273A

    公开(公告)日:2021-01-29

    申请号:CN202011161426.7

    申请日:2020-10-27

    Abstract: 本发明涉及一种网站列表页面的分类方法,所述网站系基于超文本标记语言(HTML),方法包括:步骤100,获取网站页面集合,页面归属于同一网站;步骤200,提取每一网站页面的文档对象模型(Document Object Model,DOM)的树结构特征和页面文本特征,分别构成DOM树结构特征空间和页面文本特征空间;步骤300,在DOM树结构特征空间和页面文本特征空间针对DOM树结构特征和页面文本特征分别进行聚类,分别得到结构类簇和文本类簇;步骤400,根据网站页面的网址链接(URL),在结构类簇与文本类簇之间进行映射,当映射出现多对一的情况,则选择最大相交的结构类簇或者文本类簇,并找到所述最大相交的结构类簇或者文本类簇在网站中的最近公共父节点,该公共父节点即为列表页面。

    一种网络事件预警方法及系统

    公开(公告)号:CN111914152A

    公开(公告)日:2020-11-10

    申请号:CN202010615515.8

    申请日:2020-06-30

    Abstract: 本发明提出一种网络事件预警方法及系统,包括:针对现有网络事件预警技术在子指标的计算、指标权重的赋值、预警效果的评价方面缺乏足够客观性,进而影响预警准确率的问题,本发明提出一种网络事件预警方法及系统。在计算子指标方面,本发明充分考虑消息之间的相互影响,利用物理学中的安培定律,让预警结果尽可能地反应整个事件的走向,提升客观性,提高预警准确率。在通过子指标逐级向上计算父指标方面,本发明利用物理学中场的概念来分析指标之间的关系,并借用场的度量方法为子指标赋权重,不需要专家参与,提升赋值过程的客观性,提高预警准确率。在网络事件预警评价方面,本发明借鉴异常检测思想提出客观的预警评价方法,提高评价的准确率。

    一种用于倾斜数据的流式计算引擎运行方法及系统

    公开(公告)号:CN110990059A

    公开(公告)日:2020-04-10

    申请号:CN201911191154.2

    申请日:2019-11-28

    Abstract: 本发明提出一种用于倾斜数据的流式计算引擎运行方法及系统,包括:获取包含倾斜数据的用户作业,并将该用户作业转换为表示该用户作业的有向无环图,根据该有向无环图中算子的业务处理逻辑,将该有向无环图中节点划分为有状态算子和无状态算子;将全部状态算子包装为有状态任务后输入有状态数据流,将全部无状态算子包装为无状态任务后输入无状态数据流;将该无状态数据流中无状态任务复制发送至任意计算节点,得到无状态处理结果;将该有状态数据流中有状态任务转换为包含键和值的数据记录,将包含相同键的数据记录分配至相同计算节点,得到有状态处理结果,集合该无状态处理结果和有状态处理结果作为该用户作业的运行结果。

Patent Agency Ranking