一种基于深度神经网络的信息抽取方法

    公开(公告)号:CN115130462B

    公开(公告)日:2023-09-01

    申请号:CN202210719139.6

    申请日:2022-06-23

    Abstract: 本发明涉及自然语言序列标注技术领域,公开了一种基于深度神经网络的信息抽取方法,BERT‑BiLSTM‑CRF模型能够解决信息抽取任务中存在的一词多义与同物异名问题,以及信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题,通过批量过采样的方式增加批量中少数类样本信息的数量,使得模型在训练的过程中可以有效学习到少数类样本信息的特征,从而在一定程度上解决数据类别分布不均衡的问题,使得少数类样本信息的抽取效果有显著提升。

    一种基于分层随机梯度下降的卷积神经网络训练方法

    公开(公告)号:CN111882061B

    公开(公告)日:2023-05-23

    申请号:CN202010722584.9

    申请日:2020-07-24

    Abstract: 本发明公开了一种基于分层随机梯度下降的卷积神经网络训练方法,包括:采用图像数据集分类划分方法,对图像数据集进行分类划分;统计各个类别下的样本数量,计算出与所有样本数量的比重作为权重,按照各个分类的权重,乘以批样本数量的大小,作为从各类别中抽取与批样本数量相同的样本;按照正常的梯度下降法对模型进行训练,并按照变换后的模型参数公式更新模型参数。本发明提出基于分层随机采样,进行数据集的采样,并结合随机梯度下降法进行卷积神经网络的训练,以解决简单随机采样过程中抽样误差的问题,增强模型泛化能力。

    一种基于半马尔可夫的联合识别和规范化中医症状名的方法

    公开(公告)号:CN110020428B

    公开(公告)日:2023-05-23

    申请号:CN201910132720.6

    申请日:2019-02-22

    Abstract: 本发明公开了一种基于半马尔可夫的联合识别和规范化中医症状名的方法,该模型通过识别和规范化过程分别采用半马尔可夫条件随机场和最大熵模型建模,采用L‑BFGS优化算法完成参数训练,并利用动态规划算法完成序列预测,最终通过对两个过程地互相约束和补充达到全局优化的目的,使其能更准确的识别较好的组合型临床症状名,最后通过实验验证了模型的效果。

    一种面向文件分级存储的数据迁移系统及方法

    公开(公告)号:CN111427844B

    公开(公告)日:2023-05-19

    申请号:CN202010296769.8

    申请日:2020-04-15

    Abstract: 本发明公开了一种面向文件分级存储的数据迁移系统及方法,根据周期内文件的访问次数和最近访问时间为依据对文件进行冷热程度的判别;并在数据的性质由潜热数据转变为潜冷数据时引发真正的文件迁移;包括迁移速率控制和数据迁移的控制流程。本发明通过数据冷热程度算法对数据性质进行分类,并通过计算时间长度确定负载状态,达到通过内部的数据存储调度和迁移调度,以及在业务场景下的数据自动评估方法,实现系统中数据的自动迁移,从而达到在降低数据存储成本的同时保证数据访问的高性能访问的发明目的。

    基于深度序列生成的中医方剂生成方法及相关产品

    公开(公告)号:CN115798671A

    公开(公告)日:2023-03-14

    申请号:CN202211365098.1

    申请日:2022-11-03

    Abstract: 本发明涉及自然语言生成技术领域,公开了基于深度序列生成的中医方剂生成方法及相关产品,所述方法包括:将疾病证候输入到深度序列生成模型中,通过所述深度序列生成模型输出治疗该疾病证候对应的中医方剂;本发明采用了基于标签嵌入增强的XLNet编码模型,通过训练疾病证候以及疾病证候对应的方剂,最终实现输入疾病证候,准确输出证候对应方剂的目的。XLNet编码器将疾病证候更好的表征给处理器,注意力机制使模型能够着重关注输入序列中对标签预测贡献大的部分,通过嵌入前一时间步的标签做下一步的预测,利用了标签之间的关系,改善了曝光偏差的问题;有利于辅助中医医生快速准确的开出中医方剂。

    基于深度学习的中医临床语音识别方法及模型

    公开(公告)号:CN115472157A

    公开(公告)日:2022-12-13

    申请号:CN202211006117.1

    申请日:2022-08-22

    Abstract: 本发明公开了一种基于深度学习的中医临床语音识别方法及模型,主要采用深度学习模型Conformer来完成中医临床语音识别任务,采用音频特征增强方法提升模型识别效果,在中医临床语音识别模型训练和解码过程中采用联合CTC/Attention机制,在训练阶段,目标函数联合优化CTC损失和KL散度损失;在解码阶段,首先由CTC解码生成n个最佳候选,再由Attention解码器重新评分,将得分最高的结果作为输出,从而在中医临床语音识别中得到更好的识别结果。本发明通过语音识别录入中医临床电子病历,代替中医医生通过手写病历或键盘录入病历的传统方式,可以有效节约医生录入病历的时间和减轻医生工作负担。

    基于条件随机场的中医文献指代词特征构建方法及装置

    公开(公告)号:CN115081444A

    公开(公告)日:2022-09-20

    申请号:CN202210575048.X

    申请日:2022-05-24

    Abstract: 本发明公开了一种基于条件随机场的中医文献指代词特征构建方法及装置,所述方法包括:根据中医文献字或中医文献词将中医文献数据划分成行列表达式,所述行列表达式中各行的列数一致,并且至少为两列,其中第一列为需要标注的中医文献字或中医文献词,最后一列为中医文献标记,在中医文献标记有额外特征的情况下,将额外特征的标记放到中间列。本发明通过对中医文献构建专属的特征,这有利于条件随机场更好地对中医文献进行指代词的识别。

    深度多标签电子病历集分类模型的训练方法及装置

    公开(公告)号:CN114819002A

    公开(公告)日:2022-07-29

    申请号:CN202210757461.8

    申请日:2022-06-30

    Abstract: 本发明公开了一种深度多标签电子病历集分类模型的训练方法及装置,所述方法包括:根据电子病历集生成三个批量数据集,所述三个批量数据集根据学习难度分别排列为第一数据集、第二数据集以及第三数据集;利用所述第一数据集、第二数据集以及第三数据集依次对深度多标签电子病历集分类模型进行训练;所述第一数据集通过分层抽样生成;所述第二数据集通过洗牌方法抽样生成;所述第三数据集通过概率替换抽样生成。本发明能够有效解决训练数据里的标签分布不一致的问题,并且通过这样从易到难的渐进式学习,模型的性能和泛化能力将得到极大的提升。

    一种文章题目自动生成方法

    公开(公告)号:CN110413768B

    公开(公告)日:2022-05-03

    申请号:CN201910719567.7

    申请日:2019-08-06

    Abstract: 本发明属于自然语言处理技术领域,公开了一种文章题目自动生成方法,解决现有混合式题目生成方法存在着生成的题目可读性较差以及题目不够连贯的问题。本发明包括(1)输入文章;(2)对文章进行预处理;(3)对文章进行数据增强处理;(4)基于抽取式模型生成候选摘要;(5)根据步骤(4)中得到的候选摘要分别基于生成式模型生成候选题目;(5)基于3‑gram语言模型对生成的候选题目进行可读性评估获得连贯性最强的候选题目则为文章生成的题目。

    中医临床辅助辨证模型的建立方法及系统

    公开(公告)号:CN112185567A

    公开(公告)日:2021-01-05

    申请号:CN202011368975.1

    申请日:2020-11-30

    Abstract: 本发明提出了中医临床辅助辨证模型的建立方法及系统,在基于编码解码框架的中医临床辅助辨证模型的方法中,首先使用Fast‑Text语言模型对中医临床文本数据做了数据表征,再基于编码解码框架在编码层使用双向门控循环单元,在解码层使用单向门控循环单元生成中医临床辅助诊断的结果。本发明将中医临床文本的多标签分类任务从另一个视角进行处理,转换成了中医临床文本的标签序列生成任务。采用生成方法处理多标签分类问题,将证候要素作为文本生成模型的最小语义单位进行诊断结果生成,可以解决传统的多标签分类方法无法预测未见证候描述的问题。

Patent Agency Ranking