基于迁移学习的中医临床语音识别方法及模型

    公开(公告)号:CN115472155A

    公开(公告)日:2022-12-13

    申请号:CN202211005796.0

    申请日:2022-08-22

    Abstract: 本发明公开了一种基于迁移学习的中医临床语音识别方法及模型,包括模型迁移和实例迁移两种学习方法,将通用领域的语音识别模型权重参数共享至中医临床语音识别模型,实现模型的迁移;并通过将西医领域的数据迁移至中医临床领域,解决了中医临床语音识别任务中中医临床领域数据量不足的问题,实现了中医临床语音到文本的转换。通过语音识别录入中医临床电子病历,代替中医医生通过手写病历或键盘录入病历的传统方式,可以有效节约医生录入病历的时间和减轻医生工作负担。

    一种基于深度神经网络的信息抽取方法

    公开(公告)号:CN115130462A

    公开(公告)日:2022-09-30

    申请号:CN202210719139.6

    申请日:2022-06-23

    Abstract: 本发明涉及自然语言序列标注技术领域,公开了一种基于深度神经网络的信息抽取方法,BERT‑BiLSTM‑CRF模型能够解决信息抽取任务中存在的一词多义与同物异名问题,以及信息抽取任务中存在的待抽取信息长短不统一和待抽取信息有错别字、描述简短等问题,通过批量过采样的方式增加批量中少数类样本信息的数量,使得模型在训练的过程中可以有效学习到少数类样本信息的特征,从而在一定程度上解决数据类别分布不均衡的问题,使得少数类样本信息的抽取效果有显著提升。

    一种术后风险预测自然语言数据增强模型及方法

    公开(公告)号:CN114334159B

    公开(公告)日:2022-06-17

    申请号:CN202210256548.7

    申请日:2022-03-16

    Abstract: 本发明公开了一种术后风险预测自然语言数据增强模型及方法,将自然语言数据通过在医学领域数据集训练下得到的预训练模型MedBERT,通过这样的方式将其转换为向量。将表格数据中的离散型变量也通过实体嵌入的方式也转换为向量,而对于这两者不同类型的数据,选择了多头自注意力的方式来将其融合。注意力机制算法将特征之间的关联性提取得到,筛选出重要特征进行预测,从而能够将自然语言数据里的关键信息与表格数据的关键信息关联起来,达到了多类型信息融合的目的,本发明首次地将自然语言数据纳入到了对术后风险预测的任务中来。

    一种软件代码知识图谱构建方法及工具

    公开(公告)号:CN114035783A

    公开(公告)日:2022-02-11

    申请号:CN202111327999.7

    申请日:2021-11-10

    Abstract: 本发明公开了一种软件代码知识图谱构建方法及工具,方法包括:数据源配置;创建配置;选择数据源中的用于形成知识图谱的数据;对代码文件进行标注,初步形成关系和实体标签,对所有关系和实体标签进行校验,从而定义Schema,形成Guideline;标注训练,统一标注的认知;根据Guideline对代码文件进行标注,形成图谱的实体,并对实体进行连接形成实体与实体之间的关系;随机抽样检查代码的正式标注结果;根据代码的正式标注结果进行知识融合,形成最终的软件代码知识图谱。本发明实现高效、高质量多人协同在线的软件代码文件处理标准定义与校验,以科学的标准化流程,引导高质量软件代码知识图谱生成。

    一种基于分层随机梯度下降的卷积神经网络训练方法

    公开(公告)号:CN111882061A

    公开(公告)日:2020-11-03

    申请号:CN202010722584.9

    申请日:2020-07-24

    Abstract: 本发明公开了一种基于分层随机梯度下降的卷积神经网络训练方法,包括:采用图像数据集分类划分方法,对图像数据集进行分类划分;统计各个类别下的样本数量,计算出与所有样本数量的比重作为权重,按照各个分类的权重,乘以批样本数量的大小,作为从各类别中抽取与批样本数量相同的样本;按照正常的梯度下降法对模型进行训练,并按照变换后的模型参数公式更新模型参数。本发明提出基于分层随机采样,进行数据集的采样,并结合随机梯度下降法进行卷积神经网络的训练,以解决简单随机采样过程中抽样误差的问题,增强模型泛化能力。

    一种实时迁移策略
    27.
    发明公开

    公开(公告)号:CN111858471A

    公开(公告)日:2020-10-30

    申请号:CN202010734285.7

    申请日:2020-07-24

    Abstract: 本发明公开了一种实时迁移策略,应用于分布式文件存储系统,基于实时记录的数据访问次数,当访问次数在固定的间隔时间长度内超过了设定的阈值则进行需要升级迁移,将全局访问进行实时监控和分析。在数据访问发生时,实时记录数据的访问次数和间隔时间;判断数据实时访问频率是否超过预设的阈值,若是,则加入到迁移队列中。根据实时记录的CPU利用率、内存使用率、存储池容量和IO队列长度自动调整访问频率策略中的参数。本发明执行全局数据访问的监控,为分布式文件存储系统的存储方法提供了有效帮助。

    一种基于部分监督学习的中文概括性文本切分方法

    公开(公告)号:CN108009156B

    公开(公告)日:2020-05-19

    申请号:CN201711444997.X

    申请日:2017-12-27

    Abstract: 本发明属于语言处理技术领域,公开了一种基于部分监督学习的中文概括性文本切分方法,将中文短文本分词任务看作二分类或者三分类问题,并根据短文本的主要特征提取具有较小噪声的前后文特征信息结合部分监督学习方法来进行分词。本发明通过五组外加一组“困难”数据集的对照实验,不难发现短文本分词的结果深受前后文信息长度的影响,其中二元前后文信息最能贴合短文本分词的特征,能够有效提高分词性能;二、三元混合特征更能表达出每个“空”的信息其性能最优秀,再多或者再少就会损失性能了;部分监督学习在短文本分词中的应用也能体现出其优秀的补齐参数能力,能够大大的减少人工标注的工作并且获得更加优秀的性能。

    一种基于主动学习的中文正式文本分词方法

    公开(公告)号:CN108519978A

    公开(公告)日:2018-09-11

    申请号:CN201810316873.1

    申请日:2018-04-10

    Abstract: 本申请提供一种基于主动学习的中文正式文本分词方法,包括:使用当前的标注数据集L训练一个朴素贝叶斯分类器;使用当前的朴素贝叶斯分类器标注未标注数据集U;使用抽样方法选择最有信息量的片段给专家标注;将新抽样的标注好的片段添加到标注数据集L中;不断迭代直到预先设定的满足条件停止。本申请的方法能够有效减少人工标注数据的同时得到一个性能较好的分词器。采用主动学习的方法抽取数据训练得到的模型比随机抽取的方法抽取数据训练得到的模型性能(采用F值度量)提升5个百分点左右。主动学习结合EM迭代后抽取数据训练得到的模型比单独采用主动学习方法抽取数据训练得到的模型,每次性能均提升1.5个百分点左右。

Patent Agency Ranking