-
公开(公告)号:CN104298714A
公开(公告)日:2015-01-21
申请号:CN201410472856.9
申请日:2014-09-16
Applicant: 北京航空航天大学
CPC classification number: G06F17/30684 , G06F17/277 , G06F17/30699 , G06F17/30734
Abstract: 本发明公开了一种基于异常处理的海量文本自动标注方法,包括如下步骤:S1,从知识库中提取命名实体以及存在关系的命名实体对,分别进行存储;S2,根据存储的命名实体,通过使用字符串匹配找出海量文本中每个句子的命名实体,根据存储的命名实体对找出文本中所有命名实体对共现的句子,进行粗标注;S3,对进行过粗标注的句子中的命名实体进行判断,当存在词对异常时,将其删除;当存在命名实体异常时,通过过滤算法将有命名实体异常的命名实体全部去除掉,得到最终的文本标注结果。本发明能够有效解决在标注过程中错误标注的问题,提高了文本标注的准确率。
-
公开(公告)号:CN102737112A
公开(公告)日:2012-10-17
申请号:CN201210125007.7
申请日:2012-04-25
Applicant: 北京航空航天大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于表现语义分析的概念相关度计算方法,包括如下步骤:(1)基于解释关系构造概念语义特征向量;(2)实现语义特征赋权和特征降维;(3)通过向量距离量化表征不同概念之间的相关度。通过实验比较,本发明所提供的基于表现语义分析的概念相关度计算方法明显优于现有的正向构造法和逆向构造法,而且该方法相比较基于明确语义分析的概念相关度计算更适用于概念关系的发现。
-
公开(公告)号:CN115329846A
公开(公告)日:2022-11-11
申请号:CN202210876028.6
申请日:2022-07-25
Applicant: 北京航空航天大学
Abstract: 本发明提供一种基于梯度提升算法的极大规摸长尾多标签分类方法,包括:获取原始文本数据;采用深度学习算法对原始文本数据进行训练,将训练的模型作为预训练模型;保留预训练模型中的编码器用以文本表征提取,将其原有的分类器舍弃,添加多层感知机作为新的弱分类器;采用梯度提升算法,基于残差对弱分类器进行训练,以提升训练模型在尾部标签上的精度,作为提升步;将二元交叉熵损失作为优化目标对整个模型进行全网络参数更新,作为更新步;交替进行提升步和更新步,得到成熟的训练模型,能够在极大规摸长尾数据的场景下进行精准的多标签分类。本方法能够快速、准确地对大量数据进行多标签分类,并能够在尾部标签上进行更精准的分类。
-
公开(公告)号:CN115146651A
公开(公告)日:2022-10-04
申请号:CN202210758569.9
申请日:2022-06-30
Applicant: 北京航空航天大学
Abstract: 本发明公开了基于记忆力机制的预训练语言模型参数微调方法,包括:构建微调预训练语言模型,其包括,获取初始BERT模型;分别将记忆力机制模块引入到所述初始BERT模型的全连接前馈网络模块和多头注意机制模块中,获得微调BERT模型,记忆力机制模块包含参数M、KP、VP;获取任务训练数据,将其划分为训练集和验证集,采用所述训练数据对所述微调BERT模型进行训练,训练时,固定所述微调BERT模型中其余参数,只对参数M、KP、VP进行迭代更新。本发明的方法极大地降低了BERT模型中参数学习的规模,提升了BERT模型对下游任务的迁移学习能力。
-
公开(公告)号:CN102737112B
公开(公告)日:2014-11-19
申请号:CN201210125007.7
申请日:2012-04-25
Applicant: 北京航空航天大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于表现语义分析的概念相关度计算方法,包括如下步骤:(1)基于解释关系构造概念语义特征向量;(2)实现语义特征赋权和特征降维;(3)通过向量距离量化表征不同概念之间的相关度。通过实验比较,本发明所提供的基于表现语义分析的概念相关度计算方法明显优于现有的正向构造法和逆向构造法,而且该方法相比较基于明确语义分析的概念相关度计算更适用于概念关系的发现。
-
-
-
-