-
公开(公告)号:CN115952802A
公开(公告)日:2023-04-11
申请号:CN202211001912.1
申请日:2022-08-21
Applicant: 华能煤炭技术研究有限公司 , 北京信息科技大学
IPC: G06F40/30 , G06F16/332 , G06F16/35 , G06N3/045 , G06N3/08
Abstract: 本发明涉及自然语言处理领域的文本处理方法,提升现有基于切分等方式处理长文本会产生信息丢失的不足,包括以下步骤:将文本按句子切分成多段内容;将每句话以[CLS]句子[SEP]的形式传入BERT预训练语言模型,获取最后一层隐藏层向量以及[CLS]对应向量;使用词注意力机制获得句子向量;获得原文所有句子的句子向量并拼接,以[SCLS]向量的形式传入transformer模型,获取最后一层隐藏层向量以及[SCLS]对应向量;使用句注意力机制获得文本向量;训练检索网络模型并更新参数,在测试集上提取文本特征并进行测试。本发明可获得更好的处理长文本,能够更为有效的提升长文本分类准确性,并且复杂度更低。
-
公开(公告)号:CN115270785A
公开(公告)日:2022-11-01
申请号:CN202210975168.9
申请日:2022-08-17
Applicant: 北京信息科技大学
IPC: G06F40/284 , G06F40/295 , G06F16/35 , G06F16/36 , G06N3/04 , G06N3/08
Abstract: 本发明涉及自然语言处理领域的知识抽取技术,特别涉及对武器装备知识领域的三元组抽取,可以充分挖掘非结构化信息,缓解模型对样本标注的依赖。包括以下步骤:(一)、通过爬虫对舰船、飞机等信息进行了采集并持久化至容器。(二)、使用自编码方式结合自注意力机制对文本的双向上下文以获取特征向量;(三)、将特征向量投入结合多轮对抗攻击的头实体识别器将其识别为头实体或尾实体;(四)、针对不同的头实体类型获取到句子向量,以字为最小粒度进行融合;(五)、在关系尾实体识别模块,指定关系对应的实体识别;本发明可获得更好缓解武器装备领域遇到的单实体重叠问题和实体对重叠问题,实现对武器装备领域的复杂关系以及隐含关系进行抽取。
-
公开(公告)号:CN112784051A
公开(公告)日:2021-05-11
申请号:CN202110157625.9
申请日:2021-02-05
Applicant: 北京信息科技大学
IPC: G06F16/35 , G06F40/295 , G06F40/30 , G06N3/04 , G06N3/067
Abstract: 本申请公开了一种专利术语抽取方法,包括:利用BERT预训练语言模型层将被标注过的字符级语料的每个字符转化为词向量,将词向量输入到BiLSTM层进行语义编码,自动提取句子特征;利用CRF层解码输出概率最大的预测标签序列,得到每个字符的标注类型,对序列中的实体提取分类。本申请实施例提供的专利术语抽取方法,利用BERT对专业领域专利文本进行向量化,能有效提高术语抽取结果的准确率,抽取效果优于当前主流的深度学习术语抽取模型,在专业领域专利文本术语抽取中,准确率、召回率和F1值均有了显著提升,可以准确快速识别出字符较多的专业领域专利长序列术语。
-
公开(公告)号:CN112528661A
公开(公告)日:2021-03-19
申请号:CN202011470736.7
申请日:2020-12-15
Applicant: 北京信息科技大学
IPC: G06F40/295 , G06F40/30
Abstract: 本申请公开了一种实体相似度计算方法,包括:概念相似度计算步骤、距离相似度计算步骤、语义相似度计算步骤以及属性相似度计算步骤。所述概念相似度计算步骤为融合路径权重的实体概念相似度计算步骤。所述语义相似度计算步骤为基于Bert的语义相似度计算步骤。所述属性相似度计算步骤为基于TextRank的属性相似度计算步骤。本申请实施例提供的实体相似度计算方法,利用概念层次和距离来衡量实体之间的差异,利用语义和属性来衡量实体之间的共性,得到的正确率、召回率以及F1值较高,相较于传统的单独使用路径或者概念层次的方法取得了更好的效果。
-
公开(公告)号:CN112417853A
公开(公告)日:2021-02-26
申请号:CN202011470329.6
申请日:2020-12-15
Applicant: 北京信息科技大学
IPC: G06F40/258 , G06F40/211 , G06F40/30 , G06N3/04 , G06N3/08
Abstract: 本申请公开了一种中文专利摘要改写方法,包括:文档预处理;句子分布式表示;句子抽取。本申请实施例提供的中文专利摘要改写方法,通过引入专利术语词典,基于强化学习的句子抽取方法,抽取专利说明书文本的关键句,利用Transformer深度神经网络文本生成方法生成候选摘要,最终融合专利原始摘要信息,经过语义去重和排序得到改写摘要,实现了端到端的专利摘要改写,并且在ROUGE‑1、ROUGE‑2和ROUGE‑L评价标准上表现极佳,明显优于其他序列生成基准方法,有利于降低人工改写的成本,提高专利数据加工的工作效率。
-
公开(公告)号:CN109960786A
公开(公告)日:2019-07-02
申请号:CN201910236195.2
申请日:2019-03-27
Applicant: 北京信息科技大学
IPC: G06F17/22
Abstract: 本发明涉及一种基于融合策略的中文词语相似度计算方法,基于HowNet、同义词词林、Word2Vec训练的中文维基百科语料以及百度词典四者相结合来计算词语相似度,对于输入的两个词语,首先判断其在HowNet或者同义词词林中是否存在,如果存在,则利用HowNet或者同义词词林来计算相似度,否则,判断其是否在维基百科语料或者百度词典中存在,如果存在,则利用word2vec或者百度词典来计算词语的相似度。本发明提供的基于融合策略的中文词语相似度计算方法,融合策略综合考虑了知网、同义词词林、word2vec和百度词典,形成了策略之间的优势互补,计算得出的斯皮尔曼相关系数和皮尔逊相关系数比其他方法高,提高了词语相似度计算结果的准确性,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109614626A
公开(公告)日:2019-04-12
申请号:CN201811566766.0
申请日:2018-12-21
Applicant: 北京信息科技大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于万有引力模型的关键词自动抽取方法,包括:步骤1)构建通用词表;步骤2)表示词语质量;步骤3)计算词语距离;步骤4)计算词间引力。本发明分别从词语的质量表示与距离计算两方面改进传统的万有引力模型,克服了传统万有引力模型方法因词语质量表示单一而无法客观反映词语初始重要性的不足,综合语义距离和依存句法距离的优势改善了对比方法中依据位置偏移距离计算引力的缺陷,本发明方法在3GPP技术规范和公开数据集上均取得了优于传统方法的关键词提取效果,无需制定繁琐的模板规则,也不依赖于标注样本,可以很好地满足实际应用的需要。
-
公开(公告)号:CN109376347A
公开(公告)日:2019-02-22
申请号:CN201811202083.7
申请日:2018-10-16
Applicant: 北京信息科技大学
Abstract: 本发明涉及一种基于主题模型的HSK作文生成方法,包括:训练LDA模型,得到句子和文本、词语和文本的分布,计算交叉熵,选择与主题关键词最相近的句子,然后生成文本。本发明提供的基于主题模型的HSK作文生成方法,通过训练LDA主题模型,得到句子和文本、词语和文本的分布,并通过计算交叉熵,选择与主题关键词最相近的句子,然后生成文本,且自动生成的文本在连贯性和逻辑性上效果好,语法错误较少,错别字较少,能够很好地完成写作任务,可以很好地满足实际应用的需要。
-
公开(公告)号:CN117034915B
公开(公告)日:2025-05-13
申请号:CN202310053706.3
申请日:2023-02-03
Applicant: 北京信息科技大学 , 复杂系统仿真总体重点实验室
IPC: G06F40/279 , G06F40/205 , G06F40/216
Abstract: 本发明涉及自然语言处理领域的文本处理方法,针对术语自动抽取任务,为了解决武器装备领域样本稀疏和长术语难以识别的问题,本文提出头尾指针和主动学习相结合的方法。在术语抽取模型方面,提出了融合五笔特征的头尾指针网络的术语抽取模型,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样本上筛选高质量样本不断迭代训练模型,降低模型对数据规模的依赖。
-
公开(公告)号:CN117034915A
公开(公告)日:2023-11-10
申请号:CN202310053706.3
申请日:2023-02-03
Applicant: 北京信息科技大学 , 复杂系统仿真总体重点实验室
IPC: G06F40/279 , G06F40/205 , G06F40/216
Abstract: 本发明涉及自然语言处理领域的文本处理方法,针对术语自动抽取任务,为了解决武器装备领域样本稀疏和长术语难以识别的问题,本文提出头尾指针和主动学习相结合的方法。在术语抽取模型方面,提出了融合五笔特征的头尾指针网络的术语抽取模型,使用BERT预训练语言模型得到词向量表示,利用头尾指针网络对长术语进行抽取;然后提出新的主动学习采样策略,在未标注样本上筛选高质量样本不断迭代训练模型,降低模型对数据规模的依赖。
-
-
-
-
-
-
-
-
-