-
公开(公告)号:CN104281645A
公开(公告)日:2015-01-14
申请号:CN201410425148.X
申请日:2014-08-27
Applicant: 北京理工大学
CPC classification number: G06F17/277
Abstract: 本发明涉及一种基于词汇语义和句法依存的情感关键句识别方法,属于自然语言处理应用技术领域,包括以下步骤:首先对语料及其分词结果进行规范化处理;然后基于一定规则扩展情感词典、创建关键词词典和提取依存结构模板,并通过扩展后的情感词典和关键词词典获取候选情感关键句;最后设计一种位置打分函数,辅以情感词特征、关键词特征和依存模板特征,利用这四种特征训练SVM分类器,并以之完成情感关键句的最终识别。对比现有技术,通过采用规则与统计相结合的策略,能够有效利用不同层级词汇语义和句法依存信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的情感关键句,提高中文情感关键句的识别率。
-
公开(公告)号:CN103761289A
公开(公告)日:2014-04-30
申请号:CN201410018115.3
申请日:2014-01-15
Applicant: 北京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30675 , G06F17/3089
Abstract: 本发明涉及一种基于历史记录的知识推送方法,属于计算机应用领域。本方法通过比较两个任务之间的相似度,获取与当前任务相似的任务,并分析其在完成过程中对知识的操作记录,然后通过一个具体的值来对知识列表排序的方法实现知识推送。本方法能够依据需求者的知识背景和应用情境,为合适的任务,选择合适的知识推送给合适的人,有效的利用了已有的知识,从而促进知识增值。
-
公开(公告)号:CN113723103B
公开(公告)日:2024-11-29
申请号:CN202110988114.1
申请日:2021-08-26
Applicant: 北京理工大学
IPC: G06F40/295 , G06F40/30
Abstract: 本发明涉及一种融合多源知识的中文医学命名实体和词性联合学习方法,属于自然语言处理中的信息抽取技术领域。本发明提出了一种多输入多任务学习模型,首先为来自不同数据源的任务数据分别设计模型的输入。然后利用相同的编码结构将不同的输入嵌入到同一语义空间中,获得统一的向量表示。之后,通过任务特定层提取任务特定表示,由该嵌入表示计算得出最后的预测结果。训练过程中,采取交替式的计算方式。在信息抽取中,利用该模型,实现捕获来自不同数据源的NER任务和POS任务之间的相关性。本方法有效提高了深度学习模型对中文医学文本命名实体的识别效果及鲁棒性,尤其是对长实体的识别效果及鲁棒性,并能高质量完成中文医学数据词性标注。
-
公开(公告)号:CN113408307B
公开(公告)日:2022-06-14
申请号:CN202110796282.0
申请日:2021-07-14
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于翻译模板的神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法通过引入匹配到的高相似翻译模板,引导和约束模型的解码过程,从而提高了译文质量。首先,构建翻译模板库和对应的模板匹配算法。然后,构建基于模板的神经机器翻译模型。之后,利用两阶段的训练策略将翻译模板引入模型中,并不断迭代更新构建的模型参数,指导训练过程。最后,利用训练完成的神经机器翻译模型,对匹配到高相似翻译模板的句子进行分别翻译。对比现有技术,本方法简化了翻译模板的构建过程,更专注于提高部分能匹配到高相似翻译模板的句子,而不是全部语句的翻译效果,利用匹配到的高相似的翻译模板提高了译文质量。
-
公开(公告)号:CN114021591A
公开(公告)日:2022-02-08
申请号:CN202111315938.9
申请日:2021-11-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于依存树句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域,解决了现有多头自注意力网络无法有效发挥冗余自注意力头作用的技术问题。本方法构建的依存树,利用依存矩阵作为掩码来对不存在直接依存关系的词汇之间的注意力进行建模。同时,本方法提出了一种动态的、轻量级的冗余头激活策略,精确地识别了并在句法层面上激活了Tranformer编码器端的冗余头,提升了多头注意力网络中注意力头的运行效率。本方法通过句法增强的注意力机制模拟了重要头的特定功能,相比于现有的改进的自注意力方法,在测试集上的提升效果更为明显。
-
公开(公告)号:CN103744984B
公开(公告)日:2017-01-25
申请号:CN201410018112.X
申请日:2014-01-15
Applicant: 北京理工大学
Abstract: 本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
-
公开(公告)号:CN103793474B
公开(公告)日:2017-01-11
申请号:CN201410003685.5
申请日:2014-01-04
Applicant: 北京理工大学
IPC: G06F17/30
Abstract: 本发明属于计算机应用技术领域,涉及应用于知识管理系统的一种自定义知识分类方法。本发明的目的是为了解决知识管理系统中,在缺乏标注文本集合的条件下,实现用户自定义分类管理知识的问题,提出了一种基于词匹配的用户自定义的知识分类方法。本方法绕过了训练文本集合标注的难题,通过用《同义词词林》扩展用户自定义关键词,利用Wu-Manber多模式匹配算法来快速匹配关键词,根据关键词在文档中的命中率来判断分类类别。本方法有适应缺乏标注文本的条件,且速度快的特点。
-
公开(公告)号:CN104021115A
公开(公告)日:2014-09-03
申请号:CN201410264137.8
申请日:2014-06-13
Applicant: 北京理工大学
IPC: G06F17/27
Abstract: 本发明涉及一种基于神经网络的中文比较句识别方法及装置,包括以下步骤:首先对语料及其分词结果进行规范化处理,然后通过基于比较特征词词典与句法结构模板、依存关系相结合的方法进行粗粒度提取;最后设计一种类别序列规则(CSR)提取算法,并利用CRF挖掘实体对象信息即语义角色信息,辅以比较特征词与统计词特征,利用这四种特征构造BP神经网络,找到使性能达到最优的特征形式完成细粒度提取。对比现有技术,本发明能够有效利用不同层级语义信息进行识别,使用户能够更快速而且准确地找到语料中置信度较高的中文比较句,提高中文比较句的识别率。
-
公开(公告)号:CN118210882A
公开(公告)日:2024-06-18
申请号:CN202310380931.8
申请日:2023-04-11
Applicant: 北京理工大学
IPC: G06F16/332 , G06F16/35 , G06F40/126
Abstract: 本发明涉及信息技术领域,特别涉及一种对话状态追踪装置、方法、设备和存储介质,包括对话文本编码器,用于编码当前轮对话文本和对话历史,输出对话文本特征表示;对话和模式融合网络,建模领域、槽位关系,输出融合了模式信息和对话信息的领域‑槽位特征信息;对话状态解码器,包括基于领域‑槽位表示的对话文本特征增强器、槽门和基于复制机制的槽值预测器,将所述领域‑槽位的特征信息融合到所述对话文本特征中,基于槽门选择各个领域‑槽位的更新方式,依据所述更新方式预测槽值。本发明融合模式和对话中的信息,实现了领域、槽位间知识迁移和共享,从而提升模型在小样本、零样本状况下的表现,增强对新领域的泛化能力。
-
公开(公告)号:CN113435190B
公开(公告)日:2022-08-05
申请号:CN202110538855.X
申请日:2021-05-18
Applicant: 北京理工大学
IPC: G06F40/279 , G06F16/28 , G06N3/04 , G06N3/08
Abstract: 本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法,属于计算机自然语言处理技术领域。包括:1、使用BERT作为编码器,将篇章信息进行向量化表示,并抽取其中的提及、实体、句子和篇章的隐含层向量信息;2、提出融合多层次的信息的方法解决多实例多标签的问题,多层次信息包括:提及层次的信息。实体层次的信息、句子层次的信息和篇章层次的信息;3、提出使用提及的位置信息粗略的抽取证明句子,然后使用降噪的方法来捕获重要的证明句子的关系特征。所述方法在针对篇章中实体对进行关系抽取时,能够考虑并解决篇章中多实例多标签以及证明句子难以识别等问题。实验表明所述方法在F1的测评指标上有显著的提升。
-
-
-
-
-
-
-
-
-