-
公开(公告)号:CN114021590A
公开(公告)日:2022-02-08
申请号:CN202111314481.X
申请日:2021-11-08
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于局部短语句法增强机制的神经机器翻译方法,属于自然语言处理机器翻译技术领域。首先构建各个元素的局部短语序列,通过局部短语序列构建相对短语位置向量矩阵。然后,识别冗余头,根据句法注意力的平均权重动态确定训练过程中每个头的重要性。最后使用基于局部短语的句法增强的注意力机制代替原本的冗余头,以激活其潜在能力。本发明能够准确地识别多头注意力机制中的重要头和冗余头,并通过基于局部短语的句法增强机制来对冗余头进行修改,所构建的自注意力网络可用于机器翻译研究,取得了良好的效果。
-
公开(公告)号:CN113420766A
公开(公告)日:2021-09-21
申请号:CN202110756557.8
申请日:2021-07-05
Applicant: 北京理工大学
Abstract: 本发明所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。
-
公开(公告)号:CN113408307A
公开(公告)日:2021-09-17
申请号:CN202110796282.0
申请日:2021-07-14
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于翻译模板的神经机器翻译方法,属于自然语言处理中的机器翻译技术领域。本方法通过引入匹配到的高相似翻译模板,引导和约束模型的解码过程,从而提高了译文质量。首先,构建翻译模板库和对应的模板匹配算法。然后,构建基于模板的神经机器翻译模型。之后,利用两阶段的训练策略将翻译模板引入模型中,并不断迭代更新构建的模型参数,指导训练过程。最后,利用训练完成的神经机器翻译模型,对匹配到高相似翻译模板的句子进行分别翻译。对比现有技术,本方法简化了翻译模板的构建过程,更专注于提高部分能匹配到高相似翻译模板的句子,而不是全部语句的翻译效果,利用匹配到的高相似的翻译模板提高了译文质量。
-
公开(公告)号:CN108416058A
公开(公告)日:2018-08-17
申请号:CN201810237590.8
申请日:2018-03-22
Applicant: 北京理工大学
Abstract: 本发明提出了一种基于Bi-LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi-LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。
-
公开(公告)号:CN104268160B
公开(公告)日:2017-06-06
申请号:CN201410453074.0
申请日:2014-09-05
Applicant: 北京理工大学
Abstract: 本发明涉及一种基于领域词典和语义角色的评价对象抽取方法,属于自然语言处理应用技术领域,包括以下步骤:首先根据词性、依存和语义角色信息,构建评价对象的领域词典DL,然后充分挖掘词汇、依存、相对位置和语义角色四方面的特征,与DL一起利用条件随机场(CRFs)进行模型训练和预测,从而完成评价对象的抽取工作。对比现有技术,根据中文句子特别是微博、论坛评论信息结构灵活多样、构成方法变化多、句子特征较少的特点,充分利用不同层级句法和语义信息,结合基于规则和机器学习的评价对象抽取方法的优点,自动快速而且准确地找到语料中置信度较高的评价对象,提高了中文句子评价对象抽取的准确率。
-
公开(公告)号:CN103744984A
公开(公告)日:2014-04-23
申请号:CN201410018112.X
申请日:2014-01-15
Applicant: 北京理工大学
Abstract: 本发明涉及一种利用语义信息检索文档的方法,属于计算机信息检索技术领域。通过采用基于关键词的用户检索方法,降低了用户使用难度;采用基于距离和稠密度的文档——本体映射方法,提高映射的准确率;采用基于语义的检索方法,利用多本体索引文档的方法,并且采用了一种结合本体的TF-IDF排序方法,提高了查准率;通过本体语义扩充,提高了系统容纳无效关键词能力,提高了查全率。本方法能够显著提高文档检索的准确率,并且没有带来糟糕的用户交互复杂性。
-
公开(公告)号:CN103744983A
公开(公告)日:2014-04-23
申请号:CN201410017927.6
申请日:2014-01-15
Applicant: 北京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30011
Abstract: 本发明公开了一种电子文档的元信息提取方法,属于计算机应用技术领域。本方法采用模块化的理念将文档信息提取的过程分为三个部分:文档格式解析模块、文档信息优化模块和文档信息解析模块,然后使用一种统一的文档信息格式将三个模块联系起来。通过这样的设计使得添加一种格式支持以及增加信息提取类型变得简单方便,只需关注自身的实现却可以享受到已有其他模块带来的便利。与此同时不同的提取方法和格式支持可以快速自由地配置,这对于个性化系统定制和升级维护都有很大的帮助。
-
公开(公告)号:CN103744955A
公开(公告)日:2014-04-23
申请号:CN201410004084.6
申请日:2014-01-04
Applicant: 北京理工大学
IPC: G06F17/30
CPC classification number: G06F17/30985 , G06F17/30684
Abstract: 本发明公开了一种基于本体匹配的语义查询方法,属于计算机应用技术领域。本方法先计算本体资源的名称、注释与用户输入字符串的语义相似度,然后分别将本体类、本体个体、本体属性与用户输入字符串的语义相似度按从大到小排序,选出最符合用户查询要求的不超过λ*3个本体资源。本方法能够在语义层面进行检索,捕捉设计人员检索意图,提高系统检索效率。
-
公开(公告)号:CN103744679A
公开(公告)日:2014-04-23
申请号:CN201410018121.9
申请日:2014-01-15
Applicant: 北京理工大学
IPC: G06F9/44
Abstract: 本发明涉及一种基于案例的流程设计方法,属于计算机技术领域。本方法提供一个客户端用于流程设计,和一个服务器用于存储案例及案例检索;设计人员在需要参考案例时,在客户端提交案例查询条件,服务器返回案例列表,设计人员选中某案例后,可以参考该案例自行拖拽控件进行设计,也可以选中案例中的某部分直接引用到当前设计中去。本方法能高效而充分地利用案例,提高流程设计效率和可靠性,改善用户体验。
-
公开(公告)号:CN112287119B
公开(公告)日:2022-10-18
申请号:CN202011193522.X
申请日:2020-10-30
Applicant: 北京理工大学
IPC: G06F16/36
Abstract: 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span的表示,从而将实体抽取和关系抽取两个任务转化为基于span表示的分类计算问题,将两个任务的目标函数通过加权得到联合目标函数,进而利用多任务学习策略进行联合训练。通过将训练好的信息抽取模型应用在大规模的科技文献语料中,生成在线资源的知识图谱。该方法解决了实体和关系抽取对在线资源属性描述刻画不足的问题,减少了构建在线资源知识图谱的人工成本,提高了知识图谱生成效率。
-
-
-
-
-
-
-
-
-