一种利用大语言模型增强的生成式跨语言事件抽取方法

    公开(公告)号:CN116956922A

    公开(公告)日:2023-10-27

    申请号:CN202310909646.0

    申请日:2023-07-24

    Abstract: 本发明涉及一种利用大语言模型增强的生成式跨语言事件抽取方法,属于计算机人工智能和自然语言处理技术领域。本方法首先使用大语言模型,将各语言的文本信息进行事件预抽取,得到各种语言的大模型事件抽取结果,并将其解析为可用的文本提示为模型训练做准备,然后构建训练所需的文本提示,将输入的文本提示向量化表示,最后使用得到的隐藏层计算二元损失,解码隐藏层向量,将解码损失和二元损失加权相加反向传播,并将向量转化为文本。本方法有效解决了模型跨语言事件抽取困难的问题,提升了知识提示的正面效果,做到了知识提示程度的可控管理,显著增强了生成式跨语言事件的抽取性能。

    一种融合语言信息的低资源语种OCR方法

    公开(公告)号:CN113420766B

    公开(公告)日:2022-09-16

    申请号:CN202110756557.8

    申请日:2021-07-05

    Inventor: 冯冲 滕嘉皓

    Abstract: 本发明所述一种融合语言信息的低资源语种OCR方法,属于OCR技术领域。包括:获取低资源语种的开源文本生成图片并基于图像和文字特性对低资源语种的OCR训练数据增强;基于语种间相似性选取语低资源语种相似度高的高资源语种,应用混合微调迁移策略将高资源语种的OCR模型迁移至低资源语种OCR模型,再基于该OCR模型识别,将识别结果的打分为判断依据,判断识别结果中是否包含错误。针对得分低的语句进行词表探测,定位识别错误的单词并采用多策略融合,以词表和编辑距离为依据生成可能校正方案;最后对OCR识别序列的每一种校正方案进行打分,选择出最佳校正方案。所述方法提升了低资源语种因数据资源稀缺导致OCR识别准确率。

    一种利用半自回归融合领域术语的低资源机器翻译方法

    公开(公告)号:CN114492468A

    公开(公告)日:2022-05-13

    申请号:CN202111385350.0

    申请日:2021-11-22

    Inventor: 冯冲 许达 沙九

    Abstract: 本发明涉及一种利用半自回归融合领域术语的低资源机器翻译方法,属于自然语言处理机器翻译技术领域。本发明通过融合特定领域术语的低资源机器翻译方法,使用外部知识引导解码器,结合自回归与非自回归的解码方式,在引入先验知识的同时不牺牲解码效率,满足垂直领域的翻译需求。在半自回归的解码器中,将待生成的译文序列进行多组分块,块内采用自回归方式,块外采用非自回归方式。在推理阶段,分别通过删除历史译文中错误的词、插入先验知识术语约束词、预测合理的译文词并保留机制,从额外提供的约束中提取信息,进而融合外部先验知识。本发明不仅能够灵活融入外部先验知识,适应多领域不同翻译模型,相比自回归翻译方式大幅度提升了解码速率。

    一种融合多层次信息抽取和降噪的篇章关系抽取方法

    公开(公告)号:CN113435190A

    公开(公告)日:2021-09-24

    申请号:CN202110538855.X

    申请日:2021-05-18

    Abstract: 本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法,属于计算机自然语言处理技术领域。包括:1、使用BERT作为编码器,将篇章信息进行向量化表示,并抽取其中的提及、实体、句子和篇章的隐含层向量信息;2、提出融合多层次的信息的方法解决多实例多标签的问题,多层次信息包括:提及层次的信息。实体层次的信息、句子层次的信息和篇章层次的信息;3、提出使用提及的位置信息粗略的抽取证明句子,然后使用降噪的方法来捕获重要的证明句子的关系特征。所述方法在针对篇章中实体对进行关系抽取时,能够考虑并解决篇章中多实例多标签以及证明句子难以识别等问题。实验表明所述方法在F1的测评指标上有显著的提升。

    一种基于相似度感知的神经机器翻译方法

    公开(公告)号:CN111611814A

    公开(公告)日:2020-09-01

    申请号:CN202010384024.7

    申请日:2020-05-08

    Inventor: 冯冲 张天夫

    Abstract: 本发明提出了一种基于相似度感知的神经机器翻译方法,属于自然语言处理机器翻译技术领域。首先构建结构翻译记忆库和对应结构相似度算法。然后构建模板翻译记忆库和对应模板相似度算法。之后对测试集中的字符串、结构和模板维度的高潜力语句进行预先识别。而后构建多维度相似度先验知识,对训练集中所有平行语句进行多维度相似度检索。同时,利用后验正则目标函数,将离散相似度先验知识融入到神经机器翻译目标函数中,并不断迭代更新先验知识的参数,指导训练过程。最后利用训练完成的神经翻译模型,对多维度高潜力待翻译语句进行分别翻译。本发明可以更细粒度的获取最相似语句,减少了人类译员的审阅时间。

    一种基于历史记录的知识推送方法

    公开(公告)号:CN103761289B

    公开(公告)日:2017-05-10

    申请号:CN201410018115.3

    申请日:2014-01-15

    Abstract: 本发明涉及一种基于历史记录的知识推送方法,属于计算机应用领域。本方法通过比较两个任务之间的相似度,获取与当前任务相似的任务,并分析其在完成过程中对知识的操作记录,然后通过一个具体的值来对知识列表排序的方法实现知识推送。本方法能够依据需求者的知识背景和应用情境,为合适的任务,选择合适的知识推送给合适的人,有效的利用了已有的知识,从而促进知识增值。

    一种基于集成学习的语种识别方法

    公开(公告)号:CN105335350A

    公开(公告)日:2016-02-17

    申请号:CN201510644536.1

    申请日:2015-10-08

    CPC classification number: G06F17/2785 G06K9/6269

    Abstract: 本发明涉及一种基于集成学习的语种识别方法,属于自然语言处理应用技术领域;本发明方法首先从训练集D中按照预设的抽取比例参数max_samples选取bootstrap样例得到训练集Db;其次基于Db按照特征选取比例参数max_features选取样例特征,并基于选取的特征对Db进行过滤得到训练集Dt;再者基于Dt对多项式朴素贝叶斯(MNBBL)、随机森林(RFBL)、支持向量机(SVMBL)和线性模型(LMBL)四种基本分类器进行训练;最后利用多数表决把四种基本分类器组合成为一个更强的分类器;接下来就可以采用此分类器对待识别样例进行识别。对比现有技术,本发明方法可以识别少数民族的短文本语言,且准确率得到了提高。

    一种在线资源相关信息抽取的知识图谱生成方法

    公开(公告)号:CN112287119A

    公开(公告)日:2021-01-29

    申请号:CN202011193522.X

    申请日:2020-10-30

    Inventor: 冯冲 赵赫 唐雨馨

    Abstract: 本发明提供了一种在线资源相关信息抽取的知识图谱生成方法,属于自然语言处理信息抽取技术领域。所述方法包括:在输入的在线资源引用句子上枚举生成候选span,基于BERT编码器学习句子中的token表示进而得到每个候选span的表示,从而将实体抽取和关系抽取两个任务转化为基于span表示的分类计算问题,将两个任务的目标函数通过加权得到联合目标函数,进而利用多任务学习策略进行联合训练。通过将训练好的信息抽取模型应用在大规模的科技文献语料中,生成在线资源的知识图谱。该方法解决了实体和关系抽取对在线资源属性描述刻画不足的问题,减少了构建在线资源知识图谱的人工成本,提高了知识图谱生成效率。

    一种基于Bi-LSTM输入信息增强的关系抽取方法

    公开(公告)号:CN108416058B

    公开(公告)日:2020-10-09

    申请号:CN201810237590.8

    申请日:2018-03-22

    Inventor: 黄河燕 雷鸣 冯冲

    Abstract: 本发明提出了一种基于Bi‑LSTM输入信息增强的关系抽取方法,属于计算机人工智能自然语言处理领域。通过应用不确定标签的策略标注数据集,应用冗余编码技术对每个单词进行字符级编码产生词形编码向量。词形编码向量与词嵌入向量拼接生成词向量用于捕捉词形与词义信息。通过应用输入信息增强的Bi‑LSTM作为模型编码层,将词向量输入编码层,输出编码向量。将编码向量输入解码层,得到解码向量。应用三个分层次的NN,从解码向量分别提取出实体标签、关系类型、实体编号信息。最后,计算梯度、更新权重,通过最大化目标函数训练模型。本发明方法提高了系统的鲁棒性,减少了非实体单词带来的干扰信息,有效提高了关系抽取的准确率和召回率。

    一种面向机器翻译的多策略英文长句分割方法及装置

    公开(公告)号:CN105068990A

    公开(公告)日:2015-11-18

    申请号:CN201510441708.5

    申请日:2015-07-24

    Abstract: 本发明涉及一种面向机器翻译的多策略英文长句分割方法及装置,属于自然语言处理机器翻译技术领域。该方法包括训练和实际使用两个步骤;对于训练步骤:首先准备英文训练语料,并对其进行预处理;然后对语料进行特征提取,包括提取依存句法特征、词性标注特征以及逗号位置特征等;最后创建特征模版训练CRF模型;同时设计了若干能够较准确地处理简单的现象的规则;对于实际使用步骤,首先对待处理英文长句进行特征提取,提取的特征同训练步骤;之后分别使用规则算法以及CRF模型来标注逗号的位置;然后在所标注的位置添加逗号,完成分割。对比现有技术,通过采用规则与统计相结合的策略,能够有效且准确地分割英文长句,提高机器翻译的质量。

Patent Agency Ranking