一种对话状态追踪装置、方法、设备和存储介质

    公开(公告)号:CN118210882A

    公开(公告)日:2024-06-18

    申请号:CN202310380931.8

    申请日:2023-04-11

    Abstract: 本发明涉及信息技术领域,特别涉及一种对话状态追踪装置、方法、设备和存储介质,包括对话文本编码器,用于编码当前轮对话文本和对话历史,输出对话文本特征表示;对话和模式融合网络,建模领域、槽位关系,输出融合了模式信息和对话信息的领域‑槽位特征信息;对话状态解码器,包括基于领域‑槽位表示的对话文本特征增强器、槽门和基于复制机制的槽值预测器,将所述领域‑槽位的特征信息融合到所述对话文本特征中,基于槽门选择各个领域‑槽位的更新方式,依据所述更新方式预测槽值。本发明融合模式和对话中的信息,实现了领域、槽位间知识迁移和共享,从而提升模型在小样本、零样本状况下的表现,增强对新领域的泛化能力。

    一种政务智能问答方法
    102.
    发明公开

    公开(公告)号:CN118153686A

    公开(公告)日:2024-06-07

    申请号:CN202410116003.5

    申请日:2024-01-26

    Abstract: 本发明提供一种智能政务问答的方法,包括下列步骤:S1、利用政务文件搭建政务知识库以及问答数据集;S2、通过开源模型中的指令跟随功能,对知识库文件进行提问,生成政务问答训练数据;S3、通过训练好的预训练语言模型,基于用户查询的政策问题,从政务知识数据库中粗粒度匹配相关的政策文件;S4、将政策文件切分成政策段落,并将问题和政策段落输入训练好的预训练语言模型,引导模型与问题最相关的政策段落匹配;S5、将问题和政策段落构建成提示语,并将提示语输入到训练好的大语言模型,引导训练好的大语言模型生成问题的回答。本发明可以在准确回答的基础上做到多样性生成,用户可以提问其关心的政策内容,并实时获取最新政策内容的解答。

    基于符号化知识与神经网络的问答模型的实现方法

    公开(公告)号:CN112035629B

    公开(公告)日:2023-02-17

    申请号:CN202010826838.1

    申请日:2020-08-17

    Inventor: 何钺 吴昊 黄河燕

    Abstract: 本发明涉及一种基于符号化知识与神经网络的问答模型的实现方法,属于抽取式问答技术领域。该方法首先以一阶逻辑的方式将自然语言组成的知识转化为符号化知识,再结合正则表达式生成神经网络可以识别的特征,使符号化知识的信息能结合到神经网络中;同时,针对只使用正则表达式会降低符号化知识的泛化性的问题,提出了基于注意力机制的方法,能够利用符号化知识与输入文本之间的关联信息,提高符号化知识在问答过程中的泛化性。对比现有技术,本发明结合了基于规则的问答模型和基于深度学习的问答模型的长处,使得模型的推理过程更具解释性,同时提高了问答模型的鲁棒性和准确率。

    一种金融知识问答的文本交互匹配方法及装置

    公开(公告)号:CN110083692B

    公开(公告)日:2023-01-24

    申请号:CN201910324242.9

    申请日:2019-04-22

    Abstract: 本发明公开了一种金融知识问答的文本交互匹配方法及装置,属于自然语言处理领域,本发明要解决的技术问题为如何准确地判断用户的金融知识问题与标准的金融知识问题的匹配程度,将用户问题映射到标准问题,技术方案为:①该方法包括如下步骤:S1、构建问题对知识库;S2、构建问题对匹配模型训练数据集;S3、构建问题对匹配模型,步骤如下:S301、构建字符映射转换表;S302、构建输入层;S303、构建字符向量映射层;S304、构建注意力机制的文本编码模型;S305、构建文本交互匹配层;S4、训练问题对匹配模型和意图相同的问题选择。②该装置包括问题对知识库构建单元、问题对匹配模型训练数据集生成单元、问题对匹配模型构建单元以及问题对匹配模型训练单元。

    一种融合多层次信息抽取和降噪的篇章关系抽取方法

    公开(公告)号:CN113435190B

    公开(公告)日:2022-08-05

    申请号:CN202110538855.X

    申请日:2021-05-18

    Abstract: 本发明涉及一种融合多层次信息抽取和降噪的篇章关系抽取方法,属于计算机自然语言处理技术领域。包括:1、使用BERT作为编码器,将篇章信息进行向量化表示,并抽取其中的提及、实体、句子和篇章的隐含层向量信息;2、提出融合多层次的信息的方法解决多实例多标签的问题,多层次信息包括:提及层次的信息。实体层次的信息、句子层次的信息和篇章层次的信息;3、提出使用提及的位置信息粗略的抽取证明句子,然后使用降噪的方法来捕获重要的证明句子的关系特征。所述方法在针对篇章中实体对进行关系抽取时,能够考虑并解决篇章中多实例多标签以及证明句子难以识别等问题。实验表明所述方法在F1的测评指标上有显著的提升。

    一种基于统计的工业信息安全指纹挖掘方法及黑盒应用

    公开(公告)号:CN114691756A

    公开(公告)日:2022-07-01

    申请号:CN202210299649.2

    申请日:2022-03-25

    Abstract: 本发明属于工业信息安全技术领域,公开了一种基于统计的工业信息安全指纹挖掘方法,包括S1、构建数据库;S2、计算新指纹与数据库指纹的互信息值;S3、指纹对比;S4、新指纹的提取;S5:输出结果;一种基于统计的工业信息安全指纹黑盒应用,包括数据模块、基于互信息的计算模块、基于左右信息熵的计算模块、安全指纹提取模块和输出模块,安全指纹提取模块包括相似度综合及排序模块;本发明解决了现有技术无法完成一个系统性的构造和实现、对特定安全领域的安全指纹挖掘的规则和挖掘方法需要耗费大量的人力、迁移性也不佳和现有工业安全指纹在实际应用中易用性低的问题,适用于工业信息安全指纹的挖掘。

    一种基于翻译机制的实体和关系联合抽取系统和使用方法

    公开(公告)号:CN114065781A

    公开(公告)日:2022-02-18

    申请号:CN202111303044.8

    申请日:2021-11-05

    Inventor: 黄河燕 尚煜茗

    Abstract: 本发明提出一种基于翻译机制的实体和关系联合抽取系统及其使用方法,该系统利用翻译机制的思想,又规避掉传统翻译机制对对称关系的处理问题;提出利用NA(无关系)关系来作为动态阈值对关系预测的正确和错误结果进行分界。实体标注部分使用四个0/1标注器,对头实体和尾实体独立标注,能够解决单实体重合的问题。对于每一组头尾实体,使用翻译机制的思想利用h+r≈t,用尾实体减去头实体得到关系的向量表示,进而与关系集合中所有关系的向量做相似度计算,利用“与NA关系的相似度”作为动态阈值,取相似度大于该关系的所有关系作为预测结果,这样解决了实体对重叠的问题。在公开数据集上的实验表明,该系统的方法能够达到良好的水平。

    一种基于力引导图的关系抽取方法

    公开(公告)号:CN113761876A

    公开(公告)日:2021-12-07

    申请号:CN202110966548.1

    申请日:2021-08-23

    Abstract: 本发明提出一种基于力引导图的关系抽取方法,包括:接收到句包和实体对;构建出包含语义信息的句向量,并将各个句向量通过注意力机制将其组成句包向量;通过构建关系图,并运用物理学中引力斥力的概念,计算出关系表示矩阵;将关系表示矩阵和句包向量做运算,并将结果用softmax方法进行预测,得到句包中包含各种关系的概率。本发明提供的关系抽取方法及系统能够有效处理全局级别的关系关联,并将其用引力和斥力的概念加以模拟和表示,能够显著减少关系预测时的潜在搜索空间,并提升关系抽取的效率和准确率。

    基于多表征和多预训练模型的中文拼写纠错方法及装置

    公开(公告)号:CN113627158A

    公开(公告)日:2021-11-09

    申请号:CN202110751495.1

    申请日:2021-07-02

    Inventor: 黄河燕 顾雅涵

    Abstract: 本申请提出了基于多表征和多预训练模型的中文拼写纠错方法及装置,方法包括:将待纠错中文中的每个字进行融合词边界以及提取偏旁特征处理,获取带有特征值的待纠错中文;特征值包括词边界特征值以及偏旁特征值;将带有特征值的待纠错中文输入预先训练好的错字识别模型中,获取识别出的待纠正字;用预先设定的标记替换待纠正字,获取中间待纠错中文;将中间待纠错中文输入预先训练好的多预训练模型中,从预先设定好的混淆集中选出目标正确字替换待纠正字,获取纠正后的中文。本申请提供的方法能从多个角度识别出拼写错误,提高了拼写纠错的准确率。

    一种结合外部知识的文本隐式情感分析方法

    公开(公告)号:CN113435211A

    公开(公告)日:2021-09-24

    申请号:CN202110811087.0

    申请日:2021-07-19

    Abstract: 本发明涉及一种结合外部知识的文本隐式情感分析方法,属于自然语言处理情感分析技术领域。本方法利用TransE模型对常识知识数据集预训练。对常识知识数据集中的每个知识子图,通过注意力机制计算每个知识子图的向量表示。对于需要进行隐式情感分析的句子采用预训练的单词特征向量表示文本序列中的每个单词的向量化表示,并与知识图特征向量表示进行拼接,得到结合外部知识的单词融合特征表示。使用双向长短时记忆网络对融合外部知识的单词表示进行句子层面的文本编码。通过注意力机制决定每个词语在表示学习过程中的重要性。最后将句子表示通过Softmax层计算对应的概率向量。本方法丰富了句子语义表达,更好建模句子表示,提升了文本隐式情感分析性能。

Patent Agency Ranking