一种基于大语言模型增强的知识问答方法

    公开(公告)号:CN118069818A

    公开(公告)日:2024-05-24

    申请号:CN202410483177.5

    申请日:2024-04-22

    Inventor: 黄森

    Abstract: 本发明公开了一种基于大语言模型增强的知识问答方法,所述方法包括:构建专利特征提取模型,包括OCR模块,文本特征提取器,图像文本融合特征提取器;把专利摘要文本和附图输入专利特征提取模型,得到多模态融合特征;把专利输入大语言模型,得到对应的查询,把查询输入查询特征提取模型,得到查询特征;对多篇专利的多模态融合特征和查询特征计算损失函数,用其优化专利特征提取模型和查询特征提取模型;用训练好的模型进行专利检索问答。本发明通过多模态特征的提取,高效准确地把专利表示为特征向量,并利用大语言模型生成专利的查询,通过自监督的方式训练模型,这种方式无需人工标注较低,最终实现以问答的方式通过查询检索专利。

    基于特征数据分析的通信信号识别分类方法

    公开(公告)号:CN117951610A

    公开(公告)日:2024-04-30

    申请号:CN202410350983.5

    申请日:2024-03-26

    Abstract: 本发明公开了基于特征数据分析的通信信号识别分类方法,步骤包括:采集各类通信信号;提取信号的特征,包括样本均值、放大器输出信号泰勒多项式系数、频谱图像特征:综合考虑样本均值、放大器输出信号泰勒多项式系数、频谱图像特征,将输入信号进行分类,基于决策树对信号分类;对信号分类结果进一步进行模糊判决;输出信号分类的最终结果。本发明综合频谱特征和频谱图像特征对信号进行分类,并采用模糊评判方法对分类结果进一步进行可靠度判断,可有效地将未知信号进行分类。

    一种表格的标记语言标签与单元格锚框鲁棒对齐方法

    公开(公告)号:CN115618154B

    公开(公告)日:2023-03-10

    申请号:CN202211632718.3

    申请日:2022-12-19

    Abstract: 本发明公开了一种表格的标记语言标签与单元格锚框鲁棒对齐方法,方法包括:解析HTML结构字符串,得到td标签的行号、列号、跨行数目以及跨列数目;基于单元格的Bbox的竖直方向的坐标位置关系,为每个Bbox分配行号,并根据水平方向的坐标位置关系将Bbox从左至右进行排序;进行匹配行的各Bbox标签的分配;基于匹配行,根据水平方向的坐标位置关系,对所有未匹配行中的Bbox的列号进行投票,投票数最多的列号作为Bbox列号的预测结果,基于列号将Bbox与同行的td标签进行对齐,进行未匹配行的各Bbox标签的分配;由此得到整个表格各Bbox的行号、列号、跨行数目以及跨列数目的分配结果。

    一种语义增强的零样本甲骨文字符识别方法

    公开(公告)号:CN118314583B

    公开(公告)日:2025-01-21

    申请号:CN202410337361.9

    申请日:2024-03-23

    Abstract: 本发明公开了一种语义增强的零样本甲骨文字符识别方法,包括:根据域和字符类别为甲骨文图像构造可学习的提示信息;引入对比式语言‑图像预训练模型,并通过平衡采样策略采样数据,对可学习的提示信息进行优化,以实现从甲骨文拓片和字模图像中挖掘出语义信息;去除域提示信息来得到域无关的提示信息,进而通过语义编码器编码得到域无关的字符语义;通过类内共享特征学习分支和类间差异特征学习分支对视觉编码器进行监督训练;采用训练好的视觉编码器,实现零样本甲骨文字符识别。

    基于实体关系统计关联的文档关系抽取方法

    公开(公告)号:CN117951313B

    公开(公告)日:2024-07-12

    申请号:CN202410297786.1

    申请日:2024-03-15

    Inventor: 黄森

    Abstract: 本发明公开了基于实体关系统计关联的文档关系抽取方法,所述方法包括:构建关系抽取模型,包括预训练语言模型和关系预测层;使用预训练语言模型编码文档,获得文档特征以及实体特征;对每个实体计算统计关系向量;把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布;计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型;使用关系抽取模型进行关系抽取。本发明发现对于文档关系抽取,其天然存在着很强的统计先验知识,本发明创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,提升模型性能。

    基于特征数据分析的通信信号识别分类方法

    公开(公告)号:CN117951610B

    公开(公告)日:2024-06-07

    申请号:CN202410350983.5

    申请日:2024-03-26

    Abstract: 本发明公开了基于特征数据分析的通信信号识别分类方法,步骤包括:采集各类通信信号;提取信号的特征,包括样本均值、放大器输出信号泰勒多项式系数、频谱图像特征:综合考虑样本均值、放大器输出信号泰勒多项式系数、频谱图像特征,将输入信号进行分类,基于决策树对信号分类;对信号分类结果进一步进行模糊判决;输出信号分类的最终结果。本发明综合频谱特征和频谱图像特征对信号进行分类,并采用模糊评判方法对分类结果进一步进行可靠度判断,可有效地将未知信号进行分类。

    基于实体关系统计关联的文档关系抽取方法

    公开(公告)号:CN117951313A

    公开(公告)日:2024-04-30

    申请号:CN202410297786.1

    申请日:2024-03-15

    Inventor: 黄森 黄双萍

    Abstract: 本发明公开了基于实体关系统计关联的文档关系抽取方法,所述方法包括:构建关系抽取模型,包括预训练语言模型和关系预测层;使用预训练语言模型编码文档,获得文档特征以及实体特征;对每个实体计算统计关系向量;把每对实体的实体特征和统计关系向量输入关系预测层,获得实体对的关系概率分布;计算关系分类损失函数,优化关系分类损失函数,训练关系抽取模型;使用关系抽取模型进行关系抽取。本发明发现对于文档关系抽取,其天然存在着很强的统计先验知识,本发明创新性地对每个实体与每种关系的统计关联进行计算,并作为先验知识引入深度学习模型中,提升模型性能。

    一种语义增强的零样本甲骨文字符识别方法

    公开(公告)号:CN118314583A

    公开(公告)日:2024-07-09

    申请号:CN202410337361.9

    申请日:2024-03-23

    Abstract: 本发明公开了一种语义增强的零样本甲骨文字符识别方法,包括:根据域和字符类别为甲骨文图像构造可学习的提示信息;引入对比式语言‑图像预训练模型,并通过平衡采样策略采样数据,对可学习的提示信息进行优化,以实现从甲骨文拓片和字模图像中挖掘出语义信息;去除域提示信息来得到域无关的提示信息,进而通过语义编码器编码得到域无关的字符语义;通过类内共享特征学习分支和类间差异特征学习分支对视觉编码器进行监督训练;采用训练好的视觉编码器,实现零样本甲骨文字符识别。

Patent Agency Ranking