-
公开(公告)号:CN117235619B
公开(公告)日:2025-03-11
申请号:CN202311020694.0
申请日:2023-08-14
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F18/2415 , G06N3/0455 , G06N3/0499 , G06N3/082 , G06F16/35
Abstract: 本申请涉及文本分类领域,特别是涉及一种会议纪要分类方法、装置、计算机设备和存储介质。所述方法包括:提取会议纪要样本的句级特征,得到句级特征集合;获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合,并基于各所述句级特征子集合,分别生成对应板块的文档表示;基于各所述文档表示,将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练,得到会议纪要分类模型;利用所述会议纪要分类模型对待分类会议纪要进行分类,得到分类结果。本发明通过训练会议纪要分类模型,实现会议纪要分类的自动化。
-
公开(公告)号:CN115952279A
公开(公告)日:2023-04-11
申请号:CN202211533215.0
申请日:2022-12-02
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F16/34 , G06F16/332 , G06F40/30 , G06F40/289 , G06N3/047 , G06N3/049 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。
-
公开(公告)号:CN115688779B
公开(公告)日:2023-05-09
申请号:CN202211240111.0
申请日:2022-10-11
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F40/295 , G06N3/084 , G06N3/0895
Abstract: 本发明公开了一种基于自监督深度学习的地址识别方法,包括采用提供的标准地址库,通过自监督算法生成自监督训练地址样本、采用多头标志对方法构建神经网络模型进行模型训练、使用训练动态终结方法终止训练得到最优模型、将预测出的地址单元组进行错误地址修正和结果二次分析得到标准地址结果,其中使用标准地址单元划分定义标准地址结构,并填充标准地址数据;使用标准地址数据为基准训练数据,并对基准训练数据使用自监督算法生成自监督训练地址样本。优点在于:申请通过使用自监督样本标签生成算法,大幅降低了地址识别任务中的数据标注成本,通过使用多头标识对模型,实现了对地址描述中包含嵌套情况的识别。
-
公开(公告)号:CN118070814B
公开(公告)日:2024-08-02
申请号:CN202410041685.8
申请日:2024-01-11
Applicant: 杭州瑞成信息技术股份有限公司
Abstract: 本发明涉及语义理解技术领域,尤其涉及基于语义衔接判别模型的知识召回方法及其应用,为了解决现有的大语言模型的知识召回没有关注文档中语句间的语义衔接,容易造成召回内容出现语义断裂和没有关注到召回信息的合理粒度,在面对不同粒度的问题时容易造成回答内容的语义信息不全和噪声过大的问题,本发明包括收集一批用于知识召回的文本数据,进行段落划分并进行标注;对原生BERT模型进行改进;对改进的BERT模型进行微调;进行段落切分;进行句子切分;将待入知识库的每篇文章使用通用大模型提取其摘要,构成句子层级、段落层级、文章层级的关键信息;建立映射关系;存入向量搜索库,本发明充分考虑了文章的层级关系及文本段落语义的完整性。
-
公开(公告)号:CN117235619A
公开(公告)日:2023-12-15
申请号:CN202311020694.0
申请日:2023-08-14
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F18/2415 , G06N3/0455 , G06N3/0499 , G06N3/082 , G06F16/35
Abstract: 本申请涉及文本分类领域,特别是涉及一种会议纪要分类方法、装置、计算机设备和存储介质。所述方法包括:提取会议纪要样本的句级特征,得到句级特征集合;获取所述句级特征集合中所述会议纪要样本的各板块所分别对应的句级特征子集合,并基于各所述句级特征子集合,分别生成对应板块的文档表示;基于各所述文档表示,将所述会议纪要样本的各类别权重的交叉熵作为训练优化的目标函数进行模型训练,得到会议纪要分类模型;利用所述会议纪要分类模型对待分类会议纪要进行分类,得到分类结果。本发明通过训练会议纪要分类模型,实现会议纪要分类的自动化。
-
公开(公告)号:CN115952279B
公开(公告)日:2023-09-12
申请号:CN202211533215.0
申请日:2022-12-02
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F16/34 , G06F16/332 , G06F40/30 , G06F40/289 , G06N3/047 , G06N3/049 , G06N3/0442 , G06N3/045 , G06N3/08
Abstract: 本申请涉及一种文本大纲的提取方法、装置、电子装置和存储介质,该方法包括:基于待提取文本的可读字符,获取待提取文本中每句文本的句内容特征,以及基于待提取文本的格式,获取待提取文本中每句文本的句格式特征,句内容特征包含对应句文本的字特征;基于句内容特征以及句格式特征,获取待提取文本中每句文本的句融合特征;基于每段文本中每句文本的句内容特征及对应的权重,获取待提取文本中每段文本的段落特征;基于句融合特征以及段落特征,获取待提取文本对应的大纲信息。本申请解决了相关技术中文本大纲提取的准确性不高的问题,丰富了文本特征的层次,融合了不同层次的文本特征之间的相关性,提高了文本大纲提取的准确性。
-
公开(公告)号:CN115688779A
公开(公告)日:2023-02-03
申请号:CN202211240111.0
申请日:2022-10-11
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F40/295 , G06N3/084 , G06N3/0895
Abstract: 本发明公开了一种基于自监督深度学习的地址识别方法,包括采用提供的标准地址库,通过自监督算法生成自监督训练地址样本、采用多头标志对方法构建神经网络模型进行模型训练、使用训练动态终结方法终止训练得到最优模型、将预测出的地址单元组进行错误地址修正和结果二次分析得到标准地址结果,其中使用标准地址单元划分定义标准地址结构,并填充标准地址数据;使用标准地址数据为基准训练数据,并对基准训练数据使用自监督算法生成自监督训练地址样本。优点在于:申请通过使用自监督样本标签生成算法,大幅降低了地址识别任务中的数据标注成本,通过使用多头标识对模型,实现了对地址描述中包含嵌套情况的识别。
-
公开(公告)号:CN118070814A
公开(公告)日:2024-05-24
申请号:CN202410041685.8
申请日:2024-01-11
Applicant: 杭州瑞成信息技术股份有限公司
Abstract: 本发明涉及语义理解技术领域,尤其涉及基于语义衔接判别模型的知识召回方法及其应用,为了解决现有的大语言模型的知识召回没有关注文档中语句间的语义衔接,容易造成召回内容出现语义断裂和没有关注到召回信息的合理粒度,在面对不同粒度的问题时容易造成回答内容的语义信息不全和噪声过大的问题,本发明包括收集一批用于知识召回的文本数据,进行段落划分并进行标注;对原生BERT模型进行改进;对改进的BERT模型进行微调;进行段落切分;进行句子切分;将待入知识库的每篇文章使用通用大模型提取其摘要,构成句子层级、段落层级、文章层级的关键信息;建立映射关系;存入向量搜索库,本发明充分考虑了文章的层级关系及文本段落语义的完整性。
-
公开(公告)号:CN117312601A
公开(公告)日:2023-12-29
申请号:CN202311454975.7
申请日:2023-11-03
Applicant: 杭州瑞成信息技术股份有限公司
IPC: G06F16/583 , G06F16/33 , G06F18/213 , G06F18/25
Abstract: 本发明涉及内容处理技术领域,尤其涉及一种多模态信息融合的文档内容增强检索系统及方法,为了针对现有对文档中文本及图像等材料进行分析和检索时存在不准确及效率底的问题,本发明提供了一种多模态信息融合的文档内容增强检索系统及方法,方法首先针对不同模态的内容进行预处理,采用文本融合技术,将文档中的文本内容和文档中图像的描述文本进行融合,形成最终的包含了文档文本信息及文档中图像描述信息的文本内容,通过各自模态的特征提取算法,并通过已有的主成分分析方法抽取出各类型数据的特征向量调整为统一维度的向量,采用融合技术将不同模态的特征进行融合,形成多模态特征表示,通过建立索引和使用相应的检索算法,实现对原始文件的高效检索和分析。
-
-
-
-
-
-
-
-