-
公开(公告)号:CN117591661A
公开(公告)日:2024-02-23
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-
公开(公告)号:CN117390163A
公开(公告)日:2024-01-12
申请号:CN202311404467.8
申请日:2023-10-26
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/33 , G06F16/338 , G06F16/36 , G06F16/28 , G06N5/022 , G06N5/04
Abstract: 本说明书公开了一种基于人工智能的事实验证方法,通过根据待验证的三元组生成搜素语句,并在预设的搜索引擎中对搜索语句进行搜索,筛选预设的搜索引擎返回的搜索结果,根据筛选出的搜索结果生成提示信息,然后再根据提示信息和待验证的三元组生成输入文本,使得人工智能对话系统可根据输入文本对待验证的三元组进行事实验证,接收人工智能对话系统返回的验证结果。根据确定提示信息对待验证的三元组进行验证,减少了人工智能对话系统编造问题答案的可能性,即解决了人工智能对话系统在进行对话时出现“幻觉”的问题,提高了事实验证任务的准确度和可信度。
-
公开(公告)号:CN116311310A
公开(公告)日:2023-06-23
申请号:CN202310566244.5
申请日:2023-05-19
Applicant: 之江实验室
IPC: G06V30/412 , G06V30/19 , G06V30/148 , G06V10/82 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种结合语义分割和序列预测的通用表格识别方法和装置,该方法综合使用YOLO、VGG、UNet、SLANet、DBNet、SVTR深度学习模型,结合以语义分割为基础的两阶段方案与以序列预测为基础的端到端方案,可用于图片格式的各类表格识别,包括有线表、少线表和无线表。该方法可识别表格中的结构信息以及文本信息。可识别包含表格的图片类型包括扫描图片和从任意角度拍摄的图片。本发明训练一个目标检测模型同时用于表格检测和表格分类,并针对现有表格识别方法对有线表识别不准的问题,提出了一种简单有效的合并单元格的方法,在TableBank数据集上比端到端的方案在TEDS指标上提高了9.34个百分点(79.24%)。
-
公开(公告)号:CN117591661B
公开(公告)日:2024-04-26
申请号:CN202410076463.X
申请日:2024-01-18
Applicant: 之江实验室
IPC: G06F16/332 , G06F16/36 , G06F40/211 , G06F40/30 , G06N3/09 , G06N3/0895
Abstract: 本说明书公开了一种基于大语言模型的问答数据构建方法及装置,可以从知识图谱中提取出基础三元组以及从文档库中提取出文本素材,而后,可以根据文本素材,对基础三元组进行补充,得到三元组集合;针对三元组集合中的每个三元组,可以确定该三元组的关联三元组以及从文本素材中确定出该三元组的关联文本段落,以得到多源知识数据。而后,可以根据多源知识数据,生成问答数据,可以对生成的问答数据进行标注,从而通过半监督的方式训练识别模型,以通过识别模型从问答数据中筛选出有效的问答数据,筛选出的有效的问答数据可以用于对大语言模型进行训练或微调,从而本方法能够提到生成问答数据的效率和有效性。
-
公开(公告)号:CN117252153B
公开(公告)日:2024-02-02
申请号:CN202311532530.6
申请日:2023-11-17
Applicant: 之江实验室
IPC: G06F40/109 , G06F40/166 , G06F40/205
Abstract: 本发明涉及一种用于大语言模型的富文本数据处理方法、设备、存储介质,方法包括如下步骤:获取富文本数据,通过解析和/或识别得到文本数据及其对应的坐标;基于字体大小对所述文本数据对应的坐标进行单位化处理;以空格为元素构建字符矩阵,基于单位化处理后的坐标,将所述文本数据填充至所述字符矩阵的对应位置;将所述字符矩阵转换为包含空间信息的最终文本,作为大语言模型的输入。与现有技术相比,本发明整个处理过程类似于将整个富文本进行栅格化处理,可以对多种文档类型进行处理的同时,保留了原始富文本中的空间信息。
-
公开(公告)号:CN116860977B
公开(公告)日:2023-12-08
申请号:CN202311053620.7
申请日:2023-08-21
Applicant: 之江实验室
IPC: G06F16/35 , G06F16/34 , G06F18/2433 , G06F18/2135 , G06F18/2323
Abstract: 本发明公开了一种面向矛盾纠纷调解的异常检测系统及方法,包括:数据获取模块,获取原始表格数据;数据清洗模块,清洗数据获取有效数据;时序异常检测模块,从有效数据构建时序数据,对时序数据进行线性插值,并对其进行异常检测,得到异常时间段;主题聚类模块:从事项文本获取有效词向量,输入至文本聚类模型,提取事项的主题聚类结果;异常分析模块:对比异常时段与正常时段中事项主题分布的差异,进一步提取聚类主题,提取各聚类主题的关键词和摘要。本发明能够有效感知和汇聚近期异常的矛盾纠纷事件,为管理者提供异常报告,能够以数据驱动的方式提前感知问题,介入纠纷,避免纠纷(56)对比文件李存华.基于近似密度构造的聚类分析与离群点检测算法研究《.万方数据库》.2005,全文.Min Hu.Detecting Anomalies in TimeSeries Data via a Meta-Feature BasedApproach《.IEEE Access》.2018,全文.刘露;左万利;彭涛.异质网中基于张量表示的动态离群点检测方法.计算机研究与发展.2016,(第08期),全文.
-
公开(公告)号:CN117033469A
公开(公告)日:2023-11-10
申请号:CN202311285986.7
申请日:2023-10-07
Applicant: 之江实验室
IPC: G06F16/2458 , G06F16/2453 , G06F16/248
Abstract: 在本说明书公开了一种基于表格语义注释的数据库检索方法、装置以及设备,根据训练完成的表格语义注释模型对数据库中各原始表格进行语义注释,得到第二语义注释表格,即确定原始表格中各实体单元格的语义以及该表格中各列的列类型。然后响应于用户的检索指令,对用户的检索指令进行文本预处理,并计算经过文本预处理后的检索指令与第二语义注释表格计算相似度,按照相似度从大到小的顺序筛选语义注释后的表格,将筛选出的第二语义注释表格对应的原始表格作为检索结果。使得数据库检索可根据表格的语义信息进行相似度匹配,提高了数据库检索的召回率和准确率。
-
公开(公告)号:CN118709692A
公开(公告)日:2024-09-27
申请号:CN202410862829.6
申请日:2024-06-28
Applicant: 之江实验室
IPC: G06F40/295 , G06F16/332 , G06F16/33 , G06N3/0455
Abstract: 本说明书公开了一种业务执行的方法、装置、存储介质及电子设备。其中,首先获取待命名实体对应的原始名称信息,将预设的目标实体库中包含的至少部分实体对应的名称信息以及待命名实体的原始名称信息输入到预设的大语言模型中,以使大语言模型根据目标实体库中包含的至少部分实体对应的名称信息,确定目标实体库对应的实体命名规则,并根据实体命名规则,确定出待命名实体在目标实体库的实体命名规则下的名称信息,作为待命名实体对应的目标名称信息,根据待命名实体对应的目标名称信息,执行业务。
-
公开(公告)号:CN117171346A
公开(公告)日:2023-12-05
申请号:CN202311153257.6
申请日:2023-09-07
Applicant: 之江实验室
IPC: G06F16/35 , G06F16/33 , G06F40/295 , G06F40/30
Abstract: 本说明书公开了一种实体链接方法、装置、存储介质及电子设备。所述实体链接方法包括:获取待链接文本、待链接文本中包含的各实体提及,根据预先确定的实体提及与实体之间的映射关系表,确定待链接文本中包含的每个实体提及对应的候选实体,将待链接文本、待链接文本中包含的各实体提及、预设的候选实体的描述文本输入到预先训练的实体链接模型中,以通过实体链接模型确定每个候选实体的描述文本的特征表示与待链接文本的特征表示之间的细粒度交互特征表示,并确定每个候选实体为目标链接实体的概率,以根据概率,从各候选实体中确定出待链接文本对应的目标链接实体,并根据目标链接实体进行任务执行。
-
公开(公告)号:CN117035695A
公开(公告)日:2023-11-10
申请号:CN202311293167.7
申请日:2023-10-08
Applicant: 之江实验室
IPC: G06Q10/10 , G06V30/10 , G06V30/148
Abstract: 本说明书公开了一种信息预警的方法、装置、可读存储介质以及电子设备,可以通过预设的文本处理模型,来将每个贸易措施文件信息对应的贸易措施关联信息与各行业的行业信息进行匹配,并建立以及保存企业、行业与各贸易措施关联信息之间的对应关系,从而使得当出台新的贸易措施文件信息时,可以通过预先建立并保存的该对应关系,快速的确定出与新出台的贸易措施文件信息相匹配的行业,并向归属于匹配出的行业的企业发送预警信息,从而有效地保证了企业免受不必要的损失。
-
-
-
-
-
-
-
-
-