-
公开(公告)号:CN115391569A
公开(公告)日:2022-11-25
申请号:CN202211325252.2
申请日:2022-10-27
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/36 , G06F40/295 , G06Q50/04
Abstract: 本发明公开了一种从研报自动构建产业链图谱的方法及相关设备。方法包括:载入面向研报的产业链图谱模式;获取原始研报文档集合,分别对原始研报集合中的每一个原始研报文本进行预处理,得到目标文本;采用实体关系同步抽取模型同时抽取句子序列中的目标三元组和目标独立实体;采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对;将获取到的一个或多个所述目标属性对与初始第二三元组进行匹配对齐,得到目标第二三元组;将目标第一三元组和目标第二三元组添加到目标产业链图谱。本发明提供的从研报自动构建产业链图谱的方法能有效应对复杂情境下通过研报文本自动化构建大规模产业链图谱的需求,降低人力损耗与时间成本。
-
公开(公告)号:CN115391569B
公开(公告)日:2023-03-24
申请号:CN202211325252.2
申请日:2022-10-27
Applicant: 哈尔滨工业大学(深圳)(哈尔滨工业大学深圳科技创新研究院)
IPC: G06F16/36 , G06F40/295 , G06Q50/04
Abstract: 本发明公开了一种从研报自动构建产业链图谱的方法及相关设备。方法包括:载入面向研报的产业链图谱模式;获取原始研报文档集合,分别对原始研报集合中的每一个原始研报文本进行预处理,得到目标文本;采用实体关系同步抽取模型同时抽取句子序列中的目标三元组和目标独立实体;采用指标属性抽取模型抽取含有指标描述的句子序列中的目标属性对;将获取到的一个或多个所述目标属性对与初始第二三元组进行匹配对齐,得到目标第二三元组;将目标第一三元组和目标第二三元组添加到目标产业链图谱。本发明提供的从研报自动构建产业链图谱的方法能有效应对复杂情境下通过研报文本自动化构建大规模产业链图谱的需求,降低人力损耗与时间成本。
-
公开(公告)号:CN112100426B
公开(公告)日:2024-05-24
申请号:CN202011004577.1
申请日:2020-09-22
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/58 , G06F16/583 , G06V30/413
Abstract: 本发明所提供的基于视觉和文本特征的通用表格信息检索的方法与系统,该方法包括输入格式标准化、表格内容索引、基本内容单元的向量化表示、查询的向量化表示、融合视觉特征的表格信息检索、内容单元合并、答案筛选并返回。基于本发明所述通用表格信息检索方法与系统可以用于以电子文档、网页、PDF和图片等多种格式出现的表格,本发明在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。
-
公开(公告)号:CN116152832A
公开(公告)日:2023-05-23
申请号:CN202211097009.X
申请日:2022-09-08
Applicant: 哈尔滨工业大学(深圳)
IPC: G06V30/412 , G06V30/148
Abstract: 本发明公开了一种面向领域的图片表格还原方法、系统,对输入图片进行表格检测输出表格区域;并进行文本块切分和识别,得到文本块对应的位置坐标和文本内容;对每个文本块原始图片处理生成掩码图片,将所有文本块原始图片的掩码图片进行拼接,生成表格区域的掩码图片,并输入图片语义分割模型,输出表格行列图片语义分割结果;对分割的列文本合并,并输入文本语义分割模型,得到文本语义单元集合,根据领域知识数据库得到矫正后的文本语义单元集合;根据文本语义单元集合、图片语义分割结果、对应的文本位置和文本内容,基于表格结构还原方法,输出表格的语义结构。本发明能够减少人工识别表格带来的时间损耗,深入利用表格图片信息,提升表格还原效果。
-
公开(公告)号:CN112100426A
公开(公告)日:2020-12-18
申请号:CN202011004577.1
申请日:2020-09-22
Applicant: 哈尔滨工业大学(深圳)
IPC: G06F16/58 , G06F16/583 , G06K9/00
Abstract: 本发明所提供的基于视觉和文本特征的通用表格信息检索的方法与系统,该方法包括输入格式标准化、表格内容索引、基本内容单元的向量化表示、查询的向量化表示、融合视觉特征的表格信息检索、内容单元合并、答案筛选并返回。基于本发明所述通用表格信息检索方法与系统可以用于以电子文档、网页、PDF和图片等多种格式出现的表格,本发明在现有基于文本特征的表格问答系统的基础上,联合表格的视觉特征,如表格的框线、基本内容单元的坐标、文本的字体、颜色和缩进等,自动根据所提问题对存在丰富视觉信息的非规范化表格进行信息检索,极大提升了对文档的检索能力,且提高了检索结果的精确度。
-
-
-
-