-
公开(公告)号:CN118673919A
公开(公告)日:2024-09-20
申请号:CN202410713191.X
申请日:2024-06-04
Applicant: 中国矿业大学(北京)
IPC: G06F40/295 , G06F16/35 , G06F18/25 , G06N3/0442 , G06N3/0455 , G06N3/0464
Abstract: 本发明公开了一种融合段落和文档特征的金融公告事件抽取方法,涉及金融领域与信息抽取技术领域,具体如下:步骤1.对金融公开数据集ChFinAnn中的金融公告文本进行数据预处理工作,将金融公告划分为段落;步骤2.利用Fin‑BERT预训练模型、卷积神经网络以及自注意力机制对金融公告进行段落特征的提取;步骤3.利用word2vec模型和双向长短期记忆网络对金融公告进行文档特征的提取;步骤4.将经过Fin‑BERT预训练模型得到的段落分类向量送入卷积神经网络,对金融公告中的事件进行分类判断;步骤5.将提取到的段落特征与文档特征融合后,通过双向长短期记忆网络与条件随机场对金融公告中的事件进行事件论元识别抽取。本发明达到了较好的事件抽取性能,具有较高的准确率。
-
公开(公告)号:CN114220112B
公开(公告)日:2025-03-04
申请号:CN202111544385.4
申请日:2021-12-16
Applicant: 中国矿业大学(北京)
IPC: G06V30/414 , G06V30/413 , G06N3/044 , G06F40/295 , G06N3/08 , G06V10/82 , G06N3/0464
Abstract: 本发明公开了一种面向人物名片的任职关系抽取方法,包括以下步骤:步骤1、获得人物名片图片,并对人物名片图片进行预处理;步骤2、对预处理后的人物名片图片中的文字进行提取,得到文字区域;步骤3、识别出文字区域中的三种实体,三种实体包括人名、工作单位和职位;步骤4、对步骤3中识别出的人名、工作单位和职位进行修正;步骤5、根据修正后的人名、工作单位和职位,形成用于表达任职关系的三元组并存储在电子名片数据库。本发明还公开了一种面向人物名片的任职关系抽取系统,本发明从而实现对名片的任职关系自动录入与存储,对人脉关系进行扩充和管理。
-
公开(公告)号:CN113688635A
公开(公告)日:2021-11-23
申请号:CN202111019717.7
申请日:2021-09-01
Applicant: 中国矿业大学(北京)
Abstract: 本发明公开了一种基于语义相似度的类案推荐方法,具体如下:1,获得法律文书,得到案件文本;2,将预处理后的案件文本划分,形成案件样本集合;3,用案件样本集合训练文本分类模型;4,计算案件样本集合中两个案件文本的事实描述的语义相似度,从而生成语义相似度样本集合;5,采用语义相似度样本集合训练语义相似度计算模型;6,获得用户输入的查询文本,进行预处理;7,使用步骤3中的文本分类模型对预处理后的查询文本进行分类;8,根据步骤7的分类结果,使用步骤5生成的模型计算查询文本与对应类别中的案件文本的相似度,并推荐相似度数值最高的若干案件文本。本方法能够在没有法律专家知识的情况下有效地查询相似案件。
-
公开(公告)号:CN116562251B
公开(公告)日:2024-09-27
申请号:CN202310569275.6
申请日:2023-05-19
Applicant: 中国矿业大学(北京)
IPC: G06F40/18 , G06F40/205 , G06F40/284 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向证券信息披露长文档的表格分类方法,具体如下:步骤1、获得证券信息披露长文档的PDF文件,并进行解析;步骤2、依据关键词和上下文抽取算法,从解析后的PDF结构的证券信息披露长文档中抽取待分析的表格及其上下文;步骤3、预处理表格及其上下文,形成词嵌入模型训练上下文样本集合与表格分类样本集合;步骤4、通过上下文样本集合训练词嵌入模型;步骤5、使用训练获得的词嵌入模型对预处理后的表格及其上下文进行词嵌入表示,并使用不同的多尺度卷积神经网络,对表格及其上下文进行特征提取;步骤6、对提取到的表格及其上下文特征采取特征扩展融合方式,得到特征融合结果进行表格分类。本发明能快速准确的获取待分析表格。
-
公开(公告)号:CN116311259B
公开(公告)日:2024-03-12
申请号:CN202211562314.1
申请日:2022-12-07
Applicant: 中国矿业大学(北京)
IPC: G06V30/14 , G06V30/146
Abstract: 本发明公开了一种PDF业务文档的信息抽取方法,涉及文件信息抽取和数据处理领域,包括如下步骤:步骤1、对PDF业务文档的每个页面进行解析,得到表格线列表;步骤2、若能够为一个字符对象生成最小单元格,则判定该字符对象为表格字符;否则判定该字符对象为非表格字符;步骤3、对所有的非表格字符以坐标信息进行拼接、分段,完成非表格区域的文本抽取,并得到每个非表格字符段的中心点的坐标;步骤4、根据非表格字符段的中心点的坐标,对所有最小单元格所属的表格区域进行划分,得到表格区域列表;步骤5、对表格区域列表完成结构和区域文本的抽取。本方法能够提高PDF业务文档,尤其是包含复杂表格的金融披露文档中信息抽取的精度。
-
公开(公告)号:CN116562251A
公开(公告)日:2023-08-08
申请号:CN202310569275.6
申请日:2023-05-19
Applicant: 中国矿业大学(北京)
IPC: G06F40/18 , G06F40/205 , G06F40/284 , G06N3/0464 , G06N3/08
Abstract: 本发明公开了一种面向证券信息披露长文档的表格分类方法,具体如下:步骤1、获得证券信息披露长文档的PDF文件,并进行解析;步骤2、依据关键词和上下文抽取算法,从解析后的PDF结构的证券信息披露长文档中抽取待分析的表格及其上下文;步骤3、预处理表格及其上下文,形成词嵌入模型训练上下文样本集合与表格分类样本集合;步骤4、通过上下文样本集合训练词嵌入模型;步骤5、使用训练获得的词嵌入模型对预处理后的表格及其上下文进行词嵌入表示,并使用不同的多尺度卷积神经网络,对表格及其上下文进行特征提取;步骤6、对提取到的表格及其上下文特征采取特征扩展融合方式,得到特征融合结果进行表格分类。本发明能快速准确的获取待分析表格。
-
公开(公告)号:CN116311259A
公开(公告)日:2023-06-23
申请号:CN202211562314.1
申请日:2022-12-07
Applicant: 中国矿业大学(北京)
IPC: G06V30/14 , G06V30/146
Abstract: 本发明公开了一种PDF业务文档的信息抽取方法,涉及文件信息抽取和数据处理领域,包括如下步骤:步骤1、对PDF业务文档的每个页面进行解析,得到表格线列表;步骤2、若能够为一个字符对象生成最小单元格,则判定该字符对象为表格字符;否则判定该字符对象为非表格字符;步骤3、对所有的非表格字符以坐标信息进行拼接、分段,完成非表格区域的文本抽取,并得到每个非表格字符段的中心点的坐标;步骤4、根据非表格字符段的中心点的坐标,对所有最小单元格所属的表格区域进行划分,得到表格区域列表;步骤5、对表格区域列表完成结构和区域文本的抽取。本方法能够提高PDF业务文档,尤其是包含复杂表格的金融披露文档中信息抽取的精度。
-
公开(公告)号:CN115099888B
公开(公告)日:2023-01-06
申请号:CN202210668460.6
申请日:2022-06-14
Applicant: 中国矿业大学(北京)
IPC: G06Q30/06 , G06F16/9535 , G06F40/20
Abstract: 一种基于注意力机制的用户评论有效性分析方法,包括以下步骤:步骤1:通过VGAE模型生成用户行为数据特征;步骤2:生成用户生成内容数据特征;步骤3:通过AGNN融合用户行为数据特征和用户生成内容数据特征,并基于胶囊网络设置有效特征向量和无效特征向量两个输出,通过计算有效特征特征向量模长与无效特征向量模长之比对用户的评论进行有效性分析;本发明设置一种基于注意力机制的用户评论有效性分析方法通过整合用户行为和用户生成内容,综合利用用户的历史评论及用户的标签,刻画了用户的特征,提升分析准确度,在评论有效性预测方面给出了一种新的思路。
-
公开(公告)号:CN114220112A
公开(公告)日:2022-03-22
申请号:CN202111544385.4
申请日:2021-12-16
Applicant: 中国矿业大学(北京)
IPC: G06V30/414 , G06V30/413 , G06N3/04 , G06F40/295 , G06N3/08 , G06V10/82
Abstract: 本发明公开了一种面向人物名片的任职关系抽取方法,包括以下步骤:步骤1、获得人物名片图片,并对人物名片图片进行预处理;步骤2、对预处理后的人物名片图片中的文字进行提取,得到文字区域;步骤3、识别出文字区域中的三种实体,三种实体包括人名、工作单位和职位;步骤4、对步骤3中识别出的人名、工作单位和职位进行修正;步骤5、根据修正后的人名、工作单位和职位,形成用于表达任职关系的三元组并存储在电子名片数据库。本发明还公开了一种面向人物名片的任职关系抽取系统,本发明从而实现对名片的任职关系自动录入与存储,对人脉关系进行扩充和管理。
-
-
-
-
-
-
-
-
-