一种年报文本结构识别方法

    公开(公告)号:CN110287784B

    公开(公告)日:2023-12-15

    申请号:CN201910416590.9

    申请日:2019-05-20

    Applicant: 暨南大学

    Abstract: 本发明公开了一种年报文本结构识别方法,体步骤为:步骤1:利用标题规则抽取TXT版本年报中的行,作为候选第一标题;步骤2:利用OpenCV基于视觉的图像处理技术,识别出PDF文件中具有标题特征的候选第二标题;步骤3:比对候选第一标题和候选第二标题形成候选第三标题;步骤4:利用信息熵计算标题行的左右互信息,对候选第三标题进行筛选形成企业年报小标题;步骤5:整理年报小标题形成企业年报目录结构涉及年报文本结构识别技术领域。该年报文本结构识别方法解决了PDF财务报告中不仅内嵌多种多样的表格,还嵌有类型各异的文件,这些表格和文件具有独立表格和独立文件的结构,分析难度大的问题。

    一种财务报表附注的事件抽取方法、系统及存储介质

    公开(公告)号:CN116150361A

    公开(公告)日:2023-05-23

    申请号:CN202211680822.X

    申请日:2022-12-27

    Applicant: 暨南大学

    Inventor: 潘定 周星

    Abstract: 本发明公开了一种财务报表附注的事件抽取方法、系统及存储介质,该方法包括下述步骤:获取财务报告PDF文档,经数据预处理后得到财务报表附注文本的TXT文档;识别和标注财务报表附注文本的TXT文档的标题及其层级和段落,获得标题集和段落集;基于Transformer编码器识别和标注财务报表附注中财务事件的事件论元,同时获得事件论元的向量表示;将段落和标题及其层级的语义特征用向量表示,将事件论元所包含的词的向量表示和标题及其层级的向量表示拼接为一个向量矩阵;学习事件论元和标题及其层级的特征判断事件类别,学习事件论元、标题及其层级和记忆向量的特征,基于Transformer编码器和线性二分类器将事件论元填充到事件表的当前事件角色中,获得当前段落所包含的所有事件记录。本发明提取财务报表附注文本中的标题及其层级作为财务报表附注关键的篇章级语义信息,利用篇章级语义信息和事件论元信息识别财务报表附注文本中的事件类别,并设计事件表填充的方式实现多个事件记录同时抽取,整体上提升财务报表附注的事件抽取的准确度。

    一种年报文本标题自动标注系统

    公开(公告)号:CN110287458B

    公开(公告)日:2023-05-02

    申请号:CN201910416616.X

    申请日:2019-05-20

    Applicant: 暨南大学

    Abstract: 本发明公开了一种年报文本标题自动标注系统,其具体方法为:A、对不同级别的一级标题和二级标题都要进行两次标注;B、匹配一级标题,第一次标注将完全和标题模板匹配,以及通过相似度计算达到阈值的一级标题别添加M、S标注,并筛选越级标注,第二次标注将通过相似度计算而标注的标题进行二次匹配涉及年报文本标题标注技术领域。该年报文本标题自动标注系统,发明选择采用机器视觉的方法对财务报告文本版面进行识别,并将机器视觉和规则统计文本抽取方法有机结合起来,以解决较难准确的对标题进行标注的问题。

    一种基于自然语言处理的财务报告分析方法

    公开(公告)号:CN115526695A

    公开(公告)日:2022-12-27

    申请号:CN202211148023.8

    申请日:2022-09-20

    Applicant: 暨南大学

    Inventor: 周星 潘定

    Abstract: 本发明公开了一种基于自然语言处理的财务报告分析方法,包括报表信息获取单元、自然语言处理单元、报表信息云平台单元、报表信息预警单元、报表信息输出单元,报表信息存储单元:用于对报表指令信息进行分析的财务报表分析系统,财务报表分析系统包括数据库文件、模型库文件和知识库文件。本发明一种基于自然语言处理的财务报告分析方法中财务预警的数据来源于数据仓库文件,通过加工处理这些数据信息,并运用预警模型和决策知识进行判别分析,得出预警分析文件,为决策者提供预警信息。

    一种基于语义基元的年报文本词向量表示方法及系统

    公开(公告)号:CN117273000A

    公开(公告)日:2023-12-22

    申请号:CN202311148004.X

    申请日:2023-09-07

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本发明公开了一种基于语义基元的年报文本词向量表示方法及系统,该方法包括下述步骤:获取会计领域词典文本及财务报告领域停用词文本,基于年报文本构建语料库并进行切词;进行文本主题训练,获取每种主题分类中权重值最大的词汇作为主题词;进行词向量训练,得到每个词汇的向量表示;计算主题词之间的语义相似度;选择语义相似度最低的主题词作为语义基元;计算每个词汇与语义基元的语义相似度作为在对应语义基元维度的权重;进行归一化处理,将每个语义基元的相似度除以词汇在所有语义基元相似度的和,得到由各个语义基元表示的词汇的特征向量表示。本发明利用有限个义原表示词向量能够降低词向量的表示维度,提高向量空间的稠密程度。

    一种年报主题语义识别方法
    6.
    发明公开

    公开(公告)号:CN117057358A

    公开(公告)日:2023-11-14

    申请号:CN202311021265.5

    申请日:2023-08-15

    Applicant: 暨南大学

    Inventor: 潘定 杨春燕

    Abstract: 本申请涉及金融数据处理技术领域,尤其涉及一种年报主题语义识别方法。包括:获取词向量提取模型;获取主题语义待识别的年报文本,针对年报文本进行词向量提取操作,得到待识别的词向量;获取主题语义分类知识库;通过主题语义分类知识库针对待识别词向量进行分析词的识别并且根据识别出的分析词进行情感词和主题语义的确认,相应地得到包括输出情感词和主题语义的识别结果。本申请在当前离散的情感词典的基础上,建立年报领域的情感语义分类词典,并标注年报中的情感描述对象作为年报主题语义。进一步在已经标注的语义知识库的基础上利用相似度计算方法实现文本的主题语义识别,提高本申请中主题识别的准确性。

    一种数据仓库优化管理系统
    9.
    发明公开

    公开(公告)号:CN115563081A

    公开(公告)日:2023-01-03

    申请号:CN202211163646.2

    申请日:2022-09-23

    Applicant: 暨南大学

    Inventor: 徐慧倩 潘定

    Abstract: 本发明公开了一种数据仓库优化管理系统,通过在系统中设置数据分析模块、数据仓库构建模块和数据仓库优化模块,对业务系统输入数据的采集、转换和加载载的ETL操作,分布式ETL计算将未处理的大数据及切分为若干个大小相等的小数据集,采用多个计算节点同时计算各个小数据集,能有效的使用多个计算机的运算能力,解决ETL过程耗时长的问题,提高了数据更新速率,通过粗略粒度估算待建的数据仓库数据量级来确定合适的系统数据粒度,根据估算的数据量级规模确定不同的数据粒度策略,根据使用的数据粒度确定表的分割策略,从而有效实现数据仓库的性能优化,提高数据质量且可信度高,将ETL的错误给数据仓库后续数据的处理的风险降到最低。

    一种面向年报的公司名称和关系抽取方法

    公开(公告)号:CN111680127A

    公开(公告)日:2020-09-18

    申请号:CN202010527938.4

    申请日:2020-06-11

    Applicant: 暨南大学

    Abstract: 发明公开了一种面向年报的公司名称和关系抽取方法,一种面向年报的公司名称和关系抽取方法,具体步骤为:步骤1、进行词向量模型的训练,步骤2、对公司关系的分类进行定义,将SVM分类的标签设为三类,分别是非投资关系、投资关系、无关系,步骤3、人工筛选反应公司关系的句子,步骤4、将公司关系文本语料中的句子用jieba分词分词后通过WORD2VEC词向量模型转换成向量表示,本发明涉及关系抽取技术领域。该面向年报的公司名称和关系抽取方法,解决了对于专家的过于依懒以及局限性很大,无法从一套关系模板中拓展出广泛采用的模板的问题。

Patent Agency Ranking