一种提取多语言PDF文档中日期的方法

    公开(公告)号:CN112712085A

    公开(公告)日:2021-04-27

    申请号:CN202011584156.0

    申请日:2020-12-28

    Abstract: 本发明公开了一种提取多语言PDF文档中日期的方法,具体实施步骤包括:基于反二进制化格式解码技术获取PDF文档的结构化信息;利用PDF特征分析技术将此部分信息中的文本编码分析并解析成可辨认文本串。然后,训练基于深度学习的命名实体识别模型,利用命名实体识别模型和正则表达式匹配技术获取多语言环境下日期信息序列。最后,获取待处理PDF文档进行处理与标注获得的PDF文档中时间信息与时间序列的对应关系的特征数据库,获取所需日期信息。该技术与现有技术相比能处理无固定格式文档或格式复杂多变文档、较低图片式文档,和含有多种语言的PDF文档。

    基于关联图和关联矩阵分析的综合评价方法

    公开(公告)号:CN102663031A

    公开(公告)日:2012-09-12

    申请号:CN201210080520.9

    申请日:2012-03-26

    Inventor: 李永立 吴冲

    Abstract: 本发明提供了一种基于关联图和关联矩阵分析的综合评价方法,用以整合所有评价人的打分信息对被评价对象进行评价。它包括步骤A、根据最小评分刻度和评分范围制定评分表格;B、将评价人对被评价对象的评价结果整理到评分表中;C、以每个评价人为对象,构建被评价物品的关联图;D、将评价人的关联图转化为关联矩阵,加总全体评价人的关联矩阵得到总关联矩阵;E、对总关联矩阵求主特征向量,并针对被评价对象归一化运算得到归一化向量;F、将归一化向量与评分体制向量做内积得到综合评价的结果。本发明的有益效果是可以最大限度的保留原有的评价信息不损失,具有良好的保持偏好信息的能力和全面反映既有评价信息的能力,结果客观,适用广泛。

    基于信息理论的复杂网络社团检测方法

    公开(公告)号:CN103164533B

    公开(公告)日:2016-07-06

    申请号:CN201310120905.8

    申请日:2013-04-09

    Abstract: 基于信息理论的复杂网络社团检测方法,涉及一种基于信息理论发现复杂网络中社团结构的方法。本发明的检测方法包括如下步骤:步骤A、对网络节点进行编号,根据网络的结构和权重信息,制作该网络的概率矩阵;B、根据信息理论的方法得到合并两点为一个社团时的信息损失;C、找到信息损失最小的两个节点进行合并,并更新原有网络的社团结构;D、计算更新结构后网络的模块度系数;E、重复B、C和D的过程,直到社团个数为1;F、找出最大的模块度系数对应的社团数及相应的社团结构。本方法的有益效果是结果客观、稳定,可用于含有权重的网络结构,有严格的社团数选取标准,计算耗时少,适用于大规模网络。

    基于信息理论的复杂网络社团检测方法

    公开(公告)号:CN103164533A

    公开(公告)日:2013-06-19

    申请号:CN201310120905.8

    申请日:2013-04-09

    Abstract: 基于信息理论的复杂网络社团检测方法,涉及一种基于信息理论发现复杂网络中社团结构的方法。本发明的检测方法包括如下步骤:步骤A、对网络节点进行编号,根据网络的结构和权重信息,制作该网络的概率矩阵;B、根据信息理论的方法得到合并两点为一个社团时的信息损失;C、找到信息损失最小的两个节点进行合并,并更新原有网络的社团结构;D、计算更新结构后网络的模块度系数;E、重复B、C和D的过程,直到社团个数为1;F、找出最大的模块度系数对应的社团数及相应的社团结构。本方法的有益效果是结果客观、稳定,可用于含有权重的网络结构,有严格的社团数选取标准,计算耗时少,适用于大规模网络。

Patent Agency Ranking