一种基于分级词项的地质文档特征词项排序方法与装置

    公开(公告)号:CN111090997B

    公开(公告)日:2021-07-20

    申请号:CN201911322154.1

    申请日:2019-12-20

    Applicant: 中南大学

    Abstract: 本发明涉及一种基于分级词项的地质文档特征词项排序方法,包括:获取范围类型参数信息;判断范围类型参数是否与预先设定的第一参数或第二参数或第三参数相同;若是,则获取范围参数信息;基于范围类型参数信息和范围参数信息,获取预先设定的与类型参数信息和范围参数信息相应的第一文档集或第二文档集或第三文档集;获取第一文档集或第二文档集或第三文档集中的特征词项的词频;基于第一文档集或第二文档集或第三文档集中特征词项的词频,和预先设定的与特征词项对应的词项级别、级别权重,获取第一文档集或第二文档集或第三文档集中特征词项的特征值;基于特征词项的特征值,获取特征值中前N个特征值所对应的特征词项。

    一种词项文档结构位置权重的获取方法及装置

    公开(公告)号:CN111611341B

    公开(公告)日:2023-04-25

    申请号:CN202010274874.1

    申请日:2020-04-09

    Applicant: 中南大学

    Abstract: 本发明涉及一种词项文档结构位置权重的获取方法及装置,包括步骤:基于预先设定的文档结构位置的多个位置类型、与文档结构位置的位置类型所对应的文档级别,获取与位置类型所对应的第一权重;获取与位置类型对应的文档结构位置中的词项数;基于与位置类型对应的第一权重和与位置类型对应的文档结构位置中的词项数,获取与位置类型所对应的第二权重;基于与位置类型所对应的第一权重和第二权重,获取与所述位置类型所对应的第三权重;与位置类型所对应的第三权重为与所述位置类型所对应的第一权重和第二权重的和;基于与位置类型对应的第三权重和预先设定的与所述位置类型对应的特定词项,获取所述预先设定的特定词项的结构位置权重。

    段落类型识别方法及系统和文档结构识别方法及系统

    公开(公告)号:CN112699637A

    公开(公告)日:2021-04-23

    申请号:CN202110022142.8

    申请日:2021-01-08

    Applicant: 中南大学

    Abstract: 本发明涉及段落类型识别方法及系统和文档结构识别方法及系统,其中,段落类型识别方法,包括:S1、根据预先设定的段落类型识别规则,判断文本中任一段落是否符合段落类型识别规则,获取判断结果;所述段落类型识别规则包括:第一级规则为规定段落类型识别规则判断先后顺序的优先级规则;第二级规则为段落识别关联准则;S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型;所述第一编号与所述段落类型识别准则对应。解决了现有的地质资料段落类型识别方法中语料标注成本过高、语料库稀缺的问题。

    一种多源Markdown地质资料文本格式规范化方法及系统

    公开(公告)号:CN112699636B

    公开(公告)日:2024-07-05

    申请号:CN202110022101.9

    申请日:2021-01-08

    Applicant: 中南大学

    Abstract: 本发明涉及一种多源Markdown地质资料文本格式规范化方法及系统,所述方法包括:S1、根据预先设定的文本清理判断规则,判断文本中任一行文本是否符合清理判断准则,获取判断结果;所述文本清理判断规则包括:第一级规则为规定清理判断准则进行判断的顺序的优先级规则;第二级规则为清理判断准则,用于判断文本是否符合清理判断准则;S2、根据所述判断结果和预先设定文本清理判断规则及规范化处理方法,进行规范处理,获取规范文本;所述规范化处理方法与所述文本清理判断规则对应,解决了对Markdown格式地质资料文本格式规范化处理需要有经验的操作人员才能完成,且速度慢、效率低、无法避免人为疏忽带来的判断错误的问题。

    段落类型识别方法及系统和文档结构识别方法及系统

    公开(公告)号:CN112699637B

    公开(公告)日:2024-04-12

    申请号:CN202110022142.8

    申请日:2021-01-08

    Applicant: 中南大学

    Abstract: 本发明涉及段落类型识别方法及系统和文档结构识别方法及系统,其中,段落类型识别方法,包括:S1、根据预先设定的段落类型识别规则,判断文本中任一段落是否符合段落类型识别规则,获取判断结果;所述段落类型识别规则包括:第一级规则为规定段落类型识别规则判断先后顺序的优先级规则;第二级规则为段落识别关联准则;S2、根据所述判断结果和预先设定段落类型识别准则及第一编号确定所述段落的段落类型;所述第一编号与所述段落类型识别准则对应。解决了现有的地质资料段落类型识别方法中语料标注成本过高、语料库稀缺的问题。

    一种地质命名实体的提取方法及装置

    公开(公告)号:CN111079436B

    公开(公告)日:2021-09-21

    申请号:CN201911322290.0

    申请日:2019-12-20

    Applicant: 中南大学

    Abstract: 本发明涉及一种地质命名实体提取方法,包括:获取由多个字符或字符串组成的目标文本;基于目标文本和预先设定的第一规则字符,获取第一正则表达式,提取目标文本中的第一字符串,用预先设定的第八规则字符替换后,得到第二目标文本;基于所述第二目标文本和预先设定的第三规则字符判断第二目标文本中是否含有第三规则字符;若有,则采用预先设定的与所述第三规则字符对应的第四规则字符、第二规则字符、第五规则字符、第六规则字符和第三规则字符获取第二正则表达式,获取第二目标文本中第二字符串;获取第二字符串的长度,并根据长度和所述预先设定的与所述第三规则字符对应的最小长度值,获取所述目标文本中的地质命名实体。

    一种地质文档词项分级方法及装置

    公开(公告)号:CN111079425B

    公开(公告)日:2021-07-09

    申请号:CN201911322151.8

    申请日:2019-12-20

    Applicant: 中南大学

    Abstract: 本发明涉及一种地质文档词项分级方法,包括:获取多个目标处理词项和所述目标处理词项的长度值;基于所述目标处理词项和预先设定的尾词,获取第一类目标处理词项和第二类目标处理词项;获取所述第二类目标处理词项的尾词的长度值;基于所述第二类目标处理词项的尾词的长度值和所述尾词所属的目标处理词项的长度值,获取所述尾词所属的目标处理词项的前缀长度值;基于所述尾词所属的目标处理词项的前缀长度值和预先设定的与所述前缀长度值相应的目标级别,获取所述尾词所属的目标处理词项的目标级别;所述目标级别包括:第一目标级别或第二目标级别或第三目标级别或第四目标级别或第五目标级别或第六目标级别。

Patent Agency Ranking