-
公开(公告)号:CN109145260A
公开(公告)日:2019-01-04
申请号:CN201810975598.4
申请日:2018-08-24
Applicant: 北京科技大学
Abstract: 本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
-
公开(公告)号:CN109145260B
公开(公告)日:2020-04-24
申请号:CN201810975598.4
申请日:2018-08-24
Applicant: 北京科技大学
IPC: G06F40/106 , G06F40/211 , G06F16/31
Abstract: 本发明提供一种文本信息自动提取方法,能够不断提高标记内容和标签自动提取的准确性。所述方法包括:获取用户上传的文本文件,将其转换为能用计算机逐字符分析的文档格式;对格式转换后的文档中的文本内容进行预处理,形成便于使用自然语言处理技术解析的多层次文本单元;捕捉用户选择的文本片段,基于形成的多层次文本单元,确定该文本片段对应的标记内容,并为每个标记内容推荐标签;基于确定的标记内容和为每个标记内容推荐的标签,采用在线学习的训练思想,训练文本自动提取模型,以实现标记内容和标签的自动提取。本发明适用于文本信息自动提取操作。
-