-
公开(公告)号:CN112307718B
公开(公告)日:2021-05-11
申请号:CN202011339681.6
申请日:2020-11-25
Applicant: 北京邮电大学 , 北京欢科科技有限公司
IPC: G06F40/117 , G06F16/84
Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。
-
公开(公告)号:CN113191133B
公开(公告)日:2021-12-21
申请号:CN202110438831.7
申请日:2021-04-21
Applicant: 北京邮电大学 , 北京欢科科技有限公司
IPC: G06F40/194 , G06F16/35 , G06F16/65 , G06N3/12
Abstract: 本发明公开了一种基于Doc2Vec的音频文本对齐方法及系统,该方法包括:基于模拟退火遗传算法优化的AIC‑FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将短音频进行语音识别输出以句为维度的短文本;基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配,完成文本对齐。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果,在对齐的效果上基本和Doc2vec持平且时间复杂度降低了35%左右。
-
公开(公告)号:CN113191133A
公开(公告)日:2021-07-30
申请号:CN202110438831.7
申请日:2021-04-21
Applicant: 北京邮电大学 , 北京欢科科技有限公司
IPC: G06F40/194 , G06F16/35 , G06F16/65 , G06N3/12
Abstract: 本发明公开了一种基于Doc2Vec的音频文本对齐方法及系统,该方法包括:基于模拟退火遗传算法优化的AIC‑FCM进行门限阈值估计,将随书长音频切分为以句为维度的短音频,并将短音频进行语音识别输出以句为维度的短文本;基于Doc2Vec模型对电子书进行段落提取,得到以段落为维度的段落文本;基于阈值预测法的动态匹配方法对短文本以及段落文本进行文本相似度匹配,完成文本对齐。相比传统的音频文本对齐算法在长音频切分上更加接近理想切分结果,在对齐的效果上基本和Doc2vec持平且时间复杂度降低了35%左右。
-
公开(公告)号:CN112307718A
公开(公告)日:2021-02-02
申请号:CN202011339681.6
申请日:2020-11-25
Applicant: 北京邮电大学 , 北京欢科科技有限公司
IPC: G06F40/117 , G06F16/84
Abstract: 本发明公开了一种基于文本特征和语法规则的PDF全自动标引系统及方法,系统配置解析层、事件分发层、功能实现层。该系统采用了事件驱动的方式,使用了观察者模式的架构,先通过解析PDF生成一个包含基础信息的XML中间文件,然后再使用文本特征以及语法特征分析等技术分析所有的PDF元素以完成全部自动标引过程;PDF全自动标引方法将整个工作流程分为了七个阶段,分别为元素提取阶段、块聚合阶段、行聚合阶段、图片标签识别阶段、标签匹配阶段、标引文件生成阶段和异常处理阶段,能够实现PDF文件的全自动解析、加标签、聚合并最终导出包含所有信息的结构化数据。本发明提高了系统的扩展性、PDF处理效率和内容利用深度,实现PDF的全自动标引。
-
-
-