-
公开(公告)号:CN109344297A
公开(公告)日:2019-02-15
申请号:CN201811085837.5
申请日:2018-09-18
Applicant: 北京工业大学
IPC: G06F16/901
Abstract: 本发明提供了一种共享图书系统中离线获取图书在版编目数据(CIP)的方法。首先对图书扉页图片进行预处理,从而将图片中的组成文字的像素点与组成背景的像素点相分离并去除干扰识别的噪点进而提高数据采集准确率。然后对经过处理的图书扉页图片进行光学字符识别,获取图片中的文字信息。最后根据图书在版编目数据的格式特征从文字信息中解析出图书的书名、作者、出版社、出版年份以及ISBN编号。使得在共享图书系统处于未连接互联网的离线状态下通过实体图书扉页照片或电子书扉页图片直接获取图书在版编目数据。
-
公开(公告)号:CN109241013A
公开(公告)日:2019-01-18
申请号:CN201811084643.3
申请日:2018-09-18
Applicant: 北京工业大学
IPC: G06F16/176 , G06F16/33
Abstract: 本发明提供了一种共享图书系统中图书内容审核的方法,首先训练图书内容审核模型,在训练过程中基于N元模型对特征词进行扩展并计算每个特征词的权值,从而提高图书内容审核的准确率;然后解析用户共享图书中的文字内容,提取图书文字内容中的特征词并进行扩展;最后根据训练好的图书内容审核模型和从用户共享图书中提取到的特征词以及训练好的逻辑回归模型判断图书内容是否通过审核,从而实现共享图书系统中对于图书内容的自动审核。
-