-
公开(公告)号:CN106096592B
公开(公告)日:2019-05-24
申请号:CN201610584126.7
申请日:2016-07-22
Applicant: 浙江大学
Abstract: 本发明公开了一种数字图书的版面分析方法。基于区域分割的版面分析方法本质上是一种以JEPG或TIF格式存储图书的图像分割与区域分类。本发明首先利用形态学运算并结合Gabor线性滤波器的方法提取图片边缘以及过分割区域的基础合并,实现图书区域的分割,然后对分割的图像块进行区域填充及排序,重新构建阅读顺序,最后对图像区域进行特征提取,训练分类器得到各区域属性,实现图书的区域分离,提高OCR引擎的识别正确性以及图书查询的准确率。
-
公开(公告)号:CN104778225B
公开(公告)日:2017-12-12
申请号:CN201510137871.2
申请日:2015-03-27
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种非结构化数据多存储系统中同步数据的方法,特别适用于以HBase为主数据库的非结构化数据多存储系统中数据同步问题。本方法引入了两种捕获HBase内原数据表数据变更事件的捕获器,首先通过捕获器捕获主数据库内数据变更事件,然后将捕获到的数据变更事件进行序列化,并将序列化后的字节流数据连入DataBus开源工作框架,最终使非结构化数据多存储系统内的数据得到同步。本发明有效克服了传统非结构化数据多存储系统中数据同步方法的缺点,搭建了高可用、可扩展的数据同步组件,具有良好的应用价值。
-
公开(公告)号:CN107122411A
公开(公告)日:2017-09-01
申请号:CN201710199300.0
申请日:2017-03-29
Applicant: 浙江大学
Abstract: 本发明公开了一种基于离散多视图哈希的协同过滤推荐方法,包括如下步骤:1)根据不同视图下的数据构建数据的多视图锚点图表示;2)结合协同过滤和锚点图,得到学习模型;3)对得到的学习模型进行求解,得到用户与物品对应的二进制哈希编码;4)利用得到的哈希编码进行最邻近搜索,计算特定用户对候选物品的偏好程度,返回偏好程度最大的若干个物品作为推荐结果。本发明将不同视图下的数据进行了整合,在求解的时候始终保持编码的离散特性,提高了推荐结果的质量。同时利用哈希编码实现了相似用户的快速搜索,提高了推荐结果计算的效率。
-
公开(公告)号:CN106682095A
公开(公告)日:2017-05-17
申请号:CN201611089639.7
申请日:2016-12-01
Applicant: 浙江大学
Abstract: 本发明公开了一种基于图的主题描述词预测及排序方法。首先,将主题描述词的预测问题转化为一个二部图的预测问题,主题词与描述词为图的两个互不相交的子集,不同集合的顶点之间边的关系即为主题词和描述词之间的关系。再利用图的张量积方法将二部图的预测问题转化为顶点标签的传播问题。然后利用矩阵的分解、特征值矩阵等方法降低矩阵的秩,解决预测过程中的计算瓶颈,同时需要对主题词及描述词数据进行聚类及过滤,再构造训练集对主题词进行描述词预测,接着,利用SVM‐rank的排序方法对预测结果进行排序,最后对排序结果进行二次层次聚类,类簇中所有描述词的平均得分作为该类簇的排序得分,从而得到最后的关于这个主题的描述词序列。
-
公开(公告)号:CN105824914A
公开(公告)日:2016-08-03
申请号:CN201610148250.9
申请日:2016-03-15
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F16/2471 , G06F16/252
Abstract: 本发明公开了一种基于配置的雪花模型信息抽取方法。首先,根据雪花模型定义,需要对数据库中数据模型进行分析,将不满足条件的模型进行设计转换。其次,分析不同数据源的特点,概括其共同的抽象特征,且以配置文件方式表示,并实现对应配置文件解析器以及后续的通用处理程序。接着,对于某特定数据库,选取需要进行处理的表和字段,编写符合规范的配置文件。最后,配置文件解析器根据配置文件,抽取用户所需内容并进行处理。通过此种方法,对于符合雪花模型且后续处理过程相同的任务,只需重新编写配置文件,即可将原先通用处理程序复用于另一个任务,省时省力。
-
公开(公告)号:CN105808768A
公开(公告)日:2016-07-27
申请号:CN201610163737.4
申请日:2016-03-19
Applicant: 浙江大学
CPC classification number: G06F17/30864 , G06F17/277 , G06F17/2775 , G06F17/2785 , G06F17/30705 , G06F17/30731 , G06F17/30734
Abstract: 本发明公开了一种基于图书的概念?描述词知识网络的构建方法。基于图书构建概念?描述词知识网络本质上是一种知识图谱构建技术。本发明首先从数字图书中抽取得到目录项,在此基础上利用分词工具和正则表达式对目录进行预处理。然后训练语言模型将各个词、词相应的特征以及词对应的标注用词嵌入进行表达,进而用词嵌入匹配算法抽取得到目录短语。随后训练分类器将目录短语分类成概念和描述词,通过概念和描述的映射构建得到概念?描述词知识网络。本发明从图书中构建概念?描述词知识网络,有效的完成了对图书知识的抽取和分解。
-
公开(公告)号:CN104679835A
公开(公告)日:2015-06-03
申请号:CN201510065111.5
申请日:2015-02-09
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于多视图哈希的图书推荐方法,包括如下步骤:1)从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据和搜索数据;2)构建用户在点击和搜索视图上的用户特征向量;3)利用两个视图的行为数据,通过多视图哈希算法得到用户哈希编码、哈希函数以及两个视图的权重;4)利用得到的用户哈希编码为目标用户寻找相似用户;5)得到相似用户点击的图书集合,作为推荐候选列表,计算目标用户对图书的偏好程度,返回目标用户偏好程度最大的前N本图书。本发明可以将用户在两个视图的行为数据整合到哈希编码中,提高图书推荐准确性;另一方面,哈希编码的汉明距离计算速度很快,可以提高图书推荐的效率。
-
公开(公告)号:CN104572624A
公开(公告)日:2015-04-29
申请号:CN201510027487.7
申请日:2015-01-20
Applicant: 浙江大学
Abstract: 本发明公开了一种基于词向量的单味药与疾病之间的治疗关系的发现方法。首先需要选择训练集,本发明采用《中华本草》书籍中8980味药作为治疗关系的主体,对于其主治描述提取疾病概念,作为治疗关系的客体,形成“药、治疗、疾病”的三元组,其次采用Google公布的Word2Vec工具作为词向量训练工具,百度百科资源作为训练语料,最后利用训练得到的词向量利用SVM训练出所需要的模型。输入单味药和疾病,该模型可以判断二者是否具有治疗关系。
-
公开(公告)号:CN103886067A
公开(公告)日:2014-06-25
申请号:CN201410105985.4
申请日:2014-03-20
Applicant: 浙江大学
CPC classification number: G06F17/30867 , G06F17/30731
Abstract: 本发明公开了一种使用标签隐含主题进行图书推荐的方法。它将图书作为文档,图书标签作为文档中的单词,采用LDA-Gibbs算法对图书标签进行主题建模,得到标签-主题模型,然后根据用户的图书阅读记录得到用户和标签的对应关系,使用LDA-inference算法得到用户-主题模型,最后根据用户在主题分布上的相似度找到兴趣相似的用户,对图书进行协同过滤推荐。本发明充分挖掘了图书标签中的语义信息,通过使用主题降低了表达用户所需的维度,减小了计算量,有助于提高推荐结果的质量,有一定的实用价值。
-
公开(公告)号:CN103716372A
公开(公告)日:2014-04-09
申请号:CN201310592410.5
申请日:2013-11-22
Applicant: 浙江大学
Abstract: 本发明公开了一种数字图书馆即服务的云计算平台构建方法。平台的构建采用四层结构,即物理存储层,虚拟设施架构层,数字图书馆引擎以及数字图书馆系统应用层,其中:物理存储层基于非结构化数据管理系统来存储和处理数字图书馆中的数据并提供分析、索引和查询功能;虚拟设施架构层用于构建和处理虚拟机节点,提供基础的云计算设施;数字图书馆引擎用于创建和处理数字图书馆服务节点,并实现了资源处理服务、多租户服务和质量保证服务。本发明通过构建数字图书馆即服务的云计算平台,可以方便用户构建和维护数字图书馆系统;同时,数字图书馆引擎通过资源处理服务、多租户服务和质量保证服务,使得数字图书馆系统安全、可靠、可扩展和高性能。
-
-
-
-
-
-
-
-
-