-
公开(公告)号:CN101826102A
公开(公告)日:2010-09-08
申请号:CN201010133153.5
申请日:2010-03-26
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种图书关键字自动生成方法。确定图书与作者的关系,从互联网上抓取书评,将其分词并标注词性,留下名词作候补关键词;通过谷歌检索候补关键词在维基百科中出现的文档数目以初步评定重要性,过滤语气词、错别字;将作者、图书、评论和候补关键词作为四种节点,将其互相间的关系作为边,构建四部图;基于四部图,运用以图书为中心的吸收态随机行走算法挑选出最重要的候补关键词作为图书关键字。本发明考虑了同一作者著作的主题一致性、内容相关性及读者反馈,关键词正确率高;充分覆盖读者不同角度的书评,关键词多样化;数据来自互联网,书评数量庞大、涵盖面广,方法覆盖面广。
-
公开(公告)号:CN106250830B
公开(公告)日:2019-05-24
申请号:CN201610586830.6
申请日:2016-07-22
Applicant: 浙江大学
Abstract: 本发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理,在此基础上获得图书的文本信息和视觉特征值,同时对图书的版面进行识别,去除无关信息。然后,根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接,并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征,提高了图书结构化的准确率和适用性。
-
公开(公告)号:CN105808768B
公开(公告)日:2019-03-26
申请号:CN201610163737.4
申请日:2016-03-19
Applicant: 浙江大学
Abstract: 本发明公开了一种基于图书的概念‑描述词知识网络的构建方法。基于图书构建概念‑描述词知识网络本质上是一种知识图谱构建技术。本发明首先从数字图书中抽取得到目录项,在此基础上利用分词工具和正则表达式对目录进行预处理。然后训练语言模型将各个词、词相应的特征以及词对应的标注用词嵌入进行表达,进而用词嵌入匹配算法抽取得到目录短语。随后训练分类器将目录短语分类成概念和描述词,通过概念和描述的映射构建得到概念‑描述词知识网络。本发明从图书中构建概念‑描述词知识网络,有效的完成了对图书知识的抽取和分解。
-
公开(公告)号:CN105824904B
公开(公告)日:2018-12-25
申请号:CN201610146357.X
申请日:2016-03-15
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于中医药领域专业词向量的中草药植物图片爬取方法。首先需要选择收集中医药文本数据,本发明采用医学书籍的文本信息以及从百科网站上爬取的中医药相关的词条信息;其次,利用这些文本数据训练Word2Vec模型得到中医药领域专业词向量;然后,利用谷歌、百度等通用搜索引擎提供的基于文本的图像检索功能获取候选图片集和它们所在源网页的文本信息,并利用Doc2Vec模型计算各源网页的特征向量;最后,根据源网页的特征向量与对应中草药词向量的相似度对候选图片集进行重排,选取排在前面的若干图片,然后使用感知哈希算法对图片集进行去重处理,得到最终的图片集。
-
公开(公告)号:CN107908650A
公开(公告)日:2018-04-13
申请号:CN201710945019.7
申请日:2017-10-12
Applicant: 浙江大学
Abstract: 本发明公开了一种基于海量数字图书的知识脉络自动构建方法;将数字图书的元数据信息存储到Lucene索引文件中,如果用户检索主题q,则可获得q相关的图书集合;通过加权的word2vec方法计算目录标题之间的相似度,通过自底向上的凝聚型层次聚类算法对q相关教科书的一级目录进行聚类得到知识单元集合;根据图书中章节之间的偏序关系构建知识单元之间的连接关系,最终构建完整的知识图;从知识图中挖掘出TOP K条重要、有序且冗余小的学习路径,将学习路径构成的知识脉络仿照地铁图的形式进行可视化展示。本发明首次提出了一个基于海量数字图书的摘要提取框架,该框架提取出的知识脉络能够综合考虑信息度、流畅度和覆盖度,能够方便用户快速高效地进行知识学习。
-
公开(公告)号:CN103886047B
公开(公告)日:2017-07-07
申请号:CN201410089697.4
申请日:2014-03-12
Applicant: 浙江大学
Abstract: 本发明公开了一种面向流式数据的分布式在线推荐方法。它是采用分布式计算环境,对用户行为产生的流式数据直接进行处理,把用户对物品点击行为数据按用户编号和物品编号进行分组,把对应分组中的数据发送到相应的工作单元中,并根据用户的推荐反馈生成负样本,再用随机梯度下降算法进行统一的矩阵分解训练,采用协同过滤方法计算与用户最近感兴趣的品相似的物品集合,结合原推荐列表作为候选推荐集合,根据训练结果对候选集中的物品排序得到推荐结果。本发明可以面向流式数据进行分布式在线推荐,实时性强,计算性能高。
-
公开(公告)号:CN106250830A
公开(公告)日:2016-12-21
申请号:CN201610586830.6
申请日:2016-07-22
Applicant: 浙江大学
CPC classification number: G06K9/00463 , G06K9/00469 , G06K9/2054
Abstract: 本发明公开了一种数字图书结构化分析处理方法。本发明首先利用图像处理方法以及OCR工具对图书的扫描图像预处理,在此基础上获得图书的文本信息和视觉特征值,同时对图书的版面进行识别,去除无关信息。然后,根据图书的布局特征、功能性特征和视觉特征对图书进行目录检测、目录解析、段落识别和目录链接,并最终将图书进行结构化表示。本发明较好的运用了图书的布局特征、功能性特征和视觉特征,提高了图书结构化的准确率和适用性。
-
公开(公告)号:CN105956093A
公开(公告)日:2016-09-21
申请号:CN201610285239.7
申请日:2016-04-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种基于多视图锚点图哈希技术的个性化推荐方法,包括如下步骤:1)根据用户在不同视图下的行为数据构建用户数据的多视图锚点图表示;2)利用得到的多视图锚点图与用户的行为数据生成连续空间中的用户哈希编码;3)对连续空间中的哈希编码进行量化,得到用户对应的二进制哈希编码;4)利用得到的用户哈希编码为目标用户搜索相似用户;5)将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品的偏好程度,返回偏好程度最大的若干个物品作为推荐结果。本发明将用户在不同视图下的数据进行了整合,提高了推荐结果的质量。同时利用相似度保留的哈希编码实现了相似用户的快速搜索,提高了推荐结果计算的效率。
-
公开(公告)号:CN105808757A
公开(公告)日:2016-07-27
申请号:CN201610146005.4
申请日:2016-03-15
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/3025 , G06F17/30256
Abstract: 本发明公开了一种基于多特征融合的Bag?of?Words(BOW)模型的中草药植物图像检索方法。首先,对中草药图片尺寸进行归一化处理;其次,对归一化后的中草药图片提取基于稠密采样的SIFT特征和OpponentSIFT特征;然后,采用k?means聚类算法将前一步中提取的特征聚类得到视觉字典,其中,聚类中心即为视觉单词;接着,采用局部线性编码对局部特征用视觉词典中的视觉单词进行表达,得到其对应的编码向量;然后,采用最大值池化方法对中草药植物图片局部特征对应的编码向量进行池化处理,得到图片特征;最后,将图片特征输入训练好的SVM分类器得到相应类别,返回对应类别中的图片给用户。
-
公开(公告)号:CN103177087B
公开(公告)日:2016-05-18
申请号:CN201310074221.9
申请日:2013-03-08
Applicant: 浙江大学
Abstract: 本发明公开了一种基于概率主题模型的相似中草药检索方法。首先通过光学字符识别工具将“中华药典”、“中华本草”中的中草药信息转成数字文本。使用正则表达式方法将中草药的功效、性味、归经等信息提取出来,建立中草药信息库。分别根据中草药的功效、性味、归经属性生成对应的向量空间,并通过概率主题模型对功效的向量空间进行调整。最后根据余弦系数计算中草药间功效、性味、归经属性的相似度,产生中草药相似性数据库。用户输入一味中草药的名称,系统通过查找相应的中草药药对相似性信息库,将该味中草药及其相似中草药以关系图的方式直观的展示出来。本发明可以根据属性相似度检索相关中草药,对于中草药学习,促进中草药信息化意义重大。
-
-
-
-
-
-
-
-
-