一种基于离散多视图哈希的协同过滤推荐方法

    公开(公告)号:CN107122411B

    公开(公告)日:2020-08-14

    申请号:CN201710199300.0

    申请日:2017-03-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于离散多视图哈希的协同过滤推荐方法,包括如下步骤:1)根据不同视图下的数据构建数据的多视图锚点图表示;2)结合协同过滤和锚点图,得到学习模型;3)对得到的学习模型进行求解,得到用户与物品对应的二进制哈希编码;4)利用得到的哈希编码进行最邻近搜索,计算特定用户对候选物品的偏好程度,返回偏好程度最大的若干个物品作为推荐结果。本发明将不同视图下的数据进行了整合,在求解的时候始终保持编码的离散特性,提高了推荐结果的质量。同时利用哈希编码实现了相似用户的快速搜索,提高了推荐结果计算的效率。

    基于多特征融合的BOW模型的中草药植物图片检索方法

    公开(公告)号:CN105808757B

    公开(公告)日:2018-12-25

    申请号:CN201610146005.4

    申请日:2016-03-15

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于多特征融合的Bag‑of‑Words(BOW)模型的中草药植物图像检索方法。首先,对中草药图片尺寸进行归一化处理;其次,对归一化后的中草药图片提取基于稠密采样的SIFT特征和OpponentSIFT特征;然后,采用k‑means聚类算法将前一步中提取的特征聚类得到视觉字典,其中,聚类中心即为视觉单词;接着,采用局部线性编码对局部特征用视觉词典中的视觉单词进行表达,得到其对应的编码向量;然后,采用最大值池化方法对中草药植物图片局部特征对应的编码向量进行池化处理,得到图片特征;最后,将图片特征输入训练好的SVM分类器得到相应类别,返回对应类别中的图片给用户。

    引入概念标签的神经协同过滤概念描述词推荐算法

    公开(公告)号:CN108491469A

    公开(公告)日:2018-09-04

    申请号:CN201810185963.1

    申请日:2018-03-07

    Applicant: 浙江大学

    Abstract: 本发明公开了一种引入概念标签的神经协同过滤概念描述词推荐算法。模型引入概念的标签信息知识库,提高概念的语义向量表达能力。同时结合深度神经网络和经典矩阵分解的优点,通过广义矩阵分解和多层感知机的融合模型拟合概念和描述词之间的潜在结构,得到面向概念的描述词列表。该算法改善了图模型计算复杂且不能保存的缺点,提高了概念、描述词的隐语义表达能力。本发明完成面向概念的描述词推荐技术研究及应用。针对指定概念,按概念的多侧面描述来组织图书内容,例如对于“二极管”,可以从“特性”、“工作原理”、“作用”等方面来进行组织,构建概念多侧面描述类专题,为读者构建全面的知识专题。

    一种基于谱聚类和众包技术的图书标签推荐方法

    公开(公告)号:CN104915388B

    公开(公告)日:2018-03-16

    申请号:CN201510270676.7

    申请日:2015-05-26

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于谱聚类和众包技术的图书标签推荐方法,该方法应用于数字图书馆系统,通过使用用户的检索点击日志构建Laplacian矩阵,并利用谱聚类对检索词进行聚类,之后通过使用众包技术,对聚类的结果进行持续的优化,最后将优化的结果应用于推荐系统中。本发明将用户的检索词作为标签,通过谱聚类和众包技术的结合提升检索词聚类的准确度,从而提高系统在标签推荐方面的准确性。

    一种基于LDA和VSM的中草药相似文献的推荐方法

    公开(公告)号:CN103823848B

    公开(公告)日:2017-11-14

    申请号:CN201410046769.7

    申请日:2014-02-11

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于LDA和VSM的中草药相似文献的推荐方法,基于中草药专业词典采用IKAnalyzer对文献的题目和摘要信息进行切词,构建出向量空间,再对向量空间进行降维,构建出语义词典,对词典中的每一个词项按序编号,通过每篇文档基于该语义词典进行矢量化,构建出每篇文档的词向量,利用LDA的Gibbs采样算法进行训练,得到每篇文档在主题上的概率分布,再利用KL散度计算出每两篇文档之间的相似度值,同时对每篇文档的词向量基于词频计算余弦相似度,最后对两种相似度进行联合加权,之后进行相似度排序,然后推荐出来。本发明可以将中草药文献中在内容和主题上均相似的文献推荐给用户,推荐的结果更加贴近用户需求。

    一种基于多视图哈希的图书推荐方法

    公开(公告)号:CN104679835B

    公开(公告)日:2017-10-31

    申请号:CN201510065111.5

    申请日:2015-02-09

    Applicant: 浙江大学

    Inventor: 张寅 魏宝刚 洪鑫

    Abstract: 本发明公开了一种基于多视图哈希的图书推荐方法,包括如下步骤:1)从日志收集系统中筛选出用户在两个视图上的行为数据,包括图书点击数据和搜索数据;2)构建用户在点击和搜索视图上的用户特征向量;3)利用两个视图的行为数据,通过多视图哈希算法得到用户哈希编码、哈希函数以及两个视图的权重;4)利用得到的用户哈希编码为目标用户寻找相似用户;5)得到相似用户点击的图书集合,作为推荐候选列表,计算目标用户对图书的偏好程度,返回目标用户偏好程度最大的前N本图书。本发明可以将用户在两个视图的行为数据整合到哈希编码中,提高图书推荐准确性;另一方面,哈希编码的汉明距离计算速度很快,可以提高图书推荐的效率。

    一种基于聚类的增量数字图书推荐方法

    公开(公告)号:CN103886048B

    公开(公告)日:2017-04-26

    申请号:CN201410090123.9

    申请日:2014-03-13

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于聚类的增量数字图书推荐方法。它包括以下步骤:(1)从用户的网站访问日志获取用户阅读书籍的信息,然后生成用户表示向量;(2)使用维度数组来选择需要计算的簇集,然后计算用户与簇集之间的余弦相似度形成候选集;(3)从候选集中找出与目标用户相似度最高的簇,然后根据合并结果进行聚类,并增量式地更新簇心、簇直径;(4)使用簇心值作为排序函数将簇内项目进行排序,将排序高的项目作为推荐结果。本发明可以通过从用户的图书访问日志挖掘用户对书籍的喜好信息,然后为用户进行推荐,提高了推荐方法的扩展性和实时性,增强了数字图书资源利用率和用户的阅读体验。

    一种基于图书目录的知识图谱的构建方法

    公开(公告)号:CN103729402B

    公开(公告)日:2017-01-18

    申请号:CN201310601668.7

    申请日:2013-11-22

    Applicant: 浙江大学

    Abstract: 本发明公开了一种基于图书目录的知识图谱的构建方法。它抽取数字化图书中的目录页,区分目录中条目长度,将长条目用自然语言处理工具进行词性标注得到词性数组,利用连词、标点和词性规则提取出候选节点,然后与短条目一起,去百度百科、互动百科中鉴定并利用目录结构形成上下级关系和并列关系,作为知识图谱的骨架,同时区分出强弱并列关系,分别作为增量补充进上下级关系,并根据以后缀为基础的挖掘噪声数据的算法,从未通过百科鉴定的条目中选取出节点补充进知识图谱,最后,对补充完的知识图谱中的关系,算其权重再进行排序,从而筛选掉噪声。本发明比目前已有的知识图谱有更丰富的节点,更好的可扩展性,及更高的准确率。

    一种基于图书目录的专题自动生成方法

    公开(公告)号:CN105893485A

    公开(公告)日:2016-08-24

    申请号:CN201610188009.9

    申请日:2016-03-29

    Applicant: 浙江大学

    CPC classification number: G06F17/30722 G06K9/6215

    Abstract: 本发明公开了一种基于图书目录的专题自动生成方法。对每一本书,把目录中每个章节当作一个词语,提取出词语的特征,训练出一个分类器识别出书目录中的实体,对于书目录中每一对属于实体的上下级章节词抽取出符合上下位关系的章节对。根据上下位关系构建每个词的概念层次结构,对所有图书中相同的或相似的概念层次进行融合。对概念层次中的每一个概念词语,检索其在网页中和图书中的内容作为该词语的描述内容。最后,把概念层次及概念词内容组织成专题形式。本发明利用图书目录的结构化信息和机器学习相关算法实现了知识的抽取和重组,在编写专题时可以借鉴,可以大大减少相关工作的人力成本,具有较高的实用性。

    一种自然图像中任意方向文本行检测方法

    公开(公告)号:CN103136523A

    公开(公告)日:2013-06-05

    申请号:CN201210506072.4

    申请日:2012-11-29

    Applicant: 浙江大学

    Abstract: 本发明公开了一种自然图像中任意方向文本行检测方法。它包括以下步骤:(1)使用带约束的最大稳定极端区域检测方法来检测候选的文本区域,然后结合区域大小,绝对距离,相对距离,上下文信息定义区域间的几何相似度,并与颜色相似度结合得到区域对间的合成相似度;(2)采用基于相似度的候选文本行识别方法,找到三个区域作为候选文本行的种子区域,扩展到该行的所有区域;(3)采用基于形态学骨架特征的过滤器去除非文本行,过滤器使用一个稀疏分类器进行过滤,而分类器所需的特征向量取自候选文本行上所有区域的形态学骨架特征。本发明能检测自然图像中任意方向的文本,另外,由于使用区域内在特征构造分类器,因此能达到更好的识别准确率。

Patent Agency Ranking