-
公开(公告)号:CN104537116B
公开(公告)日:2017-10-31
申请号:CN201510035855.2
申请日:2015-01-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于标签的图书搜索方法。采用标签来描述图书的主题内容,并将标签加入图书搜索系统的索引文件中。用户可以将标签作为搜索关键词从而利用传统的文本搜索技术获得相对广泛的搜索结果,或者利用标签作为搜索限定条件进行搜索结果过滤,从而可以方便用户更快、更准的找到所需图书。此外,本系统还依据标签与搜索语句的相关程度向用户进行搜索意图推荐,并且支持多维度、搜索语句模糊/精确匹配等功能。本发明可以较好的满足图书搜索这一场景,提供了更友好的人机交互方式,大幅提高系统的可用性。
-
公开(公告)号:CN106569998A
公开(公告)日:2017-04-19
申请号:CN201610959519.1
申请日:2016-10-27
Applicant: 浙江大学
CPC classification number: G06F17/278 , G06N3/08
Abstract: 本发明公开了一种基于Bi‑LSTM、CNN和CRF的文本命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络对文本单词字符层面的信息进行编码转换成字符向量;(2)将字符向量与词向量进行组合并作为输入传到双向LSTM神经网络来对每个单词的上下文信息进行建模;(3)在LSTM神经网络的输出端,利用连续的条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明是一个端到端的模型,不需要未标注语料集中除预训练好的词向量之外的数据预处理,因此本发明能在不同的语言和领域的语句标注中有广泛应用。
-
公开(公告)号:CN103473308A
公开(公告)日:2013-12-25
申请号:CN201310410604.9
申请日:2013-09-10
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种基于最大间隔张量学习的高维多媒体数据分类方法。它包括如下步骤:1)建立多媒体数据的训练数据集;2)对训练数据集建模,进行分析,得到分类模型;3)根据用户查询数据集及分类模型,对查询数据集分类。本发明针对多媒体的高维性和结构性,利用张量来表达多媒体数据,并通过最大间隔分类器的方法,对高维的多媒体数据进行分类。在对多媒体数据进行分解分析的同时完成分类,不仅保留了多媒体数据中的结构信息,而且避免了传统的通过拼合的方法产生的高维数据所引发的“维数灾难”,因此比传统的多媒体数据分类方法更加准确,并易于计算。
-
公开(公告)号:CN101916376A
公开(公告)日:2010-12-15
申请号:CN201010220132.7
申请日:2010-07-06
Applicant: 浙江大学
IPC: G06K9/62
Abstract: 本发明公开了一种基于局部样条嵌入的正交半监督子空间图像分类方法。包括如下步骤:1)对图像数据集选取n个样本作为训练集,包括有标注数据和未标注数据,其余作为测试集;2)利用有标注数据构造类间散度矩阵和类内散度矩阵;3)利用整体训练数据特征空间分布,通过局部样条嵌入方式构造拉普拉斯矩阵;4)根据局部样条嵌入正交半监督子空间模型,寻找投影矩阵对原始高维特征向量进行降维;5)采用支持向量机对降维后训练样本建立分类器;6)利用投影矩阵对测试集进行降维,再通过分类器对降维后的测试集进行分类。本发明充分利用了图像样本标注和特征空间分布等信息,能挖掘图像数据之间潜在语义关联,对图像语义进行了较好的分析与表达。
-
公开(公告)号:CN1920817A
公开(公告)日:2007-02-28
申请号:CN200610053388.7
申请日:2006-09-14
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种用于门户网站上,对多种资源仓库统一并行检索的方法。用户在门户网站上面,动态交互地选择想要检索的资源仓库;视图综合器会依据用户的动态选择,确定相应资源仓库的检索结果在浏览器页面中的呈现区域,视图综合器将按照多个资源仓库的检索结束先后,依次更新被检索资源仓库所对应的页面区域,而不会完全刷新整个浏览器页面。该交互方式的优点在于减少用户等待检索结果的时间,充分利用页面空间显示大量检索结果。该方法规定了资源仓库的统一接口,资源仓库既可以是以数据库形式存储的原始数据,也可以是利用索引技术对原始数据处理后得到的索引数据,实现了通过配置文件添加、删除资源仓库,这样设计使得系统的部署更加灵活。
-
公开(公告)号:CN112257441B
公开(公告)日:2024-04-05
申请号:CN202010967301.7
申请日:2020-09-15
Applicant: 浙江大学
IPC: G06F40/295 , G06F16/35 , G06N3/0455 , G06N3/0442 , G06N3/08
Abstract: 本发明公开了一种基于反事实生成的命名实体识别增强方法,所述方法包含如下步骤:1)从已有标注数据中获取本地实体集合,并按照实体类型进行分类;2)针对已有标注数据中的每一个样本,用实体集合中的实体随机替换样本中的任一个实体,替换后的样本为反事实样本;3)利用判别器对反事实样本进行判别,如果是合理的则用于增强原有的标注数据。与现有的方法相比,本发明有如下益处:1)无需额外的标注资源,如相似领域的数据集或者实体字典;2)无需大量的未标注数据,可解决某些领域缺乏数据的难题;3)能够打破输出特征与输出标签之间部分的伪相关,从而提高模型的泛化能力。
-
公开(公告)号:CN113239696B
公开(公告)日:2024-01-05
申请号:CN202110571387.6
申请日:2021-05-25
Applicant: 浙江大学
IPC: G06F40/295 , G06F16/35 , G06F16/36 , G06F40/186 , G06F40/30 , G06N5/04
Abstract: 本发明公开了一种基于树状事件扁平化的文档级别多事件抽取方法。该方法具体如下:1)将滑动窗口切分后的文档片段集合通过训练好的NER模型抽取出所有的论元实体;2)将平均置信度高于阈值的论元实体通过回溯算法生成所有语义合法的事件论元组合,把每个表示事件实例的事件论元组合填充到相应事件类型的句子模板中构造成相应的LPS;3)LPS通过递进式学习的方式构造成LDF,输入到训练好的AAM中预测包含的事件实例的真实性;4)选择分类类别为真且置信度高于阈值的事件实例作为预测的事件实例结果。本发明能够处理文档级别的多事件抽取任务,从较长的文本序列中抽取出多个事件实例,且性能优于现有的基线模型。
-
公开(公告)号:CN115641468A
公开(公告)日:2023-01-24
申请号:CN202211230715.7
申请日:2022-10-09
Applicant: 浙江大学
IPC: G06V10/764 , G06V10/762 , G06V10/82 , G06N3/048 , G06N3/088 , G06N3/094
Abstract: 本发明公开了一种基于域间对比对抗学习的跨域图像分类方法。本发明包括如下步骤:1)在域对抗网络的基础上,使用一个映射网络H将骨干网络提取的特征映射到一个高维隐空间;2)在上述隐空间中使用对比学习损失替换域分类器的分类损失,进行对比学习。和现有技术相比,本发明结合对比学习,减少了传统域不变表征学习方法中的失配现象,使得在有标签源域图像上训练得到的图像分类神经网络模型被有效迁移到无标签目标域,提升了迁移后模型分类目标域图像的效果。
-
公开(公告)号:CN115293142A
公开(公告)日:2022-11-04
申请号:CN202210836783.1
申请日:2022-07-15
Applicant: 浙江大学
IPC: G06F40/242 , G06K9/62 , G06N3/04 , G06N3/08 , G06F16/33 , G06F16/332 , G06F16/36
Abstract: 本发明公开了一种基于词典增强预训练模型的常识问答方法。本发明包括如下步骤:1)词典知识清洗;2)在预训练过程中,采用描述‑实体预测和实体判别两个预训练任务,将实体‑描述以及同义词、反义词送到模型编码层;3)通过传统的拼接式或外跳注意力机制与外挂相结合的手段,捕捉词典增强的预训练模型在常识问答任务下的实体表征,从而建立更强的任务相关的表征。和现有技术相比,本发明利用了专家构建的词典中蕴含的知识,并且利用任务特定输出层和外跳注意力机制,较好地建模目标任务的特性,可以有效地提升模型在知识驱动型常识问答的效果。
-
公开(公告)号:CN113487025A
公开(公告)日:2021-10-08
申请号:CN202110749499.6
申请日:2021-07-02
Applicant: 浙江大学
Abstract: 本发明提供了一种面向神经网络检查点数据的智能压缩存储方法,所述神经网络检查点数据包括权重浮点数数据和优化器浮点数数据;该方法具体为:利用增量压缩方法对神经网络每轮训练后的权重浮点数数据进行压缩并存储;和/或利用索引值映射代替神经网络每轮训练后的部分或全部优化器浮点数数据的前n位后进行存储。其中,索引值的位数小于n。本发明利用深度学习检查点数据的特征并结合模型训练流程,设计了智能压缩方法与系统,对检查点不同类别数据高效压缩,从而有效提高了存储系统的存储量和寿命。
-
-
-
-
-
-
-
-
-