-
公开(公告)号:CN115757762A
公开(公告)日:2023-03-07
申请号:CN202211494675.7
申请日:2022-11-25
Applicant: 浙江大学
IPC: G06F16/34 , G06F16/35 , G06N3/0455 , G06N3/0464 , G06N3/0985
Abstract: 本发明公开了一种生成式和抽取式相结合的文本摘要生成方法。本发明包括如下步骤:首先在文本摘要数据上标记出原文中作为摘要的句子;然后在训练时,在生成式预训练语言模型的编码器之后接入句子编码层和分类层,利用摘要句子标记构建分类损失,以提高抽取摘要句子的能力;通过编码器学习文本表征,再通过句子编码层学习句子表征,将编码器输出的文本特征和句子编码层输出的句子特征进行拼接,输入到解码器中生成原文档的摘要。预测时候则不使用句子分类层。与现有技术相比,通过在预训练语言模型的编码器和解码器之间引入句子编码层和分类层,融合了生成式与抽取式文本摘要,利用了作为摘要的句子,控制和指导生成过程,以提高文本摘要质量。
-
公开(公告)号:CN115687595A
公开(公告)日:2023-02-03
申请号:CN202211430964.0
申请日:2022-11-15
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/335 , G06F16/33 , G06F16/36 , G06F40/186 , G06N5/04 , G06N20/00
Abstract: 本发明公开了一种面向常识问答的基于模版提示的对比解释生成方法。本发明步骤如下:1)符号知识获取:基于原始输入识别关键概念,并通过多知识源检索获取相关外部知识,2)对比解释生成:将检索的符号知识,以及构造的提示模版,输入到生成式预训练模型,生成相应的对比解释文本;3)解释增强推理:将得到的对比解释文本作为原始问题的上下文增强常识问答推理。本发明针对知识增强的常识问答问题,首次提出了一种基于模版提示的对比解释生成方法,结合概念中心的外部符号知识以及生成式预训练模型的优势,以对比解释文本作为一种新型知识类型,能够极大地缓解知识增强常识问答问题中的知识分辨性低,下游任务提升幅度小的问题。
-
公开(公告)号:CN111651576B
公开(公告)日:2022-07-08
申请号:CN202010474290.9
申请日:2020-05-29
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/31 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于迁移学习的多轮阅读理解方法。通过多任务学习方法,可以较好地迁移来自单轮阅读理解领域中的知识,有效地提升模型在多轮阅读理解任务上的效果。本发明包括如下步骤:1)获取多个阅读理解任务的训练语料;2)在多任务学习的过程中,从预定义的任务分布中采样一个批次的训练数据,送入共享的编码器和任务特定输出层中;3)通过任务特定的注意力机制捕捉任务对不同层输出的依赖,从而建立更好的任务相关的表征。和现有技术相比,本发明利用了单轮阅读理解任务中蕴含的知识,并且利用任务特定输出层和任务特定的注意力机制较好地建模目标任务的特性,可以有效地提升模型在多轮阅读理解任务的效果。
-
公开(公告)号:CN113408535A
公开(公告)日:2021-09-17
申请号:CN202110571433.2
申请日:2021-05-25
Applicant: 浙江大学
Abstract: 本发明公开了一种基于中文字符级特征和语言模型的中文OCR纠错方法,所述方法包含如下步骤:1)训练一个OCR模型对中文图像进行识别,并伴以数据增强技术获取具有OCR后错误风格的数据;2)引入中文字符笔画结构信息以CBOW的方法进行词向量训练,使联合笔画结构词向量能够把握中文结构和笔画信息;3)以联合笔画结构词向量为基础构建语言模型来生成字符纠错候选集合。与现有的方法相比,本发明有如下益处:1)通过数据增强技术,能找到更多OCR后错误的显著特点,提高模型效果;2)能够解决笔画相同但字符结构不同的识别错误问题;3)能够在上下文信息不足的情况下,提高生成纠错候选集的质量。
-
公开(公告)号:CN111651576A
公开(公告)日:2020-09-11
申请号:CN202010474290.9
申请日:2020-05-29
Applicant: 浙江大学
IPC: G06F16/332 , G06F16/31 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于迁移学习的多轮阅读理解方法。通过多任务学习方法,可以较好地迁移来自单轮阅读理解领域中的知识,有效地提升模型在多轮阅读理解任务上的效果。本发明包括如下步骤:1)获取多个阅读理解任务的训练语料;2)在多任务学习的过程中,从预定义的任务分布中采样一个批次的训练数据,送入共享的编码器和任务特定输出层中;3)通过任务特定的注意力机制捕捉任务对不同层输出的依赖,从而建立更好的任务相关的表征。和现有技术相比,本发明利用了单轮阅读理解任务中蕴含的知识,并且利用任务特定输出层和任务特定的注意力机制较好地建模目标任务的特性,可以有效地提升模型在多轮阅读理解任务的效果。
-
公开(公告)号:CN103886047B
公开(公告)日:2017-07-07
申请号:CN201410089697.4
申请日:2014-03-12
Applicant: 浙江大学
Abstract: 本发明公开了一种面向流式数据的分布式在线推荐方法。它是采用分布式计算环境,对用户行为产生的流式数据直接进行处理,把用户对物品点击行为数据按用户编号和物品编号进行分组,把对应分组中的数据发送到相应的工作单元中,并根据用户的推荐反馈生成负样本,再用随机梯度下降算法进行统一的矩阵分解训练,采用协同过滤方法计算与用户最近感兴趣的品相似的物品集合,结合原推荐列表作为候选推荐集合,根据训练结果对候选集中的物品排序得到推荐结果。本发明可以面向流式数据进行分布式在线推荐,实时性强,计算性能高。
-
公开(公告)号:CN105956093A
公开(公告)日:2016-09-21
申请号:CN201610285239.7
申请日:2016-04-29
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种基于多视图锚点图哈希技术的个性化推荐方法,包括如下步骤:1)根据用户在不同视图下的行为数据构建用户数据的多视图锚点图表示;2)利用得到的多视图锚点图与用户的行为数据生成连续空间中的用户哈希编码;3)对连续空间中的哈希编码进行量化,得到用户对应的二进制哈希编码;4)利用得到的用户哈希编码为目标用户搜索相似用户;5)将相似用户对应的偏好物品集合作为推荐候选列表,计算目标用户对候选物品的偏好程度,返回偏好程度最大的若干个物品作为推荐结果。本发明将用户在不同视图下的数据进行了整合,提高了推荐结果的质量。同时利用相似度保留的哈希编码实现了相似用户的快速搜索,提高了推荐结果计算的效率。
-
公开(公告)号:CN104537116A
公开(公告)日:2015-04-22
申请号:CN201510035855.2
申请日:2015-01-23
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30884
Abstract: 本发明公开了一种基于标签的图书搜索方法。采用标签来描述图书的主题内容,并将标签加入图书搜索系统的索引文件中。用户可以将标签作为搜索关键词从而利用传统的文本搜索技术获得相对广泛的搜索结果,或者利用标签作为搜索限定条件进行搜索结果过滤,从而可以方便用户更快、更准的找到所需图书。此外,本系统还依据标签与搜索语句的相关程度向用户进行搜索意图推荐,并且支持多维度、搜索语句模糊/精确匹配等功能。本发明可以较好的满足图书搜索这一场景,提供了更友好的人机交互方式,大幅提高系统的可用性。
-
公开(公告)号:CN103886048A
公开(公告)日:2014-06-25
申请号:CN201410090123.9
申请日:2014-03-13
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30867 , G06F17/30702
Abstract: 本发明公开了一种基于聚类的增量数字图书推荐方法。它包括以下步骤:(1)从用户的网站访问日志获取用户阅读书籍的信息,然后生成用户表示向量;(2)使用维度数组来选择需要计算的簇集,然后计算用户与簇集之间的余弦相似度形成候选集;(3)从候选集中找出与目标用户相似度最高的簇,然后根据合并结果进行聚类,并增量式地更新簇心、簇直径;(4)使用簇心值作为排序函数将簇内项目进行排序,将排序高的项目作为推荐结果。本发明可以通过从用户的图书访问日志挖掘用户对书籍的喜好信息,然后为用户进行推荐,提高了推荐方法的扩展性和实时性,增强了数字图书资源利用率和用户的阅读体验。
-
公开(公告)号:CN103886047A
公开(公告)日:2014-06-25
申请号:CN201410089697.4
申请日:2014-03-12
Applicant: 浙江大学
CPC classification number: G06F17/30867
Abstract: 本发明公开了一种面向流式数据的分布式在线推荐方法。它是采用分布式计算环境,对用户行为产生的流式数据直接进行处理,把用户对物品点击行为数据按用户编号和物品编号进行分组,把对应分组中的数据发送到相应的工作单元中,并根据用户的推荐反馈生成负样本,再用随机梯度下降算法进行统一的矩阵分解训练,采用协同过滤方法计算与用户最近感兴趣的品相似的物品集合,结合原推荐列表作为候选推荐集合,根据训练结果对候选集中的物品排序得到推荐结果。本发明可以面向流式数据进行分布式在线推荐,实时性强,计算性能高。
-
-
-
-
-
-
-
-
-