-
公开(公告)号:CN107590138B
公开(公告)日:2020-01-31
申请号:CN201710711118.9
申请日:2017-08-18
Applicant: 浙江大学
IPC: G06F40/58 , G06F40/216 , G06N3/04
Abstract: 本发明公开了一种基于词性注意力机制的神经机器翻译方法,首先对源语言进行词性标注,然后对于编码器和解码器的输入,采用词性和词两部分向量级联构成;对于注意力机制,根据词性,在生成每个目标句子中的词时,只根据源句子中与该目标句子中的词具有相同词性的词,以及这些词周围一定数量的词。本发明引入了语义作为先验知识,将词性与词共同作为编码器与解码器的输入,从而增加了额外信息,词典外的词也仍然保留了词性信息。同时创新地提出了基于词性的注意力机制,提出了具有相同词性的词具有更大的对齐的概率的理论,与典型的神经机器翻译模型相比,拥有更好的针对性,对于机器翻译具有重要意义。
-
公开(公告)号:CN104572888B
公开(公告)日:2018-05-29
申请号:CN201410814851.X
申请日:2014-12-23
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种时间序列关联的信息检索方法,首先按照时间顺序统计文本数据库的词频分布,为各词汇构建词频时间序列;然后基于相似性度量方法,计算各词汇与时间序列的相关度。对于每个文本文件,基于各词汇相关度计算文本主题与查询时间序列的相关度,实现文本筛选及相关文本主题信息的查询,最终可为时间序列的波动模式提供合理的解释。本发明可实现时间序列与文本数据库的交互查询,从文本数据的角度分析和挖掘时间序列的波动模式;在大数据时代可发挥重要作用,如在金融领域的电子化交易市场中,根据股票价格的显著性波动模式,查询与其相关的新闻、政策或法令信息,帮助投资者执行准确的舆情分析,以深入挖掘市场价格的影响因素。
-
公开(公告)号:CN107590138A
公开(公告)日:2018-01-16
申请号:CN201710711118.9
申请日:2017-08-18
Applicant: 浙江大学
Abstract: 本发明公开了一种基于词性注意力机制的神经机器翻译方法,首先对源语言进行词性标注,然后对于编码器和解码器的输入,采用词性和词两部分向量级联构成;对于注意力机制,根据词性,在生成每个目标句子中的词时,只根据源句子中与该目标句子中的词具有相同词性的词,以及这些词周围一定数量的词。本发明引入了语义作为先验知识,将词性与词共同作为编码器与解码器的输入,从而增加了额外信息,词典外的词也仍然保留了词性信息。同时创新地提出了基于词性的注意力机制,提出了具有相同词性的词具有更大的对齐的概率的理论,与典型的神经机器翻译模型相比,拥有更好的针对性,对于机器翻译具有重要意义。
-
公开(公告)号:CN104573003B
公开(公告)日:2017-11-10
申请号:CN201510008836.0
申请日:2015-01-08
Applicant: 浙江大学
Abstract: 本发明公开了一种基于新闻主题信息检索的金融时间序列预测方法。首先对原始新闻数据提取词汇组合特征,并以新闻数据对金融时间序列的实时影响作为标记,训练支持向量机分类器作为预测模型;通过构建词频时间序列,有效度量词汇特征与时间序列的相关度,继而实现新闻主题与时间序列的相关度计算,由此查询与金融时间序列相关的新闻主题;通过对查询出的新闻数据提取词汇组合特征并输入预测模型,得到最终预测结果。本发明可有效预测新闻数据对金融时间序列的影响,帮助人们理解和把握两类数据之间的信息传递;在金融交易市场中,为投资者做舆情分析和投资决策提供了准确的指导。
-
公开(公告)号:CN104850740A
公开(公告)日:2015-08-19
申请号:CN201510226281.7
申请日:2015-05-06
Applicant: 浙江大学
IPC: G06F19/00
Abstract: 本发明公开了一种基于动态时间弯曲的数据流模式匹配方法。首先,通过编码识别数据流转折模式,将数据流分割为包含完整波动趋势的子段;然后,利用第一类切比雪夫多项式分解子段,提取切比雪夫系数作为子段特征;最后,在数据流上基于局部模式匹配进行增量式的动态规划计算,实现快速的数据流模式匹配。本发明在匹配精度和计算效率方面都以较大的程度优于现有的方法,在人们的日常活动和工业生产中可发挥重要作用,如在金融交易、交通管理、气象观测、工业流程监控、医疗诊断等应用中,对大规模采样数据或高速动态数据流进行异常检测、风险监控、自动应答等。
-
公开(公告)号:CN104462217A
公开(公告)日:2015-03-25
申请号:CN201410626154.1
申请日:2014-11-09
Applicant: 浙江大学
IPC: G06F17/30
CPC classification number: G06F17/30536
Abstract: 本发明公开了一种基于分段统计近似表示的时间序列相似性度量方法,包括特征提取和动态模式匹配步骤。首先对时间序列切分子序列,依次提取每条子序列的多种统计特征,构造局部模式特征向量;然后利用加权欧氏距离计算局部模式特征向量之间的距离,实现局部模式匹配,并以此作为动态规划算法的子程序,实现全局模式匹配。本发明在度量精度和计算效率方面都以较大的程度优于其他度量方法,在人们的日常活动和工业生产中可发挥重要作用,如在金融交易、交通监管、空气质量和温度监测、工业流程监控、医疗诊断等应用中,对大规模采样数据或高速动态数据流进行相似性查询、分类、聚类、预测、异常检测、在线模式识别等处理。
-
公开(公告)号:CN102779186B
公开(公告)日:2014-12-24
申请号:CN201210226821.8
申请日:2012-06-29
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种非结构化数据管理的全过程建模方法,包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤,将模型的内容作为元数据进行存储,并将其映射到具体的数据引擎进行操作;本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据,以满足用户对非结构化数据存储、关联和检索等管理需求。
-
公开(公告)号:CN102779186A
公开(公告)日:2012-11-14
申请号:CN201210226821.8
申请日:2012-06-29
Applicant: 浙江大学
IPC: G06F17/30
Abstract: 本发明公开了一种非结构化数据管理的全过程建模方法,包括建立Repository存储模型、建立Analysis分析模型、建立Index索引模型、建立Search搜索模型和建立Environment环境模型五个步骤,将模型的内容作为元数据进行存储,并将其映射到具体的数据引擎进行操作;本发明的方法可以用来管理包含文本、音频、视频、图像等非结构化数据,以满足用户对非结构化数据存储、关联和检索等管理需求。
-
公开(公告)号:CN117892031A
公开(公告)日:2024-04-16
申请号:CN202410102931.6
申请日:2024-01-24
Applicant: 上海浙江大学高等研究院
IPC: G06F16/958 , G06N5/04
Abstract: 本发明公开了一种基于代码片段自动生成可重用API的方法及系统,具体包括:首先获取待处理的网页数据,并提取网页数据包含的信息,包括问题标题、与问题标题对应的若干个问答帖以及每个问答帖对应的代码片段;构建大语言模型的提示词,上述提示词包含角色指定提示词、思维链推理提示词以及少样本上下文学习提示词;将构建好的提示词以及每个代码片段一起输入到大语言模型中,输出一个带有文本描述的API方法;利用正则表达式将带有文本描述的API方法进行数据清洗,将带有文本描述的API方法中文本描述进行去除,得到每个代码片段对应的API方法。与现有技术相比,本发明提出的方法可以生成更准确的API。
-
公开(公告)号:CN117667937A
公开(公告)日:2024-03-08
申请号:CN202311668206.7
申请日:2023-12-06
Applicant: 浙江大学
IPC: G06F16/22 , G06F16/2453 , G06F3/06
Abstract: 本发明公开了一种基于对象存储的LSM树架构的存储引擎优化方法,将LSM树中的n层数据划分为两部分,第一部分的数据存放在传统的高速块存储上,第二部分的数据存放在对象存储上;对于存放在对象存储上的数据,优化查询第n层数据的点查路径;对于存放在对象存储上的数据,优化查询第n层数据的范围查路径;对于存放在对象存储上的数据,优化Ln‑1和Ln之间的Compaction操作。通过文件管理优化、读路径优化、Compaction调度策略优化等多种手段,实现在使用对象存储,成本大幅下降的同时性能不下降太多的效果。
-
-
-
-
-
-
-
-
-