-
公开(公告)号:CN111741236B
公开(公告)日:2021-01-01
申请号:CN202010857184.9
申请日:2020-08-24
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: H04N5/278 , H04N21/488 , H04N21/81 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于共识图表征推理的定位自然图像字幕生成方法和装置。该方法包括如下步骤:S1:以预先提取的视觉场景图及文本场景图作为先验知识,通过结构对抗学习方法从图先验中进行演绎与推理,生成作为共识知识的共识图表征;S2:基于视觉空间图与共识图表征,结合软注意力机制动态选取与上下文环境匹配程度最高的语义信息生成字幕的文本描述;S3:在S2中生成文本描述的同时,根据当前语义环境在视觉空间中实时定位文本中对象单词的空间区域。本发明可利用视觉模态先验与语言模态先验所推理得到的共识表征来维护多模态之间的语义一致性,从而大幅度减少当前自然图像字幕生成模型中存在的对象幻觉问题,并获取更优的字幕生成与对象定位性能。
-
公开(公告)号:CN112348102A
公开(公告)日:2021-02-09
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06K9/62 , G06K9/00 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图中。最后特征图通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN112348102B
公开(公告)日:2024-03-19
申请号:CN202011278817.7
申请日:2020-11-16
Applicant: 浙江大学 , 杭州海康威视数字技术股份有限公司
IPC: G06V20/40 , G06V10/82 , G06V10/80 , G06V10/764 , G06V10/766 , G06F16/783
Abstract: 本发明公开了一种基于查询的自底向上视频定位方法和系统。首先,获取查询内容Query和待定位视频Ref,其次将查询内容Query特征与待定位视频Ref的特征融合到一个全新的特征图#imgabs0#中。最后特征图#imgabs1#通过深度学习方法检测出查询内容Query所对应的真实视频片段GT‑v位于待定位视频Ref中的起始位置和终止位置。本发明方法根据查询内容Query可以准确而又高效的识别真实视频片段GT‑v在待定位视频Ref的起始位置和终止位置。
-
公开(公告)号:CN120071055A
公开(公告)日:2025-05-30
申请号:CN202510546309.9
申请日:2025-04-28
Applicant: 浙江大学
IPC: G06V10/776 , G06V10/74 , G06V10/82 , G06T7/00 , G06T11/00
Abstract: 本发明公开了一种基于多模态大模型的文本到图像生成模型评估方法与系统。本发明包括多层次图像信息提取与图像特征矩阵构建、分层文本提示生成与优化、生成图像批量化生成、交互式图像对比与评分、多维反馈与提示修订多个步骤,通过重复执行这些步骤流程动态调整生成策略,直至满足预设停止条件。最终,根据参考图像与最优生成图像的多维视觉评估结果,全面分析目标生成模型的性能表现。本发明的评估方法通过图像再生成任务,使生成模型能够基于参考图像的内容和风格进行精准生成,克服了现有评估方法在跨模态信息对齐方面的不足,具有较高的应用价值。
-
公开(公告)号:CN114519108B
公开(公告)日:2024-10-11
申请号:CN202210060374.7
申请日:2022-01-19
Applicant: 浙江大学
IPC: G06F16/36 , G06F16/335 , G06F16/38 , G06N20/00
Abstract: 本发明公开了一种推荐架构下的基于对比学习调优的论文作者消歧方法。本发明将论文作者消歧任务抽象为单塔推荐架构下的推荐排序问题。提出基于Wide&Deep推荐架构的排序算法解决基于表示的深度学习模型的语义漂移问题,实现基于多字段多实例注意力机制的深度模型与基于特征工程的线性模型相结合,使模型同时具备较强的泛化能力与记忆能力。此外,注意到真实匹配对之间应存在一定潜在模式的数据特点,针对性提出一种对比学习调优算法,引入对比学习损失,构建对比学习的正负样本,促使模型学习区分真实匹配对的高层次特征。
-
公开(公告)号:CN118115624A
公开(公告)日:2024-05-31
申请号:CN202410536662.4
申请日:2024-04-30
Applicant: 浙江大学
IPC: G06T11/00 , G06F40/295
Abstract: 本发明公开了一种基于稳定扩散模型的图像分层生成系统、方法及装置,包含三个模块:用户输入模块:接受和处理用户输入;粗遮罩提取模块:接受用户输入模块处理后的输入文本生成描述的图像,以及图像中每个需要分层物体的粗遮罩;图像分层重绘模块:修复粗遮罩提取模块处理后的文本描述图像以及粗遮罩生成精细遮罩以及图片的多层分层结果。本发明能够让扩散模型拥有多层生成的能力,解决了扩散模型无法实现多层图片生成的问题,提升了扩散模型在专业艺术、影视等需要严谨图像细节领域的可应用性。
-
公开(公告)号:CN115293959A
公开(公告)日:2022-11-04
申请号:CN202210861710.8
申请日:2022-07-20
Applicant: 浙江大学
IPC: G06T3/00 , G06V10/774 , G06V10/764 , G06T9/00 , G06N3/04 , G06N3/08
Abstract: 本发明公开了一种基于跨媒体解纠缠表示学习的风格化图像描述生成方法。本发明分别从图像和描述文本中使用了两个解纠缠表示学习模块非对齐地学习解纠缠表示来分别学习图像和图像描述中解纠缠的事实信息和风格信息。在推理阶段,模型利用图像描述生成解码器以及一种特别设计的基于胶囊网络的信息聚合方法来充分利用先前学习的跨媒体信息表示,并通过直接控制隐层向量来生成目标风格的图像描述。和现有技术相比,本发明利用了解纠缠表示学习的技术提升了模型的可解释性和可控性。模型的跨媒体解纠缠表示可以带来更好的风格化图像描述生成性能,相对于现有的先进风格化图像描述生成模型,技术可在多个指标上的获得性能提升。
-
公开(公告)号:CN106951554B
公开(公告)日:2021-04-20
申请号:CN201710198955.6
申请日:2017-03-29
Applicant: 浙江大学
IPC: G06F16/953 , G06F16/33 , G06F16/34 , G06F16/35
Abstract: 本发明公开了一种层次化新闻热点及其演化的挖掘与可视化方法。包括如下步骤:1).利用概率主题建模技术挖掘由抽象到具体的具有层次化结构的新闻热点。2).提出全新的“Nested‑circle”可视化布局对层次化的新闻热点进行可视化。3).利用相对熵方法挖掘相邻时间片同一粒度的层次化新闻热点的关联性,即新闻热点在时序上的演化行为。4).采用动态可视化技术呈现新闻热点在时序上的演化行为。5).结合上述层次化新闻热点及其演化的挖掘与可视化技术,集成了“层次化新闻热点及其演化的分析系统”,方便读者分析层次化新闻热点及其演化。
-
公开(公告)号:CN111209738B
公开(公告)日:2021-03-26
申请号:CN201911417834.1
申请日:2019-12-31
Applicant: 浙江大学
IPC: G06F40/216 , G06F40/289 , G06F40/295 , G06N3/04 , G06N3/08 , G06K9/62
Abstract: 本发明公开了一种联合文本分类的多任务命名实体识别方法。该方法包括如下步骤:(1)利用卷积神经网络构造文本分类器,度量文本的相似度;(2)选取合适的阈值,对于辅助任务的数据集,根据文本分类结果与阈值的比较来决定其是否参与共享层参数的更新;(3)将文本的字符向量与预训练好的词向量级联作为输入特征向量;(4)在共享层,利用双向LSTM对句子中每个单词的输入特征向量进行建模,学习各任务的公共特征;(5)在任务层依次训练每个任务,将共享层的输出传入主任务私有层或辅助任务私有层中的双向LSTM神经网络,再利用线性链条件随机场来对整个句子进行标签解码,并标注句子中的实体。本发明在多个生物医学领域的数据集上进行实验,可以有效提升语料难获取、标注成本高的特定领域的命名实体识别效果。
-
公开(公告)号:CN107918652B
公开(公告)日:2020-10-02
申请号:CN201711129690.0
申请日:2017-11-15
Applicant: 浙江大学
IPC: G06F16/435 , G06F16/9535
Abstract: 本发明公开了一种利用多模态网络学习进行基于社交关系的电影推荐的方法。主要包括如下步骤:1)针对于一组视频、用户,构建含有其相关关系的SMR网络。并且针对于形成的SMR网络构建采样路径,并针对于采样路径中的电影及用户节点形成电影的综合表达与用户的映射表达,随后针对于预定义的损失函数进行更新,求得最终的用户表达与电影综合表达。2)对于得到的用户表达及电影的综合表达,产生对于用户的电影推荐。相比于一般的电影推荐解决方案,本发明提取了电影的多模态信息并且针对于用户形成了最终的有效用户表达,则能够更准确地反映用户与电影的特性,并产生更加符合要求的电影推荐。本发明在电影推荐问题中所取得的效果相比于传统的方法更好。
-
-
-
-
-
-
-
-
-