-
公开(公告)号:CN118193671A
公开(公告)日:2024-06-14
申请号:CN202211607316.8
申请日:2022-12-14
Applicant: 微软技术许可有限责任公司
IPC: G06F16/33 , G06F16/36 , G06F18/214
Abstract: 本公开提出了用于多语言稠密检索的词典增强型自监督训练的方法、装置和计算机可读介质。可以利用源语言的训练数据集合,初步训练稠密检索器。可以通过词典增强型检索模块,生成目标语言的第一训练数据集合,所述词典增强型检索模块包括稀疏检索器和所述稠密检索器。可以至少利用所述目标语言的第一训练数据集合,训练所述稠密检索器。
-
公开(公告)号:CN116089839A
公开(公告)日:2023-05-09
申请号:CN202111269134.X
申请日:2021-10-29
Applicant: 微软技术许可有限责任公司
IPC: G06F18/22 , G06F18/23 , G06F18/214
Abstract: 本公开提供了用于确定目标实体的代表性事实的方法和装置。可以生成在与所述目标实体相关联的多个事实中的任意两个事实之间的相似度分数。可以利用所述多个事实中的事实之间的相似度分数来构建图,所述图中的每个节点对应于所述多个事实中的一个事实。可以通过提取所述图中的多个连通子图来获得多个事实聚类。可以从所述多个事实聚类中选择预定数量的代表性事实。
-
公开(公告)号:CN115599904A
公开(公告)日:2023-01-13
申请号:CN202110771263.2
申请日:2021-07-08
Applicant: 微软技术许可有限责任公司(US)
IPC: G06F16/335 , G06F16/9535 , G06F40/205
Abstract: 本公开提出了用于根据查询的问题生成的方法、装置和计算机程序产品。可以获得与搜索引擎相关联的搜索日志。可以从所述搜索日志中提取多个搜索查询和与所述多个搜索查询相对应的多个搜索结果集合。可以通过所述多个搜索查询和所述多个搜索结果集合来获得至少用于训练问题生成模型的训练数据集合,所述训练数据集合中的每个样本包括搜索查询和搜索结果的标题,所述标题是与所述搜索查询相对应的问题。
-
公开(公告)号:CN115114901A
公开(公告)日:2022-09-27
申请号:CN202110302025.7
申请日:2021-03-22
Applicant: 微软技术许可有限责任公司
IPC: G06F40/211 , G06F40/30 , G06F40/58 , G06N3/04 , G06N3/08
Abstract: 本公开提出了用于跨语言文本的表示学习的方法和装置。可以获得源语言文本和目标语言文本。可以生成所述源语言文本和所述目标语言文本的初始联合表示。可以识别所述源语言文本和所述目标语言文本中的多个词之间的关系。可以基于所述初始联合表示和所述关系来生成所述源语言文本和所述目标语言文本的联合表示。可以将所述联合表示至少映射为与所述目标语言文本相对应的目标语言表示。
-
公开(公告)号:CN113822434A
公开(公告)日:2021-12-21
申请号:CN202010561319.7
申请日:2020-06-18
Applicant: 微软技术许可有限责任公司
Abstract: 本公开提供了用于基于知识蒸馏来获得目标模型的方法和装置。可以获得数据集合和一组候选参考模型。可以针对所述数据集合中的每个训练样本,确定从所述一组候选参考模型中选择出的一组选定参考模型。可以获取所述一组选定参考模型针对所述训练样本输出的一组目标概率分布。可以利用所述一组目标概率分布来训练所述目标模型。
-
公开(公告)号:CN113139119A
公开(公告)日:2021-07-20
申请号:CN202010064971.8
申请日:2020-01-20
Applicant: 微软技术许可有限责任公司
IPC: G06F16/9535 , G06F16/332
Abstract: 本公开涉及用于问题回答(QA)的对仗学习,并且提出了用于提供对仗训练数据的方法和装置。可以从训练数据集中获得一个正例,所述正例包括被标记为相关的第一文本和第二文本。可以从搜索日志中提取对仗信息。可以至少基于所述对仗信息来修改所述第一文本。可以将经修改的第一文本和所述第二文本组合成与所述正例对仗的反例,所述经修改的第一文本和所述第二文本在所述反例中被标记为不相关。
-
公开(公告)号:CN113127614A
公开(公告)日:2021-07-16
申请号:CN202010046175.1
申请日:2020-01-16
Applicant: 微软技术许可有限责任公司
IPC: G06F16/332 , G06F16/335 , G06F16/9532 , G06F16/9535
Abstract: 本公开提供了用于基于隐式相关性反馈来提供QA训练数据以及训练QA模型的方法和装置。可以从搜索日志中获得问题‑文段对以及对应的用户行为。可以从所述用户行为中提取行为特征。可以通过隐式相关性反馈模型,基于所述行为特征来确定所述问题与所述文段之间的相关性分数。可以基于所述相关性分数,向所述问题‑文段对添加相关性标记。可以利用所获得的自动标记的QA训练数据来对QA模型进行预训练,并且利用人为标记的QA训练数据来对经预训练的QA模型进行精调。
-
-
-
-
-
-