基于深度聚类的标签纠正众包结果汇聚方法及系统

    公开(公告)号:CN120030368A

    公开(公告)日:2025-05-23

    申请号:CN202510147868.2

    申请日:2025-02-11

    Abstract: 本发明公开了一种基于深度聚类的标签纠正众包结果汇聚方法及系统。本发明首先通过预训练模型提取任务特征,作为模型的输入数据;其次引入工人损失项,结合变分深度嵌入模型中的重构损失和KL散度,定义本模型的综合损失函数,并通过梯度下降法对模型进行训练;然后在训练过程中,对隐变量利用高斯混合模型聚类,得到聚类簇,同时结合工人对任务的标注信息,为每个聚类簇映射具体类标签;最后计算每个任务的轮廓系数,识别聚类准确度较低的任务,通过工人标签重新调整和纠正,进一步提高聚类结果的精度。本发明通过将特征相似的任务聚类以及利用工人标签纠正聚类质量较低的任务,有效减少标签噪声对真值推断的干扰,提高结果汇聚模型的性能。

    一种基于特征的众包标注结果汇聚方法及装置

    公开(公告)号:CN114358534A

    公开(公告)日:2022-04-15

    申请号:CN202111570890.6

    申请日:2021-12-21

    Abstract: 本发明公开了一种基于特征的众包标注结果汇聚方法及装置,该方法首先从外部知识库中得到任务类别和特征之间存在的某种映射关系,然后本发明设计了一种结合工人能力和该映射关系的模型,最后将从众包平台收集到的带有特征和类别标注的观测数据输入到模型当中,极大化观测数据关于模型参数的对数似然函数,应用迭代算法求出模型参数工人能力和隐变量任务的真实类别与真实特征,完成众包标注结果汇聚。本发明为众包领域中通过众包结果汇聚推断任务的真实类别提供了一种新颖的方法,提高了分类任务的准确率。

    一种分析众包中恶意行为有效性的方法

    公开(公告)号:CN116760582A

    公开(公告)日:2023-09-15

    申请号:CN202310647820.9

    申请日:2023-06-02

    Abstract: 本发明公开了一种分析众包中恶意行为有效性的方法,该方法首先在众包平台中收集疑似受到恶意行为的数据,并且对恶意行为做详细的恶意行为分类,然后根据本发明提出的方法针对众包中不同的恶意行为对其有效性进行分析。本发明解决了众包中恶意行为有效性判断的问题,并且对于恶意行为的影响做了进一步分析,使得众包中的恶意行为研究变得更加系统化和全面化。

    一种基于众包的数据智能处理方法及装置

    公开(公告)号:CN113344387A

    公开(公告)日:2021-09-03

    申请号:CN202110637661.5

    申请日:2021-06-08

    Abstract: 本发明公开了一种基于众包的数据智能处理方法及装置,来对众包数据集进行整合,并可以在此基础上对有缺失项的众包数据集进行预测。该方法提取了数据集中众包任务的特征,通过工人标注任务的一致性程度来刻画工人特征,从而构成完整的训练数据集。采用竞争神经网络的方式对训练数据集进行无监督聚类。竞争神经网络通过自动寻找样本中的内在规律和本质属性,自组织,自适应地改变网络参数,通过激活获胜神经元的方法来输出唯一神经元进行聚类。训练好的竞争神经网络模型可以对未标注的任务或者有缺失项的数据进行补全预测。

    一种面向众包系统的仿真测试用例生成方法及装置

    公开(公告)号:CN113342655A

    公开(公告)日:2021-09-03

    申请号:CN202110636475.X

    申请日:2021-06-08

    Abstract: 本发明公开了一种面向众包系统的仿真测试用例生成方法及装置,该方法首先将众包平台获得样本输入到VAE的编码器中学习对真实样本标注的工人能力和任务难度的均值和方差,即得到对应的工人能力和任务难度的正态分布,同时生成所有参与标注的工人能力和任务难度的混合高斯分布;然后运用重构化技巧得到VAE的隐变量,将隐变量输入到VAE的解码器中,使用梯度下降训练解码器;最后将混合高斯分布随机生成的工人能力和任务难度输入到训练好的解码器中,生成与真实样本独立同分布的大量众包测试用例。本发明结合神经网络解决了由于成本而导致众包测试用例少及覆盖面窄,导致难于全面评估结果汇聚方法的问题,使众包结果汇聚方法可以得到全面有效评估。

    基于条件计算的个性化联邦学习降维方法及系统

    公开(公告)号:CN120030328A

    公开(公告)日:2025-05-23

    申请号:CN202510148222.6

    申请日:2025-02-11

    Abstract: 本发明公开了一种基于条件计算的个性化联邦学习降维方法及系统。本发明首先选择一种具有足够灵活性和表达能力的降维模型,所述降维模型能够在每个客户端上学习和捕捉高维患者数据的个性化特征;其次通过所述降维模型对原始患者数据特征进行特征提取,将高维数据映射到低维空间中;然后将低维数据特征进一步转换为全局特征和个性化特征;最后利用全局特征和个性化特征对模型进行训练,通过客户端之间的协同学习和服务器端的聚合操作,优化模型性能,直到模型收敛为止。本发明以自编码器模型为基础降维模型,通过将原始患者数据特征转换为全局特征和个性化特征,客户端协同学习全局特征和个性化特征从而达到个性的目的。

    众包翻译任务切割方法及装置

    公开(公告)号:CN114331062B

    公开(公告)日:2024-11-26

    申请号:CN202111547723.X

    申请日:2021-12-16

    Abstract: 本发明公开了一种众包翻译任务切割方法及装置,该方法首先接收用户发布的众包翻译任务,计算众包翻译任务中各个句子间的语义相似度,结合语义相似度和句子在众包翻译任务中的间隔距离,刻画句子间的关联关系,然后通过关联关系构建众包翻译任务句子间关系图,最后通过不断寻找图的最小割将众包翻译任务切割为多个句子间关联关系较强的子任务。本发明考虑了众包翻译任务句子间的关联关系,通过寻找图的最小割,以失去较少关联信息的情况下对众包翻译任务进行切割。在众包平台上,切割后的众包翻译任务能得到更快的处理且整体的翻译质量不会受到过大影响。

    一种基于最小等待时间的最短路径拼车调度方法

    公开(公告)号:CN116777152A

    公开(公告)日:2023-09-19

    申请号:CN202310695520.8

    申请日:2023-06-13

    Abstract: 本发明公开了一种基于最小等待时间的最短路径拼车调度方法。本发明首先根据历史订单记录预测未来多个时间段内各个地区的订单数量,再将当前时间段的各个地区的未分配订单、未匹配司机和已匹配的司机列出来做为三个数据集。根据排队理论分析得出的空闲时间间隔作为未来某时刻某地区的出租车需求量。将空闲时间间隔作为相邻地区未分配订单和未匹配司机的评价指标来匹配,最后,将已匹配司机中目的地有较高的空闲时间间隔的与未分配订单中有较低的空闲时间间隔的进行匹配,对司机原来目的地进行修正。通过本发明所述的方法,司机可以接到更多的乘客,在路上的空车时间更加少,同时司机的工资还会随着空车时间减少而增加,平台的总体收益也会变多。

    一种基于量化众包的真值预测方法

    公开(公告)号:CN116629573A

    公开(公告)日:2023-08-22

    申请号:CN202310673082.5

    申请日:2023-06-08

    Abstract: 本发明公开了一种基于量化众包的真值预测方法,该方法首先分析工人标注的结果是否为数值数据,如不是则利用语言表征模型将标注数据进行量化。再通过工人的社交影响力刻画工人的社交网络特征,利用工人的能力、工人的苛刻度和工人的偏好刻画工人特征。最终将构建出数据集传入模型中并得到汇聚结果。本发明充分考虑了工人社交网络对于结果汇聚的影响,同时又将工人特征考虑在模型内,能获得更加准确的汇聚结果。

Patent Agency Ranking