-
公开(公告)号:CN118760579A
公开(公告)日:2024-10-11
申请号:CN202410651012.4
申请日:2024-05-18
Applicant: 南京大学
IPC: G06F11/36 , G06F18/23213 , G06F18/25 , G06F18/22 , G06F40/16
Abstract: 本发明涉及一种结合文本和截图信息的移动众包测试报告聚类、排名与概要方法。该方法首先使用SBERT和金字塔空间匹配算法分别获得文本和截图的向量化表示,然后通过混合策略得到基于文本和截图的综合向量表示。在聚类阶段,使用最远点采样算法选择核心报告,并以这些报告为聚类中心,通过k‑means算法对报告进行聚类。在排名及概要/总结阶段,首先利用Pagerank算法获取每个聚类中报告的排名;在概要阶段以核心报告的信息为主,其他报告的文本和截图信息为辅,使用杰卡德距离衡量报告中句子的差异性,根据压缩比k逐步提取信息以补充核心报告,并为每个聚类生成一份信息丰富的概要报告。本发明目的在于解决目前存在的众包测试平台审查人员审查测试报告的难题,进而帮助软件研发人员提高软件测试效率,保障软件质量。
-
公开(公告)号:CN118885377A
公开(公告)日:2024-11-01
申请号:CN202410649782.5
申请日:2024-05-18
Applicant: 南京大学
IPC: G06F11/36 , G06F18/231 , G06V30/41 , G06V10/82 , G06F40/16
Abstract: 本发明涉及一种基于大语言模型的移动众包测试报告聚合框架。针对移动众包测试报告中文本简短且信息不足、未充分利用截图信息,以及重复报告聚合效率低下的问题,提出了基于大型语言模型的聚合框架。该框架细致地综合考虑了文本和截图信息,充分发挥了大型语言模型的语义理解能力,并通过最小生成树和聚类算法实现了高效的报告聚合。这种方法不仅提高了对测试报告的全面理解,还提升了审查效率和报告质量。具体而言,该方法利用大型语言模型深入理解自然语言,结合Paddle‑OCR和YOLOv5s模型提取截图中的文本和小组件信息,通过三元组提取和凝聚层次聚类实现更高效的审查。在聚合阶段,结合大型语言模型和TextRank算法,将报告表示为路径结构,并根据路径重叠频率和路径巧合度量评估报告的重要性,最终得到优先级排序的报告列表。本发明目的在于解决目前存在的移动众包测试报告数量巨大,针对报告文本内容不足截图内容丰富,提出了两种众包测试报告聚合技术,利用报告的图文信息并结合多模态、预训练模型等技术实现了报告的聚合,极大方便了专业人员对报告的处理。进而帮助软件研发人员提高测试报告审查效率,极大方便了专业人员对报告的处理,进而保障软件质量。
-