-
公开(公告)号:CN116304051A
公开(公告)日:2023-06-23
申请号:CN202310286372.4
申请日:2023-03-22
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06F40/205
Abstract: 本申请提供一种融合局部关键信息和预训练的文本分类方法,包括:选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,利用第二预训练模型从文本中抽取关键词序列,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量,对文本的最终表示向量进行关于任务数据的标注质量的评估,对评估通过后的文本的最终表示向量进行分类。本申请提高了分类效率和准确性。
-
公开(公告)号:CN118051594A
公开(公告)日:2024-05-17
申请号:CN202410215357.5
申请日:2024-02-27
Applicant: 北京启明星辰信息安全技术有限公司 , 北京网御星云信息技术有限公司 , 启明星辰信息技术集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/205
Abstract: 一种SQL语句处理模型构造、SQL语句生成方法及装置,包括:获取多条样本问答语句,并对每条样本问答语句,都利用预先建立的提示问答语句集合构造其对应的训练样本;其中,提示问答语句集合包括:多种难度类型的提示问答语句,每条样本问答语句、每条提示问答语句均包括:基于自然语言形式的问题语句以及SQL语句形式的答案语句,每条所述样本问答语句、每条所述提示问答语句均包括:基于自然语言形式的问题语句以及SQL语句形式的答案语句;利用构造的训练样本训练语言大模型,得到SQL语句处理模型。本申请实施例利用不同难度的提示问答语句丰富了提示信息,因此提升了据此构造的模型的学习效果,提高了模型SQL语句生成的准确率。
-
公开(公告)号:CN117931841A
公开(公告)日:2024-04-26
申请号:CN202410065536.5
申请日:2024-01-17
Applicant: 北京启明星辰信息安全技术有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/242 , G06F16/2455 , G06F40/295 , G06F40/30
Abstract: 一种基于数据增强和大语言模型的语言转化装置和方法,该方法利用数据增强技术提高训练数据的数量、多样性和质量;为了提升模型预测的效果,将Text‑To‑SQL任务进行步骤的拆分,并使用大模型对每个步骤逐个加以解决,从而得到自然语言对应的SQL查询语句。该方法具有针对不同阶段进行针对性的优化、模型泛化能力强等优点,特别适合Text‑To‑SQL的应用落地。
-
公开(公告)号:CN116578804A
公开(公告)日:2023-08-11
申请号:CN202310631403.5
申请日:2023-05-30
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/958 , G06F16/955 , G06F18/214 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种网站安全检测方法、装置和存储介质。该方法包括:采用统一资源定位符URL数据的预训练模型对待分类的网站的URL数据进行语义表示信息的提取;其中,所述URL数据的预训练模型是基于所述目标网站的URL数据预训练生成的;采用全连接层与softmax层基于所述语义表示信息确定所述待分类的网站是恶意网站的分类概率。上述方案可以检测网站的安全性,降低用户登录仿冒正常网站的恶意网站的概率。
-
-
-