-
公开(公告)号:CN117931841A
公开(公告)日:2024-04-26
申请号:CN202410065536.5
申请日:2024-01-17
Applicant: 北京启明星辰信息安全技术有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/242 , G06F16/2455 , G06F40/295 , G06F40/30
Abstract: 一种基于数据增强和大语言模型的语言转化装置和方法,该方法利用数据增强技术提高训练数据的数量、多样性和质量;为了提升模型预测的效果,将Text‑To‑SQL任务进行步骤的拆分,并使用大模型对每个步骤逐个加以解决,从而得到自然语言对应的SQL查询语句。该方法具有针对不同阶段进行针对性的优化、模型泛化能力强等优点,特别适合Text‑To‑SQL的应用落地。
-
公开(公告)号:CN116578804A
公开(公告)日:2023-08-11
申请号:CN202310631403.5
申请日:2023-05-30
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/958 , G06F16/955 , G06F18/214 , G06N3/048 , G06N3/08
Abstract: 本申请提供了一种网站安全检测方法、装置和存储介质。该方法包括:采用统一资源定位符URL数据的预训练模型对待分类的网站的URL数据进行语义表示信息的提取;其中,所述URL数据的预训练模型是基于所述目标网站的URL数据预训练生成的;采用全连接层与softmax层基于所述语义表示信息确定所述待分类的网站是恶意网站的分类概率。上述方案可以检测网站的安全性,降低用户登录仿冒正常网站的恶意网站的概率。
-
公开(公告)号:CN116305149A
公开(公告)日:2023-06-23
申请号:CN202310179365.4
申请日:2023-02-16
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
IPC: G06F21/57 , G06F16/901
Abstract: 本文公开一种生成漏洞传播图谱的方法、计算机存储介质及终端,包括:从一个以上漏洞数据源中提取每一个漏洞报告中包含的漏洞信息,并将提取的漏洞信息存储为第一三元组;从软件供应链图谱中,提取与存储与第一三元组包含相同实体对的第二三元组;根据第一三元组的第一置信度和第二三元组的第二置信度确定第一三元组的可信度;根据确定的第一三元组可信度,执行添加第一三元组到漏洞传播图谱的判断处理。本发明实施例通过对漏洞数据源的漏洞信息的提取和软件供应链图谱中第二三元组的提取,实现了传播图谱的生成,为用户及时获得漏洞信息提供了技术支持。
-
公开(公告)号:CN116304051A
公开(公告)日:2023-06-23
申请号:CN202310286372.4
申请日:2023-03-22
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
IPC: G06F16/35 , G06F40/30 , G06F40/289 , G06F40/205
Abstract: 本申请提供一种融合局部关键信息和预训练的文本分类方法,包括:选择与任务数据匹配程度最高的预训练模型作为第一预训练模型;使用任务数据对第一预训练模型进行进一步预训练,获得第二预训练模型,利用第二预训练模型从文本中抽取关键词序列,设置文本的局部属性共有n种,文本分类共有m种,将每种局部属性下的每种文本分类都作为一种局部关键类别,则能够得到n*m种局部关键类别;将通过第二预训练模型得到的全文表示向量和所有局部属性下的局部表示向量进行向量合并,得到文本的最终表示向量,对文本的最终表示向量进行关于任务数据的标注质量的评估,对评估通过后的文本的最终表示向量进行分类。本申请提高了分类效率和准确性。
-
公开(公告)号:CN119830302A
公开(公告)日:2025-04-15
申请号:CN202411914421.5
申请日:2024-12-24
Applicant: 启明星辰信息技术集团股份有限公司 , 北京启明星辰信息安全技术有限公司 , 北京网御星云信息技术有限公司
IPC: G06F21/57 , G06F21/62 , G06N3/0455 , G06N5/04
Abstract: 一种基于置换和缩放技术的大语言模型参数保护方法和装置,其主要分为初始化阶段和模型推理阶段:在初始化阶段中,生成模型转换的置换和缩放参数,并根据这些置换和缩放值对模型参数进行转换;在模型推理阶段中,对输入进行置换转换,按照正常transformer计算的方式基于转换后的输入根据初始化阶段生成的模型参数进行推理运算得到计算结果,然后将计算结果置换还原得到真实输出。该方法其完全兼容含有ROPE的注意力机制transformer结构,确保了与最新模型架构的适配性,还能在保护模型参数的同时确保与原始模型一致的准确性和几乎无损的高效性;在大语言模型安全部署、隐私保护计算、以及跨机构AI协作等领域具有广阔的应用前景。
-
公开(公告)号:CN116306909A
公开(公告)日:2023-06-23
申请号:CN202310217064.6
申请日:2023-03-02
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
Abstract: 本文公开一种实现模型训练的方法、计算机存储介质及终端,包括:将从标记数据集选取的第一数据和从未标记数据集中选取的第二数据,组成训练数据;根据预设的损失函数,对在前训练获得的第一深度学习模型通过训练数据进行训练,获得第二深度学习模型;其中,标记数据集中包括:对漏洞报告中的实体和/或实体之间的关系进行标记的数据;未标记数据集中包括:未对漏洞包含中的实体和/或实体之间的关系进行标记的数据;损失函数基于第一数据和第二数据确定的交叉熵确定。本发明实施例基于第一和第二数据组成训练数据,以第一和第二数据确定的损失函数执行第一深度学习模型的训练,避免了通过第二深度学习模型对漏洞报告进行处理时发生数据偏移。
-
公开(公告)号:CN118051594A
公开(公告)日:2024-05-17
申请号:CN202410215357.5
申请日:2024-02-27
Applicant: 北京启明星辰信息安全技术有限公司 , 北京网御星云信息技术有限公司 , 启明星辰信息技术集团股份有限公司
IPC: G06F16/332 , G06F16/33 , G06F40/205
Abstract: 一种SQL语句处理模型构造、SQL语句生成方法及装置,包括:获取多条样本问答语句,并对每条样本问答语句,都利用预先建立的提示问答语句集合构造其对应的训练样本;其中,提示问答语句集合包括:多种难度类型的提示问答语句,每条样本问答语句、每条提示问答语句均包括:基于自然语言形式的问题语句以及SQL语句形式的答案语句,每条所述样本问答语句、每条所述提示问答语句均包括:基于自然语言形式的问题语句以及SQL语句形式的答案语句;利用构造的训练样本训练语言大模型,得到SQL语句处理模型。本申请实施例利用不同难度的提示问答语句丰富了提示信息,因此提升了据此构造的模型的学习效果,提高了模型SQL语句生成的准确率。
-
公开(公告)号:CN116484943A
公开(公告)日:2023-07-25
申请号:CN202310267384.2
申请日:2023-03-14
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司 , 北京网御星云信息技术有限公司
Abstract: 本文公开一种实现模型训练的方法、计算机存储介质及终端,包括:确定标记数据集和未标记数据集中包含的每一份数据的时间信息;根据确定的时间信息,从标记数据集和未标记数据集中选出包含第一预设组数据的第一数据;将预先训练获得的第一深度学习模型通过选出的第一数据进行训练,获得第二深度学习模型;其中,第一数据为根据时间信息确定的早于预设时刻的数据;第一数据中的每一组数据包含标记数据集中的一份数据和未标记数据集中的一份数据。本发明实施例通过确定用于模型训练的数据的时间信息,对已有的第一深度学习模型通过早于预设时刻的数据进行进一步训练,避免了模型训练时发生知识遗忘问题。
-
公开(公告)号:CN111881289A
公开(公告)日:2020-11-03
申请号:CN202010523818.7
申请日:2020-06-10
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司
IPC: G06F16/35
Abstract: 本发明实施例公开了一种分类模型的训练方法、数据风险类别的检测方法及装置,其中该训练方法,包括:对原始训练数据进行数据增强得到新的数据类型的训练数据,所述原始训练数据包括数据类型为恶意数据的训练数据以及数据类型为正常数据的训练数据;根据全部训练数据对分类模型进行训练。如此,通过引入新的数据类型的训练数据解决了数据类别不均衡的问题,从而提升了机器学习的效果。
-
公开(公告)号:CN115204296A
公开(公告)日:2022-10-18
申请号:CN202210844477.2
申请日:2022-07-18
Applicant: 北京启明星辰信息安全技术有限公司 , 启明星辰信息技术集团股份有限公司
Abstract: 本申请提供一种机器学习数据增强方法,步骤包括:设置训练集样本的特征中,使样本能够被正确预测的特征为已增强特征,导致样本被预测错误的特征为待增强特征,通过特征识别方法获得训练集样本的待增强特征;将具有待增强特征的样本设置为增强样本,从数据集中获得增强样本,将获得的增强样本加入训练集;将增强样本加入训练集后,重新对训练集进行训练与测试,直到在验证集上的分类性能达到最优。本申请增加了样本特征多样性,提高了分类准确度。
-
-
-
-
-
-
-
-
-