-
公开(公告)号:CN111669464A
公开(公告)日:2020-09-15
申请号:CN202010499453.9
申请日:2020-06-04
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明涉及通信技术领域,尤其是一种主动式号码保护系统,包括注册模块,其用于终端账号的注册;设置模块,其用于隐私号码的获取及隐私号码与终端号码的关联;接入模块,其用于终端的拨号界面及来电界面接入隐私号码的使用权限,且所述接入模块包括拨号子模块及来电提示子模块,所述拨号子模块用于获取所述设置模块中隐私号码的数据,并在终端的拨号界面提供隐私号码的拨号键;所述来电提示子模块用于获取所述拨号子模块的隐私号码拨出记录,且所述来电提示子模块能够根据终端的来电号码判断拨入号码是否由隐私号码拨出;所述应用平台用于隐私号码及终端的管理。本发明能够为用户提供隐私号码,有效保护用户的信息。
-
公开(公告)号:CN119312862A
公开(公告)日:2025-01-14
申请号:CN202411310320.7
申请日:2024-09-19
Applicant: 中国—东盟信息港股份有限公司
IPC: G06N3/08 , G06N3/0464 , G06N3/045 , G06F18/213 , G06F18/25 , G06N3/048
Abstract: 本发明提供一种高效的语言大模型微调方法及系统,先利用全连接进行局部信息融合得到全局信息特征,然后再利用卷积方式使全局信息进行融合,在没有对数据压缩情况下极大降低了参数量,保证其微调精度,在减小权重同时,能够很好地保留信息特征。
-
公开(公告)号:CN117236319A
公开(公告)日:2023-12-15
申请号:CN202311244618.8
申请日:2023-09-25
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F40/232 , G06N5/04 , G06N3/0455 , G06N3/08
Abstract: 本发明公开了一种基于Transformer生成模型的真实场景中文文本纠错方法,涉及计算机软件技术。根据初始数据集建立多任务训练数据集,并对其进行训练,以获取Tokenizer;将开源T5生成模型作为预训练模型;通过Tokenizer对多任务训练数据集进行数据转换,并将数据转换后的多任务训练数据集输入至预训练模型进行训练,以获得文本纠错模型;将待纠错的文档中的文本数据进行拆句处理,以获取句子集合;将句子集合输入至Tokenizer进行预处理,以获取模型输入数据;将模型输入数据输入至文本纠错模型进行预测推理,获得初始推理结果;将初始推理结果进行筛选,获得文本纠错结果。本发明可以对真实场景下的办公文本文档进行比较准确的错误内容纠正,进一步获得更为准确的中文纠错结果。
-
公开(公告)号:CN118132669A
公开(公告)日:2024-06-04
申请号:CN202311829914.4
申请日:2023-12-28
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明属于大语言模型技术领域。一种基于大语言模型的智能索引方法,该方法包括如下步骤:S1、采集基于大语言模型的用户文本内容数据,根据用户文本内容数据在本地搭建知识库;S2、将用户输入的内容进行敏感词汇检测;S3、利用大语言模型和知识库进行智能化索引查询。本发明的一种基于大语言模型的智能索引方法,解决了传统索引速度慢、成本高的问题,能够提高索引的精准度和安全性,进而提高索引工作效率。
-
公开(公告)号:CN111669464B
公开(公告)日:2021-08-03
申请号:CN202010499453.9
申请日:2020-06-04
Applicant: 中国—东盟信息港股份有限公司
IPC: H04W8/26
Abstract: 本发明涉及通信技术领域,尤其是一种主动式号码保护系统,包括注册模块,其用于终端账号的注册;设置模块,其用于隐私号码的获取及隐私号码与终端号码的关联;接入模块,其用于终端的拨号界面及来电界面接入隐私号码的使用权限,且所述接入模块包括拨号子模块及来电提示子模块,所述拨号子模块用于获取所述设置模块中隐私号码的数据,并在终端的拨号界面提供隐私号码的拨号键;所述来电提示子模块用于获取所述拨号子模块的隐私号码拨出记录,且所述来电提示子模块能够根据终端的来电号码判断拨入号码是否由隐私号码拨出;所述应用平台用于隐私号码及终端的管理。本发明能够为用户提供隐私号码,有效保护用户的信息。
-
公开(公告)号:CN119830895A
公开(公告)日:2025-04-15
申请号:CN202411916164.9
申请日:2024-12-24
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F40/216 , G06F40/30
Abstract: 本发明公开了一种真实场景中的海量文本查重方法、系统、设备及存储介质,属于文本查重技术领域,解决现有文本查重算法在面对真实场景下海量文本数据时查重速度较慢并且缺乏对语义查重的技术问题。方法为根据真实场景建立包含向量库和文字库的文档库;选择向量化模型并进行微调训练优化得到向量化处理模型;获取用于校验查重的全部文档并生成查重数据库;获得需要被查重的文档并生成待查重数据;将待查重数据和查重数据库依次进行向量相似度比对、相同字数筛选和连续相同字数筛选,获得最终查重命中的文本内容。可以兼顾语义级和字符级的多重查验,并有效提升查重在海量文本中的计算效率。
-
公开(公告)号:CN118410142A
公开(公告)日:2024-07-30
申请号:CN202410495461.4
申请日:2024-04-24
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F16/332 , G06F16/31 , G06F7/58
Abstract: 本发明公开了一种用于LLM微调的数据组建方法、系统、设备及存储介质,属于计算机自然语言处理技术领域,解决通过单轮对话数据集微调大语言模型会导致大语言模型过拟合和多轮对话能力下降的问题,方法为:获取多条单轮对话数据,并作为用于微调大语言模型的单轮对话数据集;设置随机算子和多轮对话的轮数;根据单轮对话数据的结构、随机算子和多轮对话的轮数建立数据抽取方法,并加入数据抽取筛选机制;使用数据抽取方法对单轮对话数据集进行抽取,并组建成初始多轮对话数据集;遍历初始多轮对话数据集,剔除重复数据,获得最终多轮对话数据集。将单轮对话数据集转变为多轮对话数据集,使得大语言模型微调后降低过拟合风险并保持多轮对话能力。
-
公开(公告)号:CN118409853A
公开(公告)日:2024-07-30
申请号:CN202410495459.7
申请日:2024-04-24
Applicant: 中国—东盟信息港股份有限公司
Abstract: 本发明公开了一种高并发的大语言模型高速推理部署方法,属于计算机自然语言技术领域,解决现有推理部署方法难以同时兼顾基础准确率、泛化能力、延迟、并发性和计算速度的推理需求的技术问题,方法为:包括准备好大语言模型和GPU算力集群;根据大语言模型和开源部署框架vLLM所需的运行环境版本配置制作Docker镜像;在GPU算力集群内的每台物理机中,使用Docker镜像创建容器;编写大语言模型的推理代码,在容器内使用BFloat16浮点数格式完成适配部署;根据大语言模型对测试数据集的推理情况,筛选最优的后处理参数;采用后处理参数和大语言模型搭建流式推理API;使用流式推理API进行大语言模型推理。可以确保不损失大语言模型精度的同时,提供最大的并发处理能力。
-
公开(公告)号:CN117809656A
公开(公告)日:2024-04-02
申请号:CN202311842721.2
申请日:2023-12-28
Applicant: 中国—东盟信息港股份有限公司
IPC: G10L15/26 , G10L25/51 , G10L17/04 , G06N3/0895 , G06F40/232 , G06F40/194 , G06N3/04
Abstract: 本发明属于语音识别技术领域,公开了一种基于半监督方式的中文语音识别文本纠错方法及装置,该方法包括如下步骤:步骤1、构建用于中文语音识别的正确文本集;步骤2、构建语音数据的易错字集;步骤3、从步骤1中的正确文本集中随机选取文本,若文本中的字有在易错字集中,则进行替换生成错误样本,并与正确文本组成语音文本纠错的训练集;步骤4、获取通用纠错模型并微调得到微调纠错模型,对微调纠错模型进行半监督训练,得到训练后的语音文本纠错模型;步骤5、将中文语音转文字的识别结果发送至语音文本纠错模型进行文本纠错,输出纠错后的文字。本发明能够在中文语音转文字后对所得到的文本进行纠错,提高语音转文字的准确率。
-
公开(公告)号:CN119989193A
公开(公告)日:2025-05-13
申请号:CN202510042844.0
申请日:2025-01-10
Applicant: 中国—东盟信息港股份有限公司
IPC: G06F18/2431 , G06F18/2135 , G06F18/22 , G06F18/214 , G06N20/00 , G06F18/25
Abstract: 本发明公开了一种基于多特征的通话场景识别方法及系统,属于通信技术领域。其中,方法包括以下步骤:数据处理、特征构建、模型训练、模型评估、服务搭建及数据识别。系统包括数据生成模块、云端存储模块、任务管理模块以及数据处理模块。本发明基于通话单数据构建多种特征,并根据多种特征使用机器学习模型进行建模,进而通过构建的识别模型来识别应用场景和报备场景是否一致,能够有效解决现有技术存在的识别速度慢、部署成本高、人力需求大的问题。
-
-
-
-
-
-
-
-
-