一种网页数据分布式模板采集方法及系统

    公开(公告)号:CN108763279B

    公开(公告)日:2020-12-15

    申请号:CN201810319851.0

    申请日:2018-04-11

    Abstract: 本发明涉及一种网页数据分布式模板采集方法及系统,该采集方法包括:将数据采集模板按所述网页的类型分别导入不同的数据表中进行存储;根据被采集的网页的类型从数据表中获取相应的数据采集模板,将模板池中的数据采集模板分发到至少两个采集客户端,采集客户端分别根据数据采集模板对网页进行数据抽取,整合得到网页的网页数据。本发明实施例通过构建不同的数据采集模板,根据被采集的网页的类型选取相应的数据采集模板,并通过多个采集客户端通过数据采集模板对该网页分别进行数据采集,保证数据的准确性和完整性。

    一种面向领域的文本信息抽取聚类方法、设备和存储介质

    公开(公告)号:CN111026866A

    公开(公告)日:2020-04-17

    申请号:CN201911019149.3

    申请日:2019-10-24

    Abstract: 本发明公开了一种面向领域的文本信息抽取聚类方法、设备和存储介质。该方法包括:获取文本信息集合;所述文本信息集合包括:目标领域内的多个文本信息和目标领域外的多个文本信息;将所述文本信息集合输入预先训练的抽取聚类模型;通过所述抽取聚类模型对所述文本信息集合执行抽取和聚类处理,得到所述目标领域内每个主题对应的代表性信息。本发明将抽取和聚类融合在一起,使得抽取和聚类相互支撑,在抽取聚类过程中,人工干预少且抽取和聚类高效。

    文本热点提取方法及装置
    53.
    发明公开

    公开(公告)号:CN110134942A

    公开(公告)日:2019-08-16

    申请号:CN201910260924.8

    申请日:2019-04-01

    Abstract: 本发明实施例涉及一种文本热点提取方法及装置,包括:采用正则表达式对输入的至少一个文本数据按照设定规则进行分割处理,得到多个第一短文本数据;采用依存句法分析算法将第二短文本数据生成对应的第四短文本数据;将第三短文本数据和第四文短本数据进行向量化处理,得到对应的多个文本向量;基于相似度算法确定任意两个文本向量之间的相似度;将相似度大于相似度阈值的两个文本向量进行合并处理,句法分析抽取关系词而组成的短句提高了信息抽取的可观性和准确度,让用户可以更好的理解文本内容从而获取核心关键信息点,通过Word2vec将短句向量化进行相似度对比,保留词语之间的语义信息,从而保证了排重工作的准确性,尽可能的避免了热点信息的冗余。

    一种社交媒体账号管理方法及系统

    公开(公告)号:CN108769278A

    公开(公告)日:2018-11-06

    申请号:CN201810319766.4

    申请日:2018-04-11

    Inventor: 王海亮 王磊 罗引

    CPC classification number: H04L61/302 H04L51/32 H04L61/15

    Abstract: 本发明涉及一种社交媒体账号管理方法及系统,该方法包括:通过所述互联网协议地址和端口访问任一社交媒体对应的注册网站;通过浏览器控件完成账号注册,将所述账号与所述互联网协议地址绑定为合格账号进行存储;当接收到任务时,从所述合格账号中获取执行所述任务的合格账号,通过所述浏览器控件根据所述合格账号进行登录以完成所述任务。本发明实施例主要提供针对国外社交媒体账号自动注册及利用注册账号进行指定任务的工作,同时通过将注册完成的账号与相对应的互联网协议地址进行绑定存储,以使用相匹配的互联网协议地址登录相关账号,提高账号可用性和存活概率。

    大语言模型训练、信息处理方法、装置、设备及介质

    公开(公告)号:CN120046687A

    公开(公告)日:2025-05-27

    申请号:CN202510117975.0

    申请日:2025-01-24

    Abstract: 本公开涉及一种大语言模型训练、信息处理方法、装置、设备及介质。其中,大语言模型训练方法包括:获取第一训练文本,基于待训练大语言模型计算第一训练文本中各个token分别对应的期望梯度值;对各个token分别对应的期望梯度值进行融合处理,得到正则化项;基于正则化项对待训练大语言模型进行无监督预训练,得到第一大语言模型;获取第二训练文本,基于第二训练文本对应的目标正则化项对第一大语言模型进行有监督指令微调,得到第二大语言模型,将第二大语言模型确定为训练完成的大语言模型,由此,能够将大语言模型的解释结果融入大语言模型的训练过程中,提高了训练完成的大语言模型的性能。

    基于裁判模型的大语言模型评价方法、装置、设备及介质

    公开(公告)号:CN119862889A

    公开(公告)日:2025-04-22

    申请号:CN202411940326.2

    申请日:2024-12-26

    Abstract: 本公开涉及一种基于裁判模型的大语言模型评价方法、装置、设备及介质,该方法包括:将预先获取的测试问题分别输入待评价的多个大语言模型,并获取各个大语言模型的输出结果;将测试问题、各个大语言模型的输出结果以及预设的第一引导指令输入预先建立的裁判模型,得到裁判模型输出的模型评价结果,第一引导指令用于引导裁判模型采用准确性、相关性、创造性、逻辑连贯性和信息完整性等目标评价标准对多个大语言模型的模型性能进行评价,模型评价结果包括性能最优的目标大语言模型的信息的。本公开通过将多个大语言模型针对同一问题的输出结果输入裁判模型,引导裁判模型从多角度对各个大语言模型的输出结果进行评价,能够自动对大语言模型进行全面评价。

    一种基于大模型的插件调用方法、电子设备及存储介质

    公开(公告)号:CN119759451A

    公开(公告)日:2025-04-04

    申请号:CN202411952368.8

    申请日:2024-12-27

    Abstract: 本发明涉及大语言模型技术领域,特别是涉及一种基于大模型的插件调用方法、电子设备及存储介质,所述方法包括:将预设插件关键词库中的预设插件关键词与用户输入的目标请求文本中的任一请求关键词进行匹配,根据匹配上的预设插件直接确定出目标插件或确定出若干备选插件,而当请求关键词未匹配上预设插件时则将所有预设插件作为备选插件,再通过给定大语言模型从若干个备选插件中筛选出目标插件,从所述目标请求文本中提取目标参数信息并发送至目标插件得到插件反馈结果,当插件反馈结果的判断结果为符合预设要求时,将插件反馈结果作为请求反馈文本;本发明能够提高对话系统中的目标插件选取的准确率,使选择出的目标插件更符合用户的需求。

Patent Agency Ranking