-
公开(公告)号:CN116976430A
公开(公告)日:2023-10-31
申请号:CN202310871880.9
申请日:2023-07-17
Applicant: 南开大学
IPC: G06N3/10
Abstract: 本公开公开了OpenCL PyTorch的实现方法,涉及机器学习技术领域。主要技术方案包括:首先,基于OpenCL标准实现可在OpenCL设备中运算的OpenCL算子库;其中,所述OpenCL算子库用于接收PyTorch框架发送的算子调用信息;其次,建立所述OpenCL算子库与OpenCL核函数库之间的链接;其中,所述OpenCL核函数库包含至少一个用户开发的OpenCL核函数接口或开源OpenCL计算库的核函数接口;最后,基于所述OpenCL算子库,实现PyTorch框架对所述OpenCL核函数库的调用。通过将PyTorch框架的OpenCL算子调用需求进行分解,并基于OpenCL核函数库调用OpenCL设备进行执行计算;PyTorch框架可以利用支持OpenCL标准的设备训练和部署深度学习模型,实现了可支持OpenCL编程标准的完整深度学习框架。
-
公开(公告)号:CN115292474A
公开(公告)日:2022-11-04
申请号:CN202210700372.X
申请日:2022-06-20
Applicant: 南开大学
IPC: G06F16/335 , G06F16/383 , G06F40/103 , G06F40/284
Abstract: 本公开提供了一种海量网络数据处理系统及其的构建方法、装置。数据下载模块基于配置后的下载方式及下载任务的调度进行数据处理;文本提取模块以网络文本的一行为单位进行预设语言类型的文本提取;文本过滤模块基于过滤策略对数据进行过滤,所述过滤策略根据首位标点及末尾标点、控制符、出现预设敏感词汇的占比、文本总长度中的至少一种生成;去重模块基于去重策略对数据进行去重,所述去重策略采用先局部去重,再整体二次去重的方式;数据筛选模块基于筛选策略进行筛选,所述筛选策略根据文本困惑度得到;文本格式处理模块对文本数据格式进行配置。实现了利用海量网络数据进行高质量文本数据系统的构建。
-
公开(公告)号:CN117608797A
公开(公告)日:2024-02-27
申请号:CN202311650471.2
申请日:2023-12-05
Applicant: 南开大学
IPC: G06F9/48 , G06N3/0464 , G06F9/445 , G06F12/0811
Abstract: 本发明公开一种PyTorch框架中加速库的高效调用方法及装置,涉及加速库高效调用技术领域,在绑定句柄时,预先基于单例模式创建句柄绑定类,仅在第一次绑定时生成句柄实例,后续则直接取出句柄实例,在计算显存空间时,创建第一高速缓存Cache类,仅在第一次计算时计算卷积核参数类的显存空间,后续则直接取出卷积核参数类的显存空间,在选取卷积算法时,创建第二高速缓存Cache类,仅在第一次选取时选取卷积核参数类的卷积算法,后续则直接取出卷积核参数类的卷积算法,能够在支持OpenCL的计算设备上,实现PyTorch框架中加速库的高效调用,有利于将PyTorch框架转码到支持OpenCL的计算设备上。
-
公开(公告)号:CN116955214A
公开(公告)日:2023-10-27
申请号:CN202310875847.3
申请日:2023-07-17
Applicant: 南开大学
Abstract: 本公开公开了OpenCL设备及其内存的管理方法,涉及信息技术领域,基于内存管理模块与OpenCL设备上的内存地址之间的索引信息获取内存地址;通过内存地址索引OpenCL设备上内存地址对应的存储区;基于存储内存地址的存储张量对存储区进行调用,存储张量为预设深度学习框架中的数据存储单位;基于预设深度学习框架对存储张量进行生命周期机制的管理,以对存储区进行生命周期机制的管理。与相关技术相比,预设深度学习框架使用内存管理模块获取内存地址,基于内存地址与存储张量之间的映射关系,实现预设深度学习框架对存储区的间接管理,且根据获取内存地址的预设深度学习框架种类的不同,实现不同种类的深度学习框架对存储区的管理。
-
公开(公告)号:CN115293126A
公开(公告)日:2022-11-04
申请号:CN202210700368.3
申请日:2022-06-20
Applicant: 南开大学
IPC: G06F40/194 , G06K9/62 , G06F16/31 , G06F16/383
Abstract: 本公开公开了大规模文本数据的去重方法及装置、电子设备和存储介质,涉及数据处理领域,主要技术方案包括:将第一待去重数据划分至少两个数据段,每个数据段包含至少两个数据;在第一数据段内,分别针对单个数据执行预设哈希算法,得至少一个哈希分块;对第一数据段内的至少两个数据执行去重计算,得第二待去重数据;依次将第二待去重数据中的哈希分块与预设参考数据库中的哈希分块进行比对;根据比对结果的相似度进行二次去重计算,并继续执行第一待去重数据中剩余的第二数据段内的去重计算。与相关技术相比,本公开实施例将大规模数据拆分成小段数据,然后依次对每段数据进行去重操作,进而实现文本数据去重规模突破设备内存限制。
-
公开(公告)号:CN115292444A
公开(公告)日:2022-11-04
申请号:CN202210698401.3
申请日:2022-06-20
Applicant: 南开大学
IPC: G06F16/33 , G06F16/383 , G06F40/216 , G06F40/284
Abstract: 本申请提供了一种文本数据的筛选方法、装置、电子设备及存储介质,主要技术方案包括:将待处理文本数据通过第一筛选策略进行筛选,第一筛选策略用于根据首位标点及末位标点进行数据筛选;将待处理文本数据通过第二筛选策略进行筛选,第二筛选策略用于对待处理文本数据中的预设控制符进行筛选;将待处理文本数据通过第三筛选策略进行筛选,第三筛选策略用于根据待处理文本数据中出现预设敏感词汇的占比进行筛选;将待处理文本数据通过第四筛选策略进行筛选,第四筛选策略用于根据待处理文本数据的文本总长度进行筛选。与相关技术筛选结果存在误差或导致正常文本数据丢失相比,此方法可以将冗余文本、敏感文本或者过短文本去除,得到高质量的文本。
-
-
-
-
-