一种基于自适应知识蒸馏的数据源自动扩充方法

    公开(公告)号:CN115858957A

    公开(公告)日:2023-03-28

    申请号:CN202211564418.6

    申请日:2022-12-07

    Abstract: 本发明提出了一种基于自适应知识蒸馏的数据源自动扩充方法,运用通用爬虫技术,抓取已知类别的网页文本信息;对网页文本信息进行预处理,将其转化为对应的词列表,将词列表及其所属类别作为训练与测试数据,构建训练与测试数据集;构建Attention‑BiLSTM作为数据源分类模型,通过自适应知识蒸馏算法实现模型压缩,并改善模型的收敛速度和识别能力;对采集的未知类别数据源下的文本信息进行预处理,输入构建的模型预测相应类别,根据分类结果,记录并存储各数据源的url及其对应的标签,实现数据源的自动积累与扩充。本发明能够配合通用爬虫技术自动扩充各类数据源。

    一种融合正排与倒排索引的电子文档管理方法

    公开(公告)号:CN116186133A

    公开(公告)日:2023-05-30

    申请号:CN202211729747.1

    申请日:2022-12-30

    Abstract: 本发明提出了一种融合正排与倒排索引的电子文档管理方法,选取搜索引擎为正排索引的数据库,以及搜索引擎为倒排索引的数据库,并封装统一的数据库API对两种数据库进行融合引接;电子文档存储时,向正排索引数据库中存储电子文档的结构化数据,向倒排索引数据库中存储电子文档的文本数据,将正排索引数据库中的数据与倒排索引数据库中的数据通过电子文档的ID相互关联;当查找文档时,根据不同的需求,通过文档的结构信息在正排索引数据库中进行查找,或者通过关键词在倒排索引数据库中实现文档全文高效检索。本发明既满足了电子文档管理的结构化管理及存储功能,又实现了海量文本内容的高效检索功能。

    一种文本-视频跨模态事件要素抽取方法

    公开(公告)号:CN119649264A

    公开(公告)日:2025-03-18

    申请号:CN202411576519.4

    申请日:2024-11-06

    Abstract: 本发明公开了一种文本‑视频跨模态事件要素抽取方法,搜集视频数据及其视频简介文本数据,分别标注文本及视频数据的事件类型及对应的事件论元角色,其中事件论元角色表示在事件中扮演不同角色的实体,文本数据与视频数据预标注事件类型及事件类型对应的事件论元角色一致;进行多模态事件指代消解,实现任意“文本‑视频”数据间的共指事件配对,即将指代同一事件的文本和视频进行匹配,构成一组文本‑视频共指事件对;对匹配的“文本‑视频”数据转换为对应的特征向量,其中对文本数据执行文本标记化和文本嵌入,转化为词向量形式;对视频数据直接使用ResNet算法获取全局级别事件要素特征,构建视频全局特征向量;对视频数据通过Fast‑R‑CNN识别局部对象,使用ResNet算法获取局部级别时间要素,构建视频局部特征向量;对文本词向量和视频全局特征向量与局部特征向量,通过全连接层统一三者的向量维度,构建文本‑视频共享向量空间;将文本词向量和视频全局特征向量与局部特征向量输入到Transformer编码器,再采用ONEIE算法进行文本模态的事件要素信息抽取,采用T5‑base算法进行视频模态的事件要素信息抽取。本发明能够更加精确的捕捉多模态内部之间的关联性,提高了抽取精度。

    一种基于张量分解的动态个性化推荐方法及系统

    公开(公告)号:CN115357794A

    公开(公告)日:2022-11-18

    申请号:CN202211019358.X

    申请日:2022-08-24

    Abstract: 本发明提出了一种基于张量分解的动态个性化推荐方法,对反映用户兴趣特征的用户‑物品‑时间关联网络数据进行统计,得到用户、物品和时间戳构成的集合,并对集合中的元素进行ID编号;将用户集合、物品集合和时间戳集合中的元素随机映射至语义向量空间中,建立用户、物品和时间戳到兴趣语义空间的初步映射关系;构建语义空间下用户、物品和时间之间的语义关联关系,使用户、物品和时间能够正确映射到语义空间中;根据用户、物品和时间到语义空间的语义关联关系,训练最优动态个性化推荐模型,预测用户的兴趣点,完成个性化推荐任务。本发明能有效学习用户随时间动态变化的兴趣,提升了个性化推荐的效果。

    一种网页嵌入式文本标注方法
    5.
    发明公开

    公开(公告)号:CN119807738A

    公开(公告)日:2025-04-11

    申请号:CN202411780823.0

    申请日:2024-12-05

    Abstract: 本发明公开了一种网页嵌入式文本标注方法,网页标注插件前端使用Javascript和Chrome浏览器原生API,通过文档对象模型元素和浏览器对象模型元素,响应标注用户对原始文本的标注指令;网页标注插件后台利用预标算法引擎库中事先预装的标注预训练模型对前端获取的原始文本语料进行识别和标注,采用分布式存储引擎Elasticsearch进行数据的存储,将模型预标结果和人工标注结果合并进行存储。本发明降低了现阶段文本采集和文本清洗工作在人力和时间方面的投入成本,简化了文本标注流程,降低了传统标注平台或工具的使用门槛,支持使用者在浏览网页的同时即可实现数据的筛选及标注。

    一种基于时序卷积的知识表示方法及系统

    公开(公告)号:CN116542326A

    公开(公告)日:2023-08-04

    申请号:CN202310035450.3

    申请日:2023-01-10

    Abstract: 本发明提出一种基于时序卷积的知识表示方法,构建实体、关系和时间的语义向量对照表,并在语义空间中随机初始化对应的语义向量;根据时间信息及其对应的时间语义向量,动态构造时序卷积核;利用时序卷积核与实体和关系对应的语义向量进行卷积,得到时序知识图谱中的动态特征信息;利用随机初始化的卷积核与实体和关系对应的语义向量进行卷积,得到时序知识图谱中的静态特征信息;通过多层神经网络融合提取的动态特征信息和静态特征信息,得到综合的特征信息;基于提取的综合特征信息,计算该特征信息下全部实体的概率值,取概率最高的实体作为预测结果,从而完成知识表示学习的预测任务。本发明可用于下游知识推理或融合,且提高了模拟预测精度。

Patent Agency Ranking