一种基于HBase的构建和检索增量索引的方法

    公开(公告)号:CN103390038A

    公开(公告)日:2013-11-13

    申请号:CN201310298976.7

    申请日:2013-07-16

    Abstract: 本发明公开了一种基于HBase的构建和检索增量索引的方法,包括以下步骤:基于HBase的列存储机制设计索引的存储结构,使用三个数据表分别保存原始文本、索引信息和统计信息;设计面向Web的待索引文本获取接口,提供基于HTTP协议的文本索引服务;对持续增加的文本构建增量索引,当新的待索引文本产生并到达时,索引系统不重新将全部数据构建索引,将新增文本的索引追加存储到已有索引中,在存储索引时,先将所有文本内容以及索引信息其放入缓冲区,当缓冲区的数据量达到阈值时批量写入数据;提供多种格式结果的检索服务接口,用户通过面向Web的接口使用检索服务,检索系统将按照用户提交的搜索请求进行检索并按用户的要求对检索结果进行格式化。

    一种基于Hadoop的海量可归类小文件关联存储方法

    公开(公告)号:CN102332029B

    公开(公告)日:2013-04-17

    申请号:CN201110312694.9

    申请日:2011-10-15

    Abstract: 本发明公开了一种基于Hadoop的海量可归类小文件关联存储方法,主要解决可归类小文件的存取效率问题。本发明包括NameNode端全局索引管理技术和文件聚合技术。针对属于某一类别的独立的小文件进行文件聚合和全局索引管理,大幅度提高了内存利用率,提高单位内存支持的最大文件数量。本发明包括:(1)将属于某一类别的小文件聚合成一个文件,称为逻辑单元;(2)对每一个小文件建立存放在NameNode内存中的全局索引。文件聚合技术用于提高可归类小文件的存储效率,NameNode端全局索引管理技术用于管理聚合后的小文件。通过以上技术,提高了海量可归类小文件的存储效率。本发明适用于通用场景下可归类小文件的存储和管理。

    基于知识图谱的多源软件定义科教资源推荐方法及系统

    公开(公告)号:CN119622098A

    公开(公告)日:2025-03-14

    申请号:CN202411728990.0

    申请日:2024-11-28

    Abstract: 本发明提供基于知识图谱的多源软件定义科教资源推荐方法及系统,包括:基于人工智能知识实体和实体间的关系,构建人工智能知识图谱;获取科教机构的科教资源数据,抽取科教资源数据中的知识实体,连接到人工智能知识图谱,得到科教资源知识图谱;基于图神经网络对本地资源特征/用户特征进行提取,得到各个客户端本地的资源特征与用户特征;基于科教资源知识图谱构建本地的知识图谱,各个客户端本地的资源特征作为初始特征进行模型训练,直到模型收敛;将用户和资源输入图神经网络进行预测,并将评分高的资源推荐给各个用户。该方案有效地抽取了人工智能领域中的知识实体和实体间的关系,形成了结构化的知识图谱,提高推荐精度。

    一种面向复杂税务数据系统的介区域识别方法

    公开(公告)号:CN115496570A

    公开(公告)日:2022-12-20

    申请号:CN202211311742.7

    申请日:2022-10-25

    Abstract: 本发明公开了一种面向复杂动态网络的层次划分和介区域识别方法,包括:首先,通过“静态快照构建‑动态时序嵌入”两阶段的方法,将复杂数据系统转化为语义等价的,包含对象、关系、属性和时序等要素的复杂动态网络;其次,基于系统科学中绝热消去原理,识别所关注的子系统随动态网络演化的主导因素,在此基础上构建边界尺度的假设空间;再次,基于频繁子图挖掘算法,挖掘各边界尺度的子图实例中的Motif;最后,基于二进制向量编码构建各边界尺度的相关度矩阵,再基于条件概率对边界尺度层级耦合关系建模,辨识子图模式层级耦合,通过置信度阈值判定两假设空间之间是否存在介区域。

    一种基于硬件加速的虚拟机在线迁移方法

    公开(公告)号:CN111580933B

    公开(公告)日:2022-12-09

    申请号:CN202010398980.0

    申请日:2020-05-12

    Abstract: 本发明公开了一种基于硬件加速的虚拟机在线迁移方法,该方法包括:首先,分析不同负载对不同迁移模型的性能影响,利用得到的结论提出了对迁移性能进行优化的两个基本策略,即针对不同的负载使用不同的迁移模型的策略和负载感知的预拷贝迁移策略,在此之上提出了一套完整的高效的、能根据工作集负载类型自适应地选择有利的迁移模型的虚拟机迁移方法;其次,提出了在负载分析中使用硬件虚拟化扩展功能进行加速,实现更高效的内存写入访问序列跟踪;再次,提出了开销和性能更优的CLOCK+算法来预测内存写入工作集。本发明通过准确地感知并识别上层负载的工作集信息,并根据工作集负载类型,自适应地选择有利的迁移模型,从而尽可能地减少迁移中性能影响。

    基于遮热板原理的跨季节串联储热太阳能供暖系统及方法

    公开(公告)号:CN115406123A

    公开(公告)日:2022-11-29

    申请号:CN202211034980.8

    申请日:2022-08-26

    Inventor: 董博 宋渤

    Abstract: 本发明公开了一种基于遮热板原理的跨季节串联储热太阳能供暖系统及方法,包括太阳能集热供热储热回路、跨季节储热水箱供暖回路、二次侧供暖回路以及热泵辅助供暖回路,通过动态切换工作模式实现跨季节储热及冬季供暖,并经TRNSYS软件对所搭建的系统进行仿真,验证了该系统与锅炉辅热供暖系统相比的节能优势;本发明通过将储热系统中心位置的高温圆柱形储热水箱与外侧的低温同心环状水箱串联布置,对太阳能集热器加热后的热水进行温度梯度存储,同时外侧的低温环状水箱在空间位置上起到遮热板的作用,可以大幅减少储热损失,提高太阳能利用率,为实现建筑冬季绿色供暖提供一种切实可行的工程技术方案。

    一种基于动态网络表征的发票虚开识别方法

    公开(公告)号:CN110852856B

    公开(公告)日:2022-10-25

    申请号:CN201911066791.7

    申请日:2019-11-04

    Abstract: 本发明公开了一种基于动态网络表征的发票虚开识别方法。首先,以企业为节点、以交易记录为边,把企业交易信息组织成静态网络;其次,以每一天为时间节点建立企业交易网络的表征,建立长度为30天的时序窗口,在窗口内每次融合30天的静态网络表征,并通过移动时序窗口逐步融合所有时间节点的静态网络表征得到最终的动态网络表征结果;再次,借鉴了分布式优化算法,把表征的目标函数分解为独立子函数,并行优化子函数提高了模型的学习效率;最后,基于LightGBM构建二分类器识别出发票虚开嫌疑企业。本发明基于动态网络表征来识别发票虚开嫌疑企业,提高了发票虚开识别的效率和准确率。

    一种基于上下文感知的系统异常检测方法

    公开(公告)号:CN112202726B

    公开(公告)日:2021-11-19

    申请号:CN202010948293.1

    申请日:2020-09-10

    Abstract: 本发明公开了一种基于上下文感知的系统异常检测方法,该方法结合长短期记忆神经网络构建异常检测模型,实现对系统异常行为的检测。本方法从在系统运行时从系统堆栈信息中获取系统调用的上下文信息,构建上下文信息列表,然后截取训练数据中固定长度的系统行为序列,使用词嵌入向量进行状态压缩并且使用长短期记忆神经网络搭建异常检测模型,训练异常检测模型后便可以实现系统异常调用序列的检测。本发明还通过调整参数进行误报率控制,并且通过收集误报的检测结果,进行在线模型更新进行参数的调整以优化模型,实现了高效精确的系统异常检测。

    一种基于多级生成模型的纳税人行业分类方法

    公开(公告)号:CN112860895A

    公开(公告)日:2021-05-28

    申请号:CN202110201213.0

    申请日:2021-02-23

    Abstract: 本发明公开了一种基于多级生成模型的纳税人行业分类方法,包括:首先,提取纳税人行业信息中待挖掘的文本和非文本信息进行文本嵌入及编码,并对编码后的信息做特征处理;其次,将带噪声的纳税人行业类别标签转化为多互补标签;再次,构建双向映射框架下标签和特征层级的多级生成模型;然后,基于编码后的特征和生成的多互补标签对装置进行训练;最后,将标签层级对真实标签的预测作为测试数据的最终纳税人行业类别。本发明通过将带噪标签转化为多互补标签以降低标签的噪声率,并引入特征和标签层级的双向映射以应对纳税人行业类别标签中存在的特征依赖的噪声,能够有效提高纳税人行业分类准确率。

Patent Agency Ranking