一种生物合成基因簇的挖掘方法、装置、设备及介质

    公开(公告)号:CN117079712A

    公开(公告)日:2023-11-17

    申请号:CN202311109387.X

    申请日:2023-08-30

    Abstract: 本发明涉及生物合成基因簇挖掘技术领域,公开了一种生物合成基因簇的挖掘方法、装置、设备及介质,包括:选取实体类及对应的数据属性和对象属性来构建性状调控基因本体模型;构建性状调控基因本体模型中各类实体之间的三元组来生成性状调控基因知识图谱;构建蛋白互作预测模型;基于性状调控基因知识图谱获取待挖掘蛋白的互作蛋白连通子图,并根据蛋白互作预测模型的互作关系预测对其进行补充,从而挖掘出互作蛋白完全子图;基于互作蛋白完全子图挖掘蛋白和对应基因之间的共连实体节点来获得基因结构图,并通过物理位置判断来获得生物合成基因簇。本发明能够增强互作蛋白预测的准确率,并成功进行生物合成基因簇的挖掘。

    一种优异多效基因的挖掘方法、装置、设备及介质

    公开(公告)号:CN117116355A

    公开(公告)日:2023-11-24

    申请号:CN202311109290.9

    申请日:2023-08-30

    Abstract: 本发明涉及基因挖掘技术领域,公开了一种优异多效基因的挖掘方法、装置、设备及介质,包括:选取实体类并确定对应的数据属性及对象属性,来构建性状调控基因本体模型;从多源数据库中抽取各类实体及其之间的关系来构建三元组,并通过多源知识融合来生成性状调控基因知识图谱;基于不同实体之间的连接关系构建性状调控基因预测模型;基于预测模型计算未知性状基因与不同已知性状基因之间的相似度,若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状,当预测的性状超过预设个数则未知性状基因为优异多效基因。本发明能够提高知识发现结果的可解释性,增加生物学意义上的特征考虑,进而提高优异多效基因挖掘的可靠性与准确率。

    一种基于ETL工具的资源描述框架数据转换存储一体化方法

    公开(公告)号:CN110222110A

    公开(公告)日:2019-09-10

    申请号:CN201910510063.4

    申请日:2019-06-13

    Abstract: 本发明公开一种基于ETL工具的资源描述框架数据转换存储一体化方法,步骤如下:1、关系型数据预处理,通过数据库添加唯一键值,作为数据转换过程中的资源名;2、获取关系型数据库中结构化数据的字段信息,确定待转换数据的必备字段;3、针对数据转换脚本添加RDF输出格式形成完整程序;4、根据待转换数据类型确定命名空间及命名空间前缀,限定变量定义范围;5、设置主语及实例映射规则,将获取的源数据字段转换为HttpURI;6、设置属性映射规则;7、设置存储格式及存储目标位置,执行转换及存储操作。本发明可提高数据处理效率与连贯性;可提高资源调度效率;可支持零编码低人工成本的数据转换,具较好的可扩展性。

    基于TF-IDF和领域词典的主题内容聚合分析方法

    公开(公告)号:CN110110047A

    公开(公告)日:2019-08-09

    申请号:CN201910359911.6

    申请日:2019-04-30

    Abstract: 本发明公开了一种基于TF-IDF和领域词典的主题内容聚合分析方法,属于情报信息处理领域。基于TF-IDF获取主题需求词的扩展词集;将其作为检索文本遵循基于领域词典的检索策略完成对资源池中多种类型资源的检索,经过审核进行资源删补,对每种目标资源类型,根据资源的时效性、权威性及相关度进行有序排列和发布。与传统方法相比,本方法通过扩展词集保证了主题内资源的检全率,通过基于领域词典的检索策略和具有针对性的各类型资源排序模型,保证了主题内资源的检准率;通过审核原则保障了主题内资源的质量。易扩展易维护,同时大大降低了主题资源内容聚合的时间和人工成本。

    基于TF-IDF和领域词典的主题内容聚合分析方法

    公开(公告)号:CN110110047B

    公开(公告)日:2021-03-19

    申请号:CN201910359911.6

    申请日:2019-04-30

    Abstract: 本发明公开了一种基于TF‑IDF和领域词典的主题内容聚合分析方法,属于情报信息处理领域。基于TF‑IDF获取主题需求词的扩展词集;将其作为检索文本遵循基于领域词典的检索策略完成对资源池中多种类型资源的检索,经过审核进行资源删补,对每种目标资源类型,根据资源的时效性、权威性及相关度进行有序排列和发布。与传统方法相比,本方法通过扩展词集保证了主题内资源的检全率,通过基于领域词典的检索策略和具有针对性的各类型资源排序模型,保证了主题内资源的检准率;通过审核原则保障了主题内资源的质量。易扩展易维护,同时大大降低了主题资源内容聚合的时间和人工成本。

    一种基于多因子混合排序机制的学科分类自动标引方法

    公开(公告)号:CN110990376A

    公开(公告)日:2020-04-10

    申请号:CN201911140195.9

    申请日:2019-11-20

    Abstract: 本发明提出一种基于多因子混合排序机制的学科分类自动标引方法,其特征在于:包含以下步骤:1.构建不同数据来源的基础语料库,获取每一个关键词在基础语料库中在对应的所有学科分类号下出现次数、最大次数及概率;2.根据待标引的文献选取相应的基础语料库,预处理待标引文献的关键词,通过对比待标引文献的关键词与基础语料库关键词,对命中的参数依据多因子混合排序机制测算分值并降序排列;3.基于权威文献分类法设计学科滤镜,并通过学科滤镜对步骤2中降序排列的学科分类号进行筛选,缩小学科范围,输出指定Top N个学科分类号;4.将输出的关键词及学科分类号入库基础语料库,进行合并或者修订,提升基础语料库规模和质量。

    一种优异多效基因的挖掘方法、装置、设备及介质

    公开(公告)号:CN117116355B

    公开(公告)日:2024-02-20

    申请号:CN202311109290.9

    申请日:2023-08-30

    Abstract: 本发明涉及基因挖掘技术领域,公开了一种优异多效基因的挖掘方法、装置、设备及介质,包括:选取实体类并确定对应的数据属性及对象属性,来构建性状调控基因本体模型;从多源数据库中抽取各类实体及其之间的关系来构建三元组,并通过多源知识融合来生成性状调控基因知识图谱;基于不同实体之间的连接关系构建性状调控基因预测模型;基于预测模型计算未知性状基因与不同已知性状基因之间的相似度,若相似度超过预设阈值则预测未知性状基因与已知性状基因调控相同的性状,当预测的性状超过预设个数则未知性状基因为优异多效基因。本发明能够提高知识发现结果的可解释性,增加生物学意义上的特征考虑,进而提高优异多效基因挖掘的可靠性与准确率。

    一种基于多因子混合排序机制的学科分类自动标引方法

    公开(公告)号:CN110990376B

    公开(公告)日:2023-05-09

    申请号:CN201911140195.9

    申请日:2019-11-20

    Abstract: 本发明提出一种基于多因子混合排序机制的学科分类自动标引方法,其特征在于:包含以下步骤:1.构建不同数据来源的基础语料库,获取每一个关键词在基础语料库中在对应的所有学科分类号下出现次数、最大次数及概率;2.根据待标引的文献选取相应的基础语料库,预处理待标引文献的关键词,通过对比待标引文献的关键词与基础语料库关键词,对命中的参数依据多因子混合排序机制测算分值并降序排列;3.基于权威文献分类法设计学科滤镜,并通过学科滤镜对步骤2中降序排列的学科分类号进行筛选,缩小学科范围,输出指定Top N个学科分类号;4.将输出的关键词及学科分类号入库基础语料库,进行合并或者修订,提升基础语料库规模和质量。

    一种基于知识图谱的档案管理模型构建方法及系统

    公开(公告)号:CN111737471A

    公开(公告)日:2020-10-02

    申请号:CN202010600107.5

    申请日:2020-06-28

    Abstract: 本发明公开了一种基于知识图谱的档案管理模型构建方法及系统,方法包括:获取计算机可读格式的档案文本,识别档案文本中最小的知识单元,基于各个最小的知识单元的相关关系,形成各知识单元间的语义联系;基于各知识单元间的语义联系,通过知识图谱建立动态档案多维度关联模型;根据动态档案多维度关联模型,通过编辑工具、建模语言建立计算机可识别的档案知识图谱语义模型,利用档案知识对齐、知识消歧对档案自身知识进行知识融合,并与档案知识组织模型互相映射,通过知识推理过程对语义关联进行知识更新与替代。本发明提出了通过识别最小的知识单元识别、建立多维度关联模型及知识融合技术,提高档案语义关联度与利用率。

Patent Agency Ranking