-
公开(公告)号:CN117637028A
公开(公告)日:2024-03-01
申请号:CN202311604097.2
申请日:2023-11-28
Applicant: 之江实验室
Abstract: 本发明公开了一种结合转录组和重测序数据获取直系同源基因的方法,通过采用C语言编写的算法与数据处理流程,结合来自重测序数据的基因组的DNA序列信息和来自转录组数据的基因的表达信息,以更准确、高效地鉴定SOGs。包括:对转录组原始数据进行组装,查找SOGs并比对到参考基因组,由此得到SOGs在基因组上的具体位置;对重测序数据进行遗传变异位点检测,得到包含所有位点信息的VCF文件;利用本发明工具FindSOG,根据SOGs的位置信息和VCF文件提取出重测序数据中的SOGs序列,将来自转录组和重测序数据的SOGs进行比对,得到的序列矩阵可用于后续进化分析。本发明整合了两种不同类型的数据集,能够更全面的提供更多物种的遗传信息,可在生物信息学研究领域得到广泛应用。
-
公开(公告)号:CN118116491A
公开(公告)日:2024-05-31
申请号:CN202410297931.6
申请日:2024-03-15
Applicant: 之江实验室
IPC: G16C20/10 , G16C20/70 , G06N3/042 , G06N3/0895
Abstract: 本发明公开了一种基于大型语言模型的化学反应产率预测方法及装置,利用大型语言模型从文献数据库中收集并参考类似的化学反应,来预测和优化新的化学反应的产率,旨在弥合现有产率预测模型与经验丰富的化学家之间的差距。通过用大语言模型生成代码来访问PubChem和Sci‑Finder等化学数据库,该人工智能助手可以像化学家一样访问最新且实时更新的文献数据,从而提高现有产率预测算法泛化能力以及实时知识获取能力。
-
公开(公告)号:CN118298923A
公开(公告)日:2024-07-05
申请号:CN202410285240.4
申请日:2024-03-13
Applicant: 之江实验室
IPC: G16B35/20 , G16B15/20 , G16B40/00 , G16C20/40 , G16C20/70 , G06F18/214 , G06N3/045 , G06N3/0455 , G06N3/096
Abstract: 本发明公开了一种基于预训练蛋白质大语言模型的功能蛋白生成与筛选方法;包括:首先,预训练蛋白质大语言模型;构建多功能蛋白质训练数据集,将多功能蛋白质训练数据集用于对预训练过的蛋白质大语言模型进行微调,生成蛋白质序列样本;其次,通过机器学习算法为主的搜索方法对生成的蛋白质序列样本进行筛选,得到筛选样本;最后,对筛选样本做后处理筛选与生物信息学分析,筛选出候选特定功能蛋白质序列,将其作为生物合成和功能验证的特定功能蛋白质样本。通过本发明的建立的功能蛋白生成与筛选的深度学习框架,将会在小数据量、小参数量的条件下,实现应用中可行的可解释性功能蛋白质生成,进一步实现了深度学习蛋白对的生成效率与创新。
-
公开(公告)号:CN117726974A
公开(公告)日:2024-03-19
申请号:CN202311741404.1
申请日:2023-12-18
Applicant: 之江实验室
IPC: G06V20/40 , G06V10/774 , G06V10/766 , G06V10/26 , G06V10/764
Abstract: 本发明公开了一种虫体活力评估方法及装置,采用SAM‑Track方法对短视频中的虫体进行实例分割和跟踪,得到准确的去除背景只包含虫体的视频,然后借助对预训练的VideoMAE模型进行回归训练,利用VideoMAE强大的时空特征提取能力,自动提取视频中表征虫体活力的特征,实现端到端的吡喹酮浓度预测,最后通过sigmoid映射实现对视频虫体活力的自动评估。实现了基于短视频的血吸虫活力量化评估方法,该方法可用于筛选非常大的抗血吸虫化合物集合,并且原理适用于其他寄生虫。
-
公开(公告)号:CN117594156A
公开(公告)日:2024-02-23
申请号:CN202311496788.5
申请日:2023-11-10
Applicant: 之江实验室
IPC: G16C20/50 , G16C20/70 , G06F16/901 , G06F16/903 , G06F17/18
Abstract: 本发明公开了一种基于蒙特卡洛树搜索的多目标分子生成方法和装置,属于基于靶点的分子生成领域,包括:基于已知的蛋白质序列和分子碎片,以及用户多目标属性需求,本发明采用构建蒙特卡洛树的方式,依次将满足用户需求且亲和力强的原子符号拼接到分子碎片之后,最后得到的完整的分子再通过化学工具分析属性,得到分子的评估值,其中包含了用户对于分子的多目标属性的需求,再将构建起来的非支配的分子加入全局帕累托集合中,用于构建用户需要的分子。本发明采用蒙特卡洛树搜索算法,同时提出多目标选择标准,实现了用户指定的多目标属性的分子生成,具有简单易行、快速有效且搜索效率高的优势。
-
公开(公告)号:CN118888046A
公开(公告)日:2024-11-01
申请号:CN202410915423.X
申请日:2024-07-09
Applicant: 之江实验室
Abstract: 本发明公开了一种基于大型语言模型的化学文献解析和反应信息提取方法和装置,对化学文献进行收集并经过OCR和筛选处理,得到处理后的化学文献数据集;对处理后的化学文献数据集进行信息提取,得到反应信息提取集合。相比于传统的常规工具包或成熟软件,本发明可适用于风格迥异的各类学术期刊,而传统的软件只能适用于专利文献或格式比较单一的某一类文献;因此本发明相比现有技术具有更好的普适性。本发明的针对性更强且在面对复杂问题时性能效果更加优良。本发明与传统上通过人工收集提取化学数据的方式相比,效率更高、成本更低且综合性能更加稳定。
-
公开(公告)号:CN117727365A
公开(公告)日:2024-03-19
申请号:CN202311710888.3
申请日:2023-12-13
Applicant: 之江实验室
Abstract: 本发明公开了一种基于多模态预训练大模型的蛋白质逆向折叠方法、设备,该方法包括:收集蛋白质结构和蛋白质序列配对数据进行预处理,构建训练集、验证集和测试集;基于蛋白质结构,通过预训练好的蛋白质结构编码器获取蛋白质的结构表征;通过蛋白质结构适配器将蛋白质的结构表征转换为序列生成的结构指导;运用自回归方法预训练蛋白质大语言模型,将序列生成的结构指导与蛋白质语言起始符进行拼接后输入到预训练好的蛋白质大语言模型中生成与蛋白质结构配对的蛋白质序列;使用评估指标对生成的蛋白质序列进行评估。本发明即使在训练数据较少的情况下也能够有较高的生成准确度,有利于提高逆向折叠的准确度与生成序列的广泛性与创新性。
-
-
-
-
-
-