一种基于文本隐含信息的药物靶标特征学习方法及装置

    公开(公告)号:CN112086133A

    公开(公告)日:2020-12-15

    申请号:CN202010855148.9

    申请日:2020-08-24

    Abstract: 本发明提供一种基于文本隐含信息的药物靶标特征学习方法,所述方法包括步骤:获取药物靶标多个文本关键描述信息以及文献的摘要信息;使用向量计算工具Word2vec和Doc2vec将药物靶标的多个文本关键描述信息转化为多个向量;采用多示例学习算法将多个向量进行单示例化,得到药物靶标的特征表示向量。本发明针对大量的文本信息,运用向量工具挖掘大量文献中隐含的信息并表示为特征向量,训练过程中利用了关键信息的上下文,丰富了语义信息,提高了样本特征提取的准确度;将文本信息转化为向量,运用机器学习的知识,可以用来确定新的药物靶标应于新药的开发,还可以用来预测靶标分子的生物学功能,预测与配体药物的结合,可以用来寻找相似的靶标分子。

Patent Agency Ranking