同源建模-分子对接-虚拟筛选-分子动力学-机器学习与深度学习化合物药物筛选毒性预测

CADD(Computer Aided Drug Design):计算机辅助药物设计,依据生物化学、酶学、分子生物学以及遗传学等生命科学的研究成果,针对这些基础研究中所揭示的包括酶、受体、离子通道及核酸等潜在的药物设计靶点,并参考其它类源性配体或天然产物的化学结构特征,以计算机化学为基础,通过计算机的模拟、计算和预算药物与受体生物大分子之间的相互作用,考察药物与靶点的结构互补、性质互补等,设计出合理的药物分子。它是设计和优化先导化合物的方法,CADD的应用,包括基于结构的药物设计(SBDD)、基于配体的药物设计(LBDD)、高通量虚拟筛选(HTVS)等技术,突破了传统的先导物发现模式,极大地促进了先导化合物发现和优化。特别是在食品、生物、化学、医药、植物、疾病方面应用广泛!靶点的发现与确证是现代新药研发的第一步,也是新药创制过程中的瓶颈之一。CADD的应用可以加快靶点发现的速度,提高靶点发现的准确度,从而推进新药研发。
AIDD(AI Drug Discovery & Design):是近年来非常火热的技术应用,且已经介入到新药设计到研发的大部分环节当中,为新药发现与开发带来了极大的助力。随着医药大数据的积累和人工智能技术的发展,运用AI技术并结合大数据的精准药物设计也不断推动着创新药物的发展。在新型冠状病毒的治疗方案中,通过一系列计算机辅助药物生物计算的方法发现一大类药物分子可以有效阻止新冠病毒的侵染,为治疗新冠提供了新思路。倾向于机器对数据库信息的自我学习,可以对数据进行提取和学习,一定程度上避免了化合物设计过程中的试错路径,同时还会带来很多全新的结构,为药物发现打破常规的结构壁垒。
深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现,近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology 等知名国际顶刊上,为我们发表顶刊鉴定了基础。
细胞生物学的相关研究一直受限于数据的完整性和表型的完整性,对应激状态和稳态下的细胞区别观察不够充分。过去五年中,计算机视觉和语音识别领域通过对大量的无标签数据进行学习、建模,很好的解决了数据不足的问题。同样在最近的研究中,机器学习方法使用单细胞数据进行扰动建模也推动了细胞生物领域前进。对于生物学家来讲,无论研究基因、转录本、修饰、蛋白功能,都要频繁的进行人为干预,实现对感兴趣变量的正向或者反向改变,观察细胞表型的变化。整个过程需要对干预工具的构建、导入、实验观察,从而得出表型结论。扰动建模的目的就是想要通过数学模型的建立,通过对已有数据的分析、归纳和总结,对一个分子的功能在没有湿实验时做出预判,对于生物学家和药物研发者来讲,好的模型一定能够帮助加深对生物机制的理解,推动药物的研发进程
一:CADD计算机辅助药物设计
第一天上午背景与理论知识以及工具准备
1.PDB数据库的介绍和使用1.1数据库简介1.2靶点蛋白的结构查询与选取1.3靶点蛋白的结构序列下载1.4靶点蛋白的下载与预处理1.5批量下载蛋白晶体结构2.Pymol的介绍与使用2.1软件基本操作及基本知识介绍2.2蛋白质-配体相互作用图解2.3蛋白-配体小分子表面图、静电势表示2.4蛋白-配体结构叠加与比对2.5绘制相互作用力3.notepad的介绍和使用3.1 优势及主要功能介绍3.2 界面和基本操作介绍3.3插件安装使用
下午一般的蛋白-配体分子对接讲解
对接的相关理论介绍1.1分子对接的概念及基本原理1.2分子对接的基本方法1.3分子对接的常用软件1.4分子对接的一般流程2.常规的蛋白-配体对接2.1收集受体与配体分子2.2复合体预构象的处理2.3准备受体、配体分子2.4蛋白-配体对接2.5对接结果的分析以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
第二天虚拟筛选1.小分子数据库的介绍与下载2.相关程序的介绍2.1 openbabel的介绍和使用2.2 chemdraw的介绍与使用3.虚拟筛选的前处理4.虚拟筛选的流程及实战演示案例:筛选新冠病毒主蛋白酶抑制剂5.结果分析与作图6.药物ADME预测6.1ADME概念介绍6.2预测相关网站及软件介绍6.3预测结果的分析
第三天拓展对接的使用方法1.蛋白-蛋白对接1.1蛋白-蛋白对接的应用场景1.2相关程序的介绍1.3目标蛋白的收集以及预处理1.4使用算例进行运算1.5关键残基的预设1.6结果的获取与文件类型1.7结果的分析以目前火热的靶点PD-1/PD-L1等为例。2.涉及金属酶蛋白的对接2.1 金属酶蛋白-配体的背景介绍2.2蛋白与配体分子的收集与预处理2.3金属离子的处理2.4金属辅酶蛋白-配体的对接2.5结果分析以人类法尼基转移酶及其抑制剂为例3.蛋白-多糖分子对接4.1蛋白-多糖相互作用4.2对接处理的要点4.3蛋白-多糖分子对接的流程4.4蛋白-多糖分子对接4.5相关结果分析以α-糖苷转移酶和多糖分子对接为例5.核酸-小分子对接5.1核酸-小分子的应用现状5.2相关的程序介绍5.3核酸-小分子的结合种类5.4核酸-小分子对接5.5相关结果的分析以人端粒g -四链和配体分子对接为例。操作流程介绍及实战演示
第四天拓展对接的使用方法1.柔性对接1.1柔性对接的使用场景介绍1.2柔性对接的优势1.3蛋白-配体的柔性对接重点:柔性残基的设置方法1.4相关结果的分析以周期蛋白依赖性激酶2(CDK2)与配体1CK为例2.共价对接2.1两种共价对接方法的介绍2.1.1柔性侧链法2.1.2两点吸引子法2.2蛋白和配体的收集以及预处理2.3共价药物分子与靶蛋白的共价对接2.4结果的对比以目前火热的新冠共价药物为例。3.蛋白-水合对接3.1水合作用在蛋白-配体相互作用中的意义及方法介绍3.2蛋白和配体的收集以及预处理3.3对接相关参数的准备重点:水分子的加入和处理3.4蛋白-水分子-配体对接3.5结果分析以乙酰胆碱结合蛋白(AChBP)与尼古丁复合物为例
第五天分子动力学模拟(linux与gromacs使用安装)1. linux系统的介绍和简单使用1.1 linux常用命令行1.2 linux上的常用程序安装1.3 体验:如何在linux上进行虚拟筛选2.分子动力学的理论介绍2.1分子动力学模拟的原理2.2分子动力学模拟的方法及相关程序2.3相关力场的介绍3.gromacs使用及介绍重点:主要命令及参数的介绍4.origin介绍及使用
第六天溶剂化分子动力学模拟的执行1.一般的溶剂化蛋白的处理流程2.蛋白晶体的准备3.结构的能量最小化4.对体系的预平衡5.无限制的分子动力学模拟6.分子动力学结果展示与解读以水中的溶菌酶为例第
七天蛋白-配体分子动力学模拟的执行1.蛋白-配体在分子动力学模拟的处理流程2.蛋白晶体的准备3.蛋白-配体模拟初始构象的准备4.配体分子力场拓扑文件的准备4.1 高斯的简要介绍4.2 ambertool的简要介绍4.3生成小分子的力场参数文件5.对复合物体系温度和压力分别限制的预平衡6.无限制的分子动力学模拟7.分子动力学结果展示与解读8.轨迹后处理及分析以新冠病毒蛋白主蛋白酶靶点及相关抑制剂为例
二:AIDD人工智能药物发现与设计
(第一天)人工智能与药物发现 用工具的介绍与安装从CADD到AIDD的介绍1.计算机辅助药物设计(CADD)简介1.2.分子对接与分子动力学背景介绍1.3.人工智能药物发现(AIDD)简介2.机器学习与深度学习在药物发现中的背景介绍2.1药物发现与设计2.2基于结构的药物发现与设计2.3基于配体的药物发现与设计3.1Anaconda3/Pycharm安装3.2python 编程基础3.3Pandas基础3.4NumPy基础3.5RDKit基础3.6Pytorch基础3.7Tensorflow基础3.8DeepChem基础
(第二天)基于配体结构的药物发现——分类任务1.分类模型的构建与应用1.1逻辑回归算法原理1.2朴素贝叶斯算法原理1.3k最近邻算法原理1.4支持向量机算法原理1.5随机森林算法原理1.6梯度提升算法原理1.7多层感知机算法原理1.8特征工程1.9缺失值填补2.特征归一化2.1变量筛选2.2模型评估方法2.3交叉验证2.4外部验证3.分类模型的常用评价指标3.1混淆矩阵3.2准确率3.3敏感性3.4特异性3.5模型选择3.6格点搜索超参数调优3.7k折交叉验证分类模型的实例讲解与练习,以给定数据集为例,讲解基于以上机器学习算法的生物活性或ADMET性质预测模型。引导学员构建自己的数据模型,并用于小分子化合物的活性或ADMET性质预测。
(第三天)基于配体结构的药物发现——回归任务1.随机森林回归2.支持向量机回归3.XGboost回归4.多层感知机回归–神经网络回归5.神经网络回归6.回归模型的常用评价指标6.1MSE6.2RMSE6.3MAE6.4R2QSAR/3D-QSAR模型以给定数据集为例,讲解基于上述几种机器学习算法构建生物活性如pIC50或ADMET性质预测模型。
(第四天)深度学习与药物发现1.深度学习的发展历程与在药物开发中的应用1.1多层感知机/人工神经网络1.2基于梯度的学习1.3反向传播算法1.4随机梯度下降1.5卷积神经网络介绍1.6图神经网络介绍基于PyTorch的多层感知机算法的实例讲解与练习以给定数据集为例,讲解基于多层感知机的化合物性质预测模型。以给定数据集为例,讲解基于卷积神经网络的化合物图像预测分类模型。以给定数据集为例,讲解基于图神经网络对化合物的毒性分类预测模型。
(第五天)分子生成模型1.生成式对抗网络(GANs)的基本原理1.2生成器1.3判别器1.4循环神经网络(RNN)1.5长短期记忆网络(LSTM)2.基于上下文的循环神经网络序列建模3.基于字符串的小分子化合物生成模型4.基于图数据的小分子化合物生成模型实例讲解与练习,以给定数据集为例,构建分子生成模型。
赠送视频:深度学习AiphaFold2蛋白质结构预测实例讲解(以下内容为赠送的视频教程)蛋白质结构与功能的概述。蛋白质的组成蛋白质的结构蛋白质的功能常见蛋白质结构预测的网站及方法。常用蛋白质结构预测的相关网站及软件常用网站及软件的使用方法及说明机器学习在蛋白质结构预测的应用。蛋白质结构与小分子药物库获取机器学习加速预测小分子药物AlphaFold2机器学习模型对蛋白结构预测实战蛋白结构预测目前最好的人工智能模型AlphaFold2。AlphaFold2模型的获取及安装AlphaFold2相关数据的获取AlphaFold2模型的实战操作
三: 深度学习在基因组学应用
第一天深度学习算法介绍理论内容:1.有监督学习的神经网络算法1.1全连接深度神经网络DNN在基因组学中的应用举例1.2卷积神经网络CNN在基因组学中的应用举例1.3循环神经网络RNN在基因组学中的应用举例1.4图卷积神经网络GCN在基因组学中的应用举例2.无监督的神经网络算法2.1自动编码器AE在基因组学中的应用举例2.2生成对抗网络GAN在基因组学中的应用举例实操内容1.Linux操作系统1.1常用的Linux命令1.2 Vim编辑器1.3基因组数据文件管理, 修改文件权限1.4查看探索基因组区域2.Python语言基础2.1.Python包安装和环境搭建2.2.常见的数据结构和数据类型
第二天基因组学基础理论内容1. 基因组数据库2. 表观基因组3. 转录基因组4. 蛋白质组5. 功能基因组实操内容基因组常用深度学习框架1. 安装并介绍深度学习工具包tensorflow, keras,pytorch 2. 在工具包中识别深度学习模型要素2.1.数据表示2.2.张量运算2.3.神经网络中的“层”2.4.由层构成的模型2.5.损失函数与优化器2.6.数据集分割2.7.过拟合与欠拟合3.基因组数据处理3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等3.2使用keras_dna设计深度学习模型3.3使用keras_dna分割训练集、测试集3.4使用keras_dna选取特定染色体的基因序列等4.深度神经网络DNN在识别基序特征中应用4.1实现单层单过滤器DNN识别基序4.2实现多层单过滤器DNN识别基序4.3实现多层多过滤器DNN识别基序
第三天卷积神经网络CNN在基因调控预测中的应用理论内容1. Chip-Seq中识别基序特征G4,如DeepG42. Chip-Seq中预测DNA甲基化,DeepSEA3. Chip-Seq中预测转录调控因子结合,DeepSEA4. DNase-seq中预测染色体亲和性,Basset5. DNase-seq中预测基因表达eQTL,Enformer实操内容复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL1. 复现DeepG4从Chip-Seq中识别G4特征2. 安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变3. 复现Basset,从Chip-Seq中预测染色体亲和性4. 复现Enformer,从Chip-Seq中预测基因表达eQT
第四天深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用理论内容1. SNP微阵列中预测拷贝数变异CNV,DeepCNV2. RNA-Seq中预测premiRNA,dnnMiRPre3. 从蛋白序列中预测调控因子蛋白质,DeepFactor实操内容1. 复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异2. 复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA 3. 复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质
第五天深度学习在识别及疾病表型及生物标志物上的应用理论内容1. 从基因表达数据中识别乳腺癌分型的深度学习工具DeepType2. 从高维多组学数据中识别疾病表型,XOmiVAE3. 基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE实操内容1. 复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型2. 复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型3. 复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因
第六天深度学习在预测药物反应机制上的应用理论部分1. 联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet实操内容1. 预处理药物分子结构信息2. 计算药物相似性3. 在不同数据集上构建self-attention SWnet4. 评估self-attention SWnet5. 构建多任务的SWnet6. 构建单层SWnet7. 构建带权值层的SWnet
四:机器学习单细胞分析应用
第一天理论内容:1.单细胞测序原理2.单细胞测序基础3.单细胞测序方法及数据4.单细胞数据分析流程实操内容1.R语言基础2.R(4.1.3)和Rstudio的安装3.R包安装和环境搭建4.数据结构和数据类型5.R语言基本函数6.数据下载7.数据读入与输出
第二天理论内容1.机器学习概述2.线性模型3.决策树4.支持向量机5.集成学习6.模型选择与性能优化实操内容1.决策树算法实现2.随机森林算法实现3.支持向量机(SVM)算法实现4.朴素贝叶斯算法实现5.Xgboost算法实现6.主成分分析PCA算法实现7.聚类算法实现8.DBSCAN算法实现9.层次聚类算法实现
第三天理论内容1.多组学基础2.常用生物组学实验与分析方法3.常用组学数据库介绍4.批量处理组学数据5.生物功能分析6.基于转录组学的差异基因筛选,疾病预测7.基于差异基因联合多组学分析疾病发生机制8.组学数据可视化实操内容1.多组学基础2.常用生物组学实验与分析方法3.常用组学数据库介绍4.批量处理组学数据5.生物功能分析6.基于转录组学的差异基因筛选,疾病预测7.基于差异基因联合多组学分析疾病发生机制8.组学数据可视化
第四天理论内容1.单细胞分析中的常见机器学习方法2.降维聚类的机器学习算法3.分群注释的机器学习算法4.单细胞分析中常见的深度学习方法5.降维聚类的深度学习算法6.分群注释的深度学习算法实操内容1.Python语言基础2.python安装与开发环境的搭建3.基本数据类型组合数据类型4.分析环境搭建5.Jupyter notebook的使用6.函数、列表、元组、字典、集合7.控制结构、循环结构8.Numpy模块 ——矩阵的科学计算9.Matplotlib模块——数据处理与绘图10.Pandas模块——csv数据处理与分析11.Sklearn模块——机器学习模型基础软件包调用
第五天理论部分1.机器学习在单细胞分析中的应用2.收集数据3.数据准备4.选择一个模型5. 模型训练6.模型评估7.参数调整8.模型预测实操内容1.创建Seurat对象2.数据质控3.测序深度差异及标准化4. 单细胞数据降维5.批次效应去除6.数据整合7.亚群注释8.GSVA通路活性分析9.单细胞富集分析
第六天理论部分1.深度学习在单细胞分析中的应用2.卷积神经网络基本构成3.卷积核4.循环神经网络基本构成5.循环核6.图神经网络基本构成实操内容1.卷积神经网络在单细胞分析的算法实现2.循环神经网络在单细胞分析的算法实现3.图神经网络在单细胞中分析的算法实现4.单细胞数据的自动注释5.单细胞数据分析聚类与批量效应6.单细胞测序数据进行聚类7.加权图神经网络的细胞类型注释方法8.单细胞表达数据中深度学习基因关系