人工智能这么火,与组学都在那些结合!最新推送:机器学习代谢组学、机器学习蛋白质组
如果您在从事生物医学方面的研究,并且有发顶刊的想法,下面这篇内容会给你思路和方法
四大专题内容
专题一:机器学习在蛋白质组学实践应用专题
专题二:机器学习在代谢组学实践应用专题
专题三:深度学习在基因组学实践应用专题
专题四:机器学习在微生物组学时间应用专题
内容一:机器学习在蛋白质组学实践应用
1.人工智能早已在生物医学领域被广泛应用。在蛋白质组领域,人工智能也逐渐渗透到了蛋白质组的基础鉴定、定量技术,以及质谱信息和临床研究相结合的数据挖掘中。
2.蛋白质组学+AI,会不会是下一个研究焦点?
答案是:会是的!
3.医学TOP期刊Nature Medicine(影响因子: 87.241)
JACC杂志上(IF 24.094).......
能够快速运用到自己的科研项目和课题上,助力学员发表Nature、Science、Cell等正刊及子刊!(在新技术加持下,用更少的经费,发更高质量的文章。
一:机器学习在蛋白质组学实践应用专题
第一天
机器学习及蛋白组学简介
1.机器学习基本概念介绍
2.常用机器学习模型介绍
3.混淆矩阵
4.ROC曲线
5.主成分分析(PCA)
6.蛋白组学基本概念
R语言简介及实操
1.R语言概述
2.R软件及R包安装
3.R语言语法及数据类型
4.条件语句
5.循环
6.函数
7.常用的机器学习相关R包介绍
第二天
机器学习在蛋白组学数据分析中的应用案例分享
1.利用机器学习鉴定疾病相关蛋白标志物
2.利用机器学习基于蛋白组学数据预测表型
3.利用机器学习基于蛋白组学数据进行分类
4.利用机器学习基于蛋白组学数据构建预后模型
蛋白组学相关数据库介绍
1.Uniport
2.HPA
3.TCPA
4.CPTAC
第三天(实操)
零代码工具利用机器学习分析蛋白组学数据
利用PLOS Computational Biology(IF:5分)发表零代码工具,轻松完成差异表达分析,常见统计分析,常见可视化,内置7种机器学习方法,轻松调用。
1.数据导入(两套数据,二分类,多分类)
2.数据可视化(散点图,热图,柱形图,相关性热图,火山图,层次聚类图)
3.缺失值填充
4.数据归一化
5.离群值检测/清理
6.常见统计方法应用(t-test, limma, Kruskal-Wallis ,ANOVA, PCA, k-means, 相关性分析)
7.机器学习方法应用(RF, lasso, SVM等)
第四天(实操)
利用机器学习基于蛋白组学数据预测表型,基于蛋白组学数据复现cell中机器学习分析结果
实操内容
1.蛋白组学数据处理,差异表达分析
2.火山图,多分组热图,多组箱型图展示差异表达分析结果
3.构建Random Forest模型
4.重要蛋白筛选
5.绘制ROC曲线
6.独立测试集检测模型表现
利用机器学习鉴定疾病相关蛋白标志物,基于Olink数据,复现影响因子17分文章中,蛋白数据常规分析+时序蛋白聚类分析+机器学习分析结果
实操内容
1.读取蛋白表达数据
2.差异蛋白挑选,火山图绘制,箱型图绘制
3.时序蛋白表达数据聚类分析
4.构建随机森林模型
5.挑选重要特征
6.独立测试集进行验证
第五天(实操)
利用机器学习基于质谱的蛋白质组学数据,构建肝病相关分类和预后模型,复现Nature Medicine文章中的机器学习,生存分析,预后模型相关的结果。
实操内容
1.鉴定与不同肝病显著相关的蛋白
2.比较22种不同的机器学习分类器,挑选最优算法构建不同肝病的分类模型
3.独立队列验证模型准确性
4.构建预后模型
绘制生存曲线和时间依赖的ROC曲线
机器学习模型构建,特征筛选,模型评估(ROC曲线)图
蛋白差异表达分析火山图
二:机器学习在代谢组学实践应用
代谢组学是通过比较对照组和实验组,以寻找代谢谱差异的研究方法,近年来,代谢组学在疾病诊断,病理研究,新药开发,药物毒理学,动植物、微生物,营养学等医学与人类健康和疾病密切相关的领域有着广泛的应用,在复杂数据中,人工智能算法用于生物标志物挖掘的组合是解决问题和实施健康科学新技术的常用方法。利用机器学习作为从质谱数据中识别疾病的手段,旨在开发诊断和预后生物标志物、治疗靶点和患者管理系统。
机器学习代谢组学主讲来自985高校神经科学博士,主要利用代谢组学、转录组学和分子生物学等技术研究神经内科慢性病的发病机制和生物标志物。擅长高效液相色谱-质谱联用(LC-MS)技术进行非靶向和靶向代谢组学从样本制备到数据分析的全流程研究,以及多组学大数据的生物信息学整合分析。5年内在J Clin Invest, EBioMedicine, Cell Death Dis, Cell Death Discov, Nanotoxicology等杂志发表SCI论文10篇。
二:机器学习在代谢组学实践应用专题
第一天上午:
A1 代谢物及代谢组学的发展与应用
(1) 代谢生理功能;
(2) 代谢疾病;
(3) 非靶向与靶向代谢组学;
(4) 空间代谢组学与质谱成像 (MSI) ;
(5) 代谢流与机制研究;
(6) 代谢组学与药物和生物标志物。
A2 代谢组学实验流程简介
第一天下午:
A3 色谱 、质谱硬件原理
(1) 色谱分析原理;
(2) 色谱的气相、液相和固相;
(3) 色谱仪和色谱柱的选择;
(4) 质谱分析原理及动画演示;
(5) 正 、负离子电离模式;
(6) 色谱质谱联用技术;
(7) LC-MS 的液相系统
A4 代谢通路及代谢数据库
(1) 几种经典代谢通路简介;
(2) 能量代谢通路;
(3) 三大常见代谢物库: HMDB 、METLIN 和 KEGG;
(4) 代谢组学原始数据库: Metabolomics Workbench 和 Metabolights.
第二天上午:
B1 代谢物样本处理与抽提
(1) 组织 、血液和体液样本的提取流程与注意事项;
(2) 用 ACN 抽提代谢物的流程与注意事项;
(3) 样本及代谢物的运输与保存问题;
B2 LC-MS 数据质控与搜库
(1) LC-MS 实验过程中QC 样本的设置方法;
(2) LC-MS 上机过程的数据质控监测和分析;
(3) XCMS 软件数据转换与提峰;
第二天下午:
B3 R 软件基础
(1) R 和 Rstudio 的安装;
(2) Rstudio 的界面配置;
(3) R 的基本数据结构和语法;
(4) 下载与加载包;
(5) 函数调用和 debug;
B4 ggplot2
(1) 安装并使用 ggplot2
(2) ggplot2 的画图哲学;
(3) ggplot2 的配色系统;
(4) ggplot2 画组合图和火山图;
第三天上午: 机器学习
C1 无监督式机器学习在代谢组学数据处理中的应用
(1) 大数据处理中的降维;
(2) PCA 分析作图;
(3) 三种常见的聚类分析:K-means 、层次分析与 SOM
(4) 热图和 hcluster 图的 R 语言实现;
C2 一组代谢组学数据的降维与聚类分析的 R 演练
(1) 数据解析;
(2) 演练与操作;
第三天下午:
C3 有监督式机器学习在代谢组学数据处理中的应用
(1) 数据用 PCA 降维处理后仍然无法找到差异怎么办?
(2) PLS-DA 找出最可能影响差异的代谢物;
(3) VIP score 和 coef 的意义及选择;
(4) 分类算法:支持向量机,随机森林
C4 一组代谢组学数据的分类算法实现的 R 演练
(1) 数据解读;
(2) 演练与操作;
第四天上午:
D1 代谢组学数据清洗与 R 语言进阶
(1) 代谢组学中的 t 、fold-change 和响应值;
(2) 数据清洗流程;
(3) R 语言 tidyverse
(4) R 语言正则表达式;
(5) 代谢组学数据过滤;
(6) 代谢组学数据 Scaling 原理与 R 实现;
(7) 代谢组学数据的 Normalization;
(8) 代谢组学数据清洗演练;
第四天下午:
D2 在线代谢组分析网页 Metaboanalyst 操作
(1) 用 R 将数据清洗成网页需要的格式;
(2) 独立组、配对组和多组的数据格式问题;
(3) Metaboanalyst 的 pipeline 和注意事项;
(4) Metaboanalyst 的结果查看和导出;
(5) Metaboanalyst 的数据编辑;
(6) 全流程演练与操作。
第五天上午:
E1 机器学习与代谢组学顶刊解读 (2-3 篇) ;
(1) Nature Communication 一篇代谢组学小鼠脑组织样本 database 类型的文献;
(2) Cell 一篇代谢组学患者血液样本的机器学习与疾病判断的文献;
(3) 1-2 篇代谢组学与转录组学和蛋白组学结合的文献。
第五天下午:
E2 文献数据分析部分复现 (1篇)
(1) 文献深度解读;
(2) 实操:从原始数据下载到图片复现;
(3) 学员实操。
三:机器学习在微生物组学实践应用
自然微生物综述( IF:31.851)于2018年在线发表了微生物组领域的研究方法综述,不仅系统总结了过去,更为未来3-5年内本领域研究方法的选择,提供了清晰的技术路线,让大家做出更好的研究,微生物组学研究主要涉及两方面技术:测序技术和数据分析技术,随着基因测序技术的进步和测序成本不断下降,大样本量的微生物组学研究激增。传统的统计方法已经不再适用于极度高维、稀疏的微生物组数据分析,而适用于复杂数据分析的机器学习逐渐成为微生物组学数据分析的首选方法。机器学习已被证明是分析微生物群落数据并对特定结果进行预测(包括人类和环境健康)的有效方法,基于微生物群落数据的机器学习已被成功用于预测人类健康中的疾病状态、环境质量和环境中污染的存在,并可以作为法医学中的微量证据。机器学习算法已经在肠道微生物、微生物组数组表型、环境微生物、微生物生态学、皮肤微生物、土壤微生物、植物微生物、人体微生物等领域应用广泛,通过查阅文献发现近几年机器学习在微生物组研究发刊分值都很高,特别是在Nature Communications、Advanced Materials(IF=30.849)、Water Research Nature Microbiology、Environment International 、Nature Methods、Cell Regeneration、JAIMS等期刊多次发表!
机器学习微生物组学与蛋白组学主讲来自国内高校李老师,有十余年的微生物组数据分析经验。研究领域涉及机器学习,芯片数据分析,微生物组数据分析,DNA,RNA,甲基化测序数据分析,单细胞测序数据分析,miRNA及靶基因分析等,发表SCI论文30余篇,其中一作及并列一作15篇
三:机器学习在微生物组学实践应用专题
第一天
机器学习及微生物学简介
1.机器学习基本概念介绍
2.常用机器学习模型介绍(GLM,BF,SVM,lasso,KNN等等)
3.混淆矩阵
4.ROC曲线
5.主成分分析(PCA)
6.微生物学基本概念
7.微生物学常用分析介绍
R语言简介及实操
1.R语言概述
2.R软件及R包安装
3.R语言语法及数据类型
4.条件语句
5.循环
6.函数
7.常用的机器学习和微生物数据相关的R包介绍
第二天
机器学习在微生物学中的应用案例分享
1.利用机器学习基于微生物组学数据预测宿主表型
2.利用机器学习基于微生物组学数据预测疾病状态
3.利用机器学习预测微生物风险
4.机器学习研究饮食对肠道微生物的影响
微生物学常用分析(实操)
1.微生物丰度分析
2.α-diversity,β-diversity分析
3.进化树构建
4.降维分析
5.基于OTU的差异表达分析,热图,箱型图绘制
6.微生物biomarker鉴定
第三天(实操)
零代码工具利用机器学习分析微生物组学数据
1.加载数据及数据归一化
2.构建训练模型(GLM, RF, SVM)
3.模型参数优化
4.模型错误率曲线绘制
5.混淆矩阵计算
6.重要特征筛选
7.模型验证,ROC曲线绘制
8.利用模型进行预测
第四天(实操)
利用机器学习基于微生物组学数据预测宿主表型(二分类变量以及连续变量)
1.加载数据(三套数据)
2.数据归一化
3.OUT特征处理
4.机器学习模型构建(RF, KNN, SVM, Lasso等9种机器学习方法)
5.5倍交叉验证
6.绘制ROC 曲线,比较不同机器学习模型
7.模型性能评估
第五天(实操)
利用机器学习预测微生物风险(多分类)
1.加载数据
2.机器学习模型构建(RF, gbm, SVM, LogitBoost等等)
3.10倍交叉验证
4.模型性能评估
利用机器学习预测刺激前后肠道菌群变化
1.数据加载及预处理
2.α-diversity,β-diversity分析
3.RF模型构建(比较分别基于OUT,KO,phylum的模型效果)
4.10倍交叉验证, 留一法验证
5.特征筛选及重要特征可视化
外部数据测试模型
四:深度学习在基因组学实践应用
深度学习已经被广泛应用于基因组学研究中,利用已知的训练集对数据的类型和应答结果进行预测,深度学习,可以进行预测和降维分析。深度学习模型的能力更强且更灵活,在适当的训练数据下,深度学习可以在较少人工参与的情况下自动学习特征和规律。调控基因组学,变异检测,致病性评分成功应用。深度学习可以提高基因组数据的可解释性,并将基因组数据转化为可操作的临床信息。深度学习通过强大的深度神经网络模型从高维大数据中自动挖掘数据潜在特征得以实现,过去10年,深度学习在计算机视觉、语音识别、自然语言处理领域取得了巨大成功。基因组学大数据与疾病表型间的复杂关系难以解析,运用深度学习挖掘多组学数据探索复杂疾病致病机制及药物反应机制将会极大的提升精准医学和转化医学的进度。,近两年国内外顶尖课题组MIT、Harvard University、UPenn、清华大学、复旦大学等都在从事深度学习基因组学的研究,这一研究成果更是多次发表在Nature Reviews Genetics、Nature Methods、Science Advances、Cancer Cell、Nature Biotechnology等知名国际顶刊上,为我们发表顶刊鉴定了基础。
生物信息学博士,有十余年的测序数据分析经验。研究领域涉及人工智能、自然语言处理、功能基因组学、转录组学、miRNA及靶基因网络分析,单细胞测序数据分析,基因调控网络时序分析,蛋白质互作网络分析,多组学联合分析等。主持省自然科学基金等项目4项,出版医学实用教材《Python医学实战分析》,发表SCI论文22篇,其中一作及并列一作9篇
四:深度学习在基因组学实践应用专题
第一天
理论部分
深度学习算法介绍
1.有监督学习的神经网络算法
1.1全连接深度神经网络DNN在基因组学中的应用举例
1.2卷积神经网络CNN在基因组学中的应用举例
1.3循环神经网络RNN在基因组学中的应用举例
1.4图卷积神经网络GCN在基因组学中的应用举例
2.无监督的神经网络算法
2.1自动编码器AE在基因组学中的应用举例
2.2生成对抗网络GAN在基因组学中的应用举例
实操内容
1.Linux操作系统
1.1常用的Linux命令
1.2 Vim编辑器
1.3基因组数据文件管理, 修改文件权限
1.4查看探索基因组区域
2.Python语言基础
2.1.Python包安装和环境搭建
2.2.常见的数据结构和数据类型
第二天
理论部分
基因组学基础
1.基因组数据库
2.表观基因组
3.转录基因组
4.蛋白质组
5.功能基因组
实操内容
基因组常用深度学习框架
1.安装并介绍深度学习工具包tensorflow, keras,pytorch
2.在工具包中识别深度学习模型要素
2.1.数据表示
2.2.张量运算
2.3.神经网络中的“层”
2.4.由层构成的模型
2.5.损失函数与优化器
2.6.数据集分割
2.7.过拟合与欠拟合
3.基因组数据处理
3.1安装并使用keras_dna处理各种基因序列数据如BED、 GFF、GTF、BIGWIG、BEDGRAPH、WIG等
3.2使用keras_dna设计深度学习模型
3.3使用keras_dna分割训练集、测试集
3.4使用keras_dna选取特定染色体的基因序列等
4.深度神经网络DNN在识别基序特征中应用
4.1实现单层单过滤器DNN识别基序
4.2实现多层单过滤器DNN识别基序
4.3实现多层多过滤器DNN识别基序
第三天
理论部分
卷积神经网络CNN在基因调控预测中的应用
1.Chip-Seq中识别基序特征G4,如DeepG4
2.Chip-Seq中预测DNA甲基化,DeepSEA
3.Chip-Seq中预测转录调控因子结合,DeepSEA
4.DNase-seq中预测染色体亲和性,Basset
5.DNase-seq中预测基因表达eQTL,Enformer
实操内容
复现卷积神经网络CNN识别基序特征DeepG4、非编码基因突变DeepSEA,预测染色体亲和性Basset,基因表达eQTL
1.复现DeepG4从Chip-Seq中识别G4特征
2.安装selene_sdk,复现DeepSEA从Chip-Seq中预测DNA甲基化,非编码基因突变
3.复现Basset,从Chip-Seq中预测染色体亲和性
4.复现Enformer,从Chip-Seq中预测基因表达eQTL
第四天
理论部分
深度学习在识别拷贝数变异DeepCNV、调控因子DeepFactor上的应用
1.SNP微阵列中预测拷贝数变异CNV,DeepCNV
2.RNA-Seq中预测premiRNA,dnnMiRPre
3.从蛋白序列中预测调控因子蛋白质,DeepFactor
实操内容
1.复现DeepCNV利用SNP微阵列联合图像分析识别拷贝数变异
2.复现循环神经网络RNN工具 dnnMiRPre,从RNA-Seq中预测premiRNA
3.复现DeepFactor,从蛋白序列中识别转录调控因子蛋白质
第五天
理论部分
深度学习在识别及疾病表型及生物标志物上的应用
1.从基因表达数据中识别乳腺癌分型的深度学习工具DeepType
2.从高维多组学数据中识别疾病表型,XOmiVAE
3.基因序列及蛋白质相互作用网络中识别关键基因的深度学习工具DeepHE
实操内容
1.复现DeepType,从METABRIC乳腺癌数据中区分乳腺癌亚型
2.复现XOmiVAE,从TCGA多维数据库中识别乳腺癌亚型
3.复现DeepHE利用基因序列及蛋白质相互作用网络识别关键基因
第六天
理论部分
深度学习在预测药物反应机制上的应用
1.联合肿瘤基因标记及药物分子结构预测药物反应机制的深度学习工具SWnet
实操内容
1.预处理药物分子结构信息
2.计算药物相似性
3.在不同数据集上构建self-attention SWnet
4.评估self-attention SWnet
5.构建多任务的SWnet
6.构建单层SWnet
7.构建带权值层的SWnet