网络药理学常见问题汇总——靶点、成分问题

1.请问大分子的多肽类药物可以做网药吗?
答:可以查阅文献看有无类似文章参考,现一般为小分子药物成分,像大分子在swisstargetprediction可能无法预测,不过也可通过查阅文献对相关靶点进行富集分析。大分子如蛋白-蛋白分子对接、多肽-蛋白分子对接、核酸-蛋白分子对接等大分子的分子对接,但是大分子涉及分子大,分子运动较小,比较符合硬性对接,且软件运算相较于小分子更大。
2.做出交集靶点后,怎么找交集靶点对应的有效成分,因为一个靶点可能对应几个成分,一个成分也可能对应几个靶点?
答:这样寻找有效成分的条件不够充分,可根据CytoCNA分析出成分与靶点的Degree值和靶点之间的Degree值等,选取排列靠前的核心靶点和核心成分进行分子对接等。也可以考虑作用疾病核心靶点、确证通路来进一步缩小有效成分的范围,分子对接加强可信度,最终实验来确认是否有效。从不同角度分析,采用方式不同。
3.使用tcmsp数据库和文献补充药物成分够了吗?
答:一般是可以的。但还是根据自己需求来,适当补充和加用其它数据库。
可以多个数据库取并集扩大化合物的数量,或者通过爬虫程序爬取文献中药物相关成分的信息,进行汇总。
4.swisstargetprediction数据库预测完活性成分的靶点后,需要按照gene_symbol进行去重么?
答:先保存好每个成分靶点的文件,不用去重。然后汇总成一个总文件之后,筛选得到score>0(大于零或零以上,根据自己需求调整)的成分靶点,再去重。
5.如果成分没有Pubchem CID,是不是要用swissadme看它的类药五原则符不符合从而考虑是否是有效化合物,而不能直接删除不要它?
答:1.是数据库查找的已经经过OB DL筛选符合,但无pubchem id 可不考虑再用SWISS ADME,也不要删掉(注:SWISS ADME 画结构也可预测)2.成分不是在数据库测得和无ID ,最好用SWISS ADME筛选再做判断。
6.请问基因的fold change值是什么?要怎么算呢,算的话如何卡那些值?
答:差异倍数(FC),需要用到R语言进行差异分析,一般取log2(fold change)的绝对值大于1。
(1)一般筛选差异基因参考的是logFC值,其公式表达为:log2(Mean(Exp(实验组))-Mean(Exp(对照组)),简写为log2(Mean(Exp(A))-Mean(Exp(B)),或者有些基因出现表达为0甚至负数的情况,公式也可以为log2(Mean(Exp(A))-Mean(Exp(B)+1)[避免出现log2(0)的情况]
(2)一般选择差异基因有两个指标,logFC和p-value,其中logFC取值一般为±1,即规定实验组和对照组的基因表达平均数,前者是后者的2倍或者是1/2倍,如果认为阈值过低,筛选的差异基因数量过多,则可以考虑将logFC的阈值上调,logFC取±1.5或者±2【实验组和对照组表达值比较,前者是后者的4倍或者1/4倍【log2(4)/log2(1/4)】】;p-value是默认基因表达数据【数据预处理后】符合高斯分布,p-value一般选0.05,即95%的置信区间,如果筛选的差异基因过多,可以考虑严格标准,p-value选0.01【99%置信】甚至0.001【99.9%置信】。
7. 在筛选化合物时,用OB,DL值感觉筛选出来的跟这个药没多大关系了,都是谷甾醇,槲皮素等这些些成分?
答:OB和DL目前还是比较常用,可以增加筛选条件,例如,HL和BBB等,还可以根据文献对活性成分进行补充。当然这也是TCMSP数据库存在的问题,个别药会存在成分筛选时的同质化现象(可参考《网络药理学“异病-异方”关键成分筛选同质化现象思考》该文章)。
8. 疾病靶点和成分靶点取交集后有230个基因,导入string分析后只剩下190了,这个要怎么说明呢?是因为我把这里设置成0.9的原因吗?
答:在minimum required interaction score上的卡值会影响到我们获得的基因数,根据string上的相应算法,选值越高,最基因之间的相互联系越紧密,基因数会越少。其次,我们要知道,目前“蛋白-蛋白”关联信息依然不完备,且表现出不同程度的注释分散度和可靠性。STRING 数据库的目的在于收集、评估及整合所有公用的“蛋白-蛋白”互作资源,并与计算机预测的结果互为补充。
9.问一下大家,做化合物靶点筛选时,发现导出的化合物靶点中有这样的“CHRNA3 CHRNB4”,请问在整理的时候需要把他们分开吗?
答:一般是将它们分开的。但我们发现有时它们对应的是同一蛋白时,可以将它们同时写在一起。
10.Swisstargetpredicition中获得的药物成分对应靶点都需要在uniprot里面校准基因名吗?
答:不需要。该数据库中的靶点名称就是参考uniprot数据库,基因symbol是一样的。但我们也可以根据自己情况适当的检测校准基因(因为有些基因可能在Swisstargetpredicition中有而在uniprot上没有,但其实影响不大)。
11.PubchemCID粘贴到Pubchem,想获取smile号,搜出来的成分比输进去的要少,需要处理吗?还是随它自己少?
答:需要处理。我们要知道少哪个并记录,为之后用其他方法找到该成分做好准备。(其他方法有:可以通过1.SWISSADME或SWISStargertprediction直接画出结构找到smile号;2.可以通过https://www.novopro.cn/tools/mol2smiles.html
去转换;3.可以用chemdraw软件获得)
12.在TCMSP上的靶点做的效果没有swisstargetprediction上的好,如果有成分在swisstargetprediction没有预测到靶点的话,就这个成分可以加上TCMSP上的靶点吗,别的成分不加?
答:最好只用一个数据库预测靶点,不同数据库的算法不一样,一般不能联合使用。如果联用的话,缺少的话可以针对的对那个成分进行补充,但也可把所有的成分缺少的也补上。找成分靶点方式有多种,可用swisstarget找成分靶点较多,找的也比较全,靶点可能性控制在0.10以上较好。TCMSP上的靶点找后要在uniprot上转换gene symbol。还有TECM,BatMan等数据库也可以进行靶点预测。
13.关于疾病-通路-靶点-成分-药物网络构建的相关问题。问题①network文件里面的成分靶点是成分在swisstargetprediction预测的所有靶点呢,还是各成分相对的成分靶点和疾病靶点的交集靶点呢?②type文件里面的靶点又是什么靶点,是成分疾病交集靶点吗?
答:1.network文件里原本是各成分对应的交集基因靶点,但“药学生阿程”视频里介绍是将各成分对应的所有靶点都列出来了,在cytoscape里删掉那部分不属于交集基因的。当然你也可以直接列出各成分对应的交集基因靶点(可用venny去取)
2.tape文件是疾病与各成分的交集基因靶点
14.核心靶点TNF,在PDB查到TNF13,TNF9,TNF14等这些,该怎么处理?
答:在uniprot里找到Gene是TNF的那个就是。然后根据这个uniprot id在PDB找即可。也可在PubMed的gene或者protein确定这个靶点的蛋白名称,或者通过gene name在string数据库里面转化蛋白名称再判断。出现相似的基因名可能是同一个基因家族的基因,结构也比较相似,可以根据受体蛋白的选择方式适当比较选择。
15.请问除了TCMSP、TCMIP、HERB数据库可以查中药成分,还有其它的吗?(如找某种矿物药没找到,也试以下其它数据库)除在TTD数据库搜索疾病靶点,还有哪些数据库?
答:成分搜取数据库有 TCM@Taiwan(http://tcm.cmu.edu.tw) • The Encyclopedia of Traditional Chinese Medicine (http://www.nrc.ac.cn:9090/ETCM/) • SymMap(https://www.symmap.org/) • HIT(http://lifecenter.biosino.org/hit/) • Batman-TCM(http://bionet.ncpsb.org.cn/batman-tcm/) • YaTCM(http://cadd.pharmacy.nankai.edu.cn/yatcm/home) • NPACT(http://crdd.osdd.net/raghava/npact/) • NPASS(http://bidd2.nus.edu.sg/NPASS) • CHEM-TCM(http://www.chemtcm.com/) • TCM-ID(http://bidd.nus.edu.sg/group/TCMsite/)
相应的疾病基因靶点数据库还有:Genecards,OMIM,DisGENet等
16.找的一个中药的成分,在TCMSP网站按照OB值≥30%,DL≥0.18,筛选出7个成分。但这7个成分里只有1个能够在pubchem中找到Isomeric SMILES,这个成分在SwissTargetPrediction中下载了成分基因表格。剩下的6个成分中,按照视频教程,有3个通过TCMSP找出related targets并进入uniport寻找基因名,并建立好表格。最后剩下3个成分,完全没有相关靶点信息?
答:1.实在不能一个数据库找全的,可以选取其他数据库找成分及靶点 2.找不到对应SMILES号,可以TCMSP下载MOL2文件转换SDF格式/还有模型转化为SMILES号(百度有网页版在线转换)导入SWISS进行靶点预测,或者自己画结构。(可参考11问的其他方法)
17.在TCMSP里按照OB,DL设置后,比如当归,只剩下两种成分了,这样会不会把一些有效成分筛选掉?
答:一:建议是把握住能把握的,能够明确知道的几个直接作用你目的疾病,虽然少但是相对来说范围缩小了,富集结果不会太分散,分析的过程也是在不断筛选最有可能的作用机制,尽量不要有太多干扰的因素,网药的局限性是已知的信息,把握能够获取到的能够有支撑的,未知的难以把握,精力也有限,与你疾病越相关理论上预测结果也越靠近,但是最终还是要回归实验的验证,平台的网药是各个成分的组合,而实际上的复方组成不仅复杂,还有配伍、炮制等产生的作用,以及机体本身,这些都无法给出。
二:还有你收集文献,中文的少就试试外文的,还有检索方式等等,如果做不到收集的又准又全,那建议就单独降低标准OB小于等于20、DL大于等于0.1,范围放大一点点,后续再进行分析筛选。
18.用TCMSP经过ob和dl(30和0.18)筛选剩3个成分
各位大佬,请问一个中药用herb数据库筛选相对分子量小于等于500后剩8个成分,再用lipinsk五原则筛选后剩4个还有必要做下去吗?
答:与17问疑惑相同,建议查询筛去的成分是否与疾病直接相关再做取舍,不要局限于数值的限定,另数据库有限,还可查阅文献资料搜索成分加以补充。
19.请问一下对于这种带Cl离子化合物的SMILES号,在Swisstargetprediction库检索不出来怎么办?主要问题是提供的smiles号和图片上传到Swisstargetprediction后,它说提供了多个分子号,那个Cl和其他的并不是连接到一起的,但是我手动删除也感觉不太对,像是变成了另一个化学式。(芍药-3-阿拉伯糖苷Peonidin-3-arabinoside,COC1=C(C=CC(=C1)C2=[O+]C3=CC(=CC(=C3C=C2OC4C(C(C(CO4)O)O)O)O)O)O.[Cl-])
答:1.有尝试过2D结构图导入库中也检索不出来;是中草药的主要成分的话,这个就要你自己考虑了先排除了或看看tcmsp等其它数据库有没有该成分对应靶点;2.碰到这种加了氯离子或者碘离子的,只要能载pubchem里找到就好办直接输入cas号或者分子名称找到符合的点开,其实它就是一个整体和氯离子或碘离子组合在一起的,点进去的话有分开的结构式,用不含离子那个结构式就行。然后你再比对一下tcmsp上的。3.我遇到的基本分子量哪些是吻合的(6月8日记录);你可以试一下加氯离子之后预测的靶点和不加氯离子的靶点出来以后得结果是不是一样的。
20.成分靶点基因的获得的两种方法:一是获得pubchem CID,在Pubchem里找Isomeric SMILES到再导入swisstargetprediction获得;二是复制TCMSP的靶点名称全名再用Uniprot转换成靶点基因,但是有时候这两种方法做出来的结果不一样。这两种方法哪种更准确一些呢?
答:不同数据库算法不一样,TCMSP的靶点来自drugbank,可能不全;swisstargetprediction主要针对靶点获取而开发,缺点是需要对应SMILES或画出结构等数据库各有优势。相应的还有其他数据库可以选择视频有介绍。
21.如想做精油中100多种化合物对皮肤炎症的网络药理学,是不是可以将所有化合物的靶点结合起来,然后与疾病靶点做一个交集?
答:可以,只是工作量有点大了。这些化合物都是有效成分吗(是否经过筛选),是否对治疗疾病有意义。
22.请问我在ETCM里面,找到的药物成分,和在CAS化源网里面找到的同名成分分子量不一样,怎么办?
答:最重要的是看结构和相对分子质量是否一致。