欢迎光临散文网 会员登陆 & 注册

生物信息学考题

2023-05-17 22:32 作者:生物yes  | 我要投稿

> print(paste("第二题中,进化分析12个物种为: ",ss,sep=""));

[1] "第二题中,进化分析12个物种为: NC_010974C; NC_015332; NC_002658; NC_012422; NC_013579; NC_002081; NC_004414; NC_008131; NC_015344; NC_008491; NC_009968; NC_008747"

> print(paste("第二题中,进化分析所选基因为:",gene,sep=""));

[1] "第二题中,进化分析所选基因为:ND3"

> print(paste("第三题中,基因表达数据分析的两个基因是: ",nn,sep=""));

[1] "第三题中,基因表达数据分析的两个基因是: RPS20, COX8A"

> print(paste("第四题第1问中,用",en_re,"网站做富集分析的50个基因是:",gg,". (请用KEGG pathway或GO BP(biological process)的结果)",sep=""));

[1] "第四题第1问中,用PATHER网站做富集分析的50个基因是:MYL2, CD79A, CDKN1B, PSMB8, LUC7L, MAML1, LAX1, PLG, NF2, KPNB1, IL1RAP, FCER2, ACTN2, RAB11FIP1, SMC4, HCLS1, BMP4, ANXA2, NRP1, PAX5, RRM1, DOK1, STIP1, KRT17, MME, CDC7, C15orf39, SEMA3C, SNRPD2, PRDM4, PTX3, COPS6, CD8A, LRPPRC, BIRC7, RAB18, PLEKHM2, NAA38, CTRC, CXCL11, MIF, RFC4, DSG2, THAP8, VDAC1, MMP7, GATAD2A, LOR, ITGA2, EGR1. (请用KEGG pathway或GO BP(biological process)的结果)"

> print(paste("第四题第2问中,需要PDB数据库资源查询的蛋白质结构PDB的ID是 :",pp,sep=""));

[1] "第四题第2问中,需要PDB数据库资源查询的蛋白质结构PDB的ID是 :1gol"


二、进化分析及基因组分析:(4小题,共40 分)

请就本题随机运行结果的“进化分析12个物种”(species)中的每一个ID作为GenBank的登录号;如NC_005826;"进化分析所选基因为"作为要研究的这些物种内的基因(gene),如Cytb基因(又称CYTB)。根据ID找到这12个物种的线粒体全序列,然后下载全序列中的上述指定的一个基因(如Cytb基因)片段的DNA序列,形成FASTA格式的文件后,利用ClusterX软件完成比对,将产生的aln文件转化为Mega格式,再利用Mega软件对序列进行分析,构建系统进化树。

请完成:

1,请基于给定基因(如Cytb基因)核苷酸序列,利用Mega软件中的NJ法构建给定的12个物种的系统树图,并在树上给出自检值(5分);简要说明系统树上物种关系(5分);要求系统树中物种统一命名为:登录号-基因名(如NC_005826-Cytb)(5分)。-00

2,请以本题给定的12个登录号(如NC_005826)物种中的第二个物种为研究对象,分别给出指定基因(如Cytb基因)序列的长度和GC含量(5分),并利用RNAstructure软件或其他在线软件绘制出该物种线粒体基因组中12S rRNA基因和16S rRNA基因的tRNA基因的二级结构(5分);-00

    3,请以本题给定的12个登录号(如NC_005826)物种中的第三个物种为研究对象,利用相关在线软件服务的方法进行该物种线粒体基因组的所有基因定位和tRNA基因定位,给出它们的截屏信息(10分);请简要文字描述在线分析方法的步骤(5分)。-00

我的答案:

NC013579,NC008747,NC015344,NC004414和NC002081的亲缘关系比较远

NC008131和NC013579,NC008747,NC015344,NC004414,NC002081的亲缘关系比较近

NC010974和NC012422的亲缘关系比较近

NC002658,NC008491和NC009968的亲缘关系比较近。

16S的二级结构
12S的二级结构


NC_002658的tRNA基因定位

方法:进入http://lowelab.ucsc.edu/tRNAscan-SE/ 网址

然后在Sequence source中选择Mammalian mitochondrial;

在Query sequence中选择Raw sequence

选择NC_002658的全序列文件,点击Run tRNAscan-SE:

NC_015332物种的ND3的序列的长度和GC含量



 NC_002658物种的线粒体基因组的所有基因定位

方法:1.打开网址http://mitos.bioinf.uni-leipzig.de/index.py

2.填写名字;邮箱;

Job identifier随便填个字母;

Genetic Code 一般默认为脊椎动物(02-Vertebrate)

3.Fasta file 直接点击浏览,选择Fasta格式序列文件

4.完毕后点击Proceed,出现如下页面,等待页面自动刷新

5. 结果会在一段时间(可能会比较久,应该和序列大小有关)后显示出来,同时以链接形式发至邮箱。

点击即可查看


三、疾病转录组数据的分析与R语言的应用( 5小题,共30分)

本题数据来源于GEO数据库中的基因表达芯片数据,为500行和31列的经过标准化的基因表达数据矩阵,已知前11列为正常组织样本,后20列为疾病组织样本。就随机程序获得的“基因表达数据分析的两个基因(gen_name)及表达值信息(data)数据进行如下操作:

1,通过相关网站获得两个基因的功能,并简要用中文描述(5分),同时说明这两个基因可能有因缺陷导致的疾病吗,其对应的药物又有哪些并提供相应的截屏(10分)-00

2,请通过STRING网站(http://www.string-db.org/)分别获得与这两个基因相互作用的基因(或蛋白),并找出哪个基因(或蛋白)与已知基因互作是因为基因共表达(gene coexpression)证据。(5分)-00

3,请根据两个基因名和表达值信息变量(data)检测这两个基因在两类样本(正常和疾病样本)中是否发生显著上调或是下调,请根据计算结果做出相应说明(提示t.test()函数可以用于判断显著性)(10分)。-00



RPS20在样本(正常和疾病样本)中发生显著上调或是下调不显著

COX8A在样本(正常和疾病样本)中发生显著上调或是下调不显著

(小于0.05就是显著)
COX8A基因的功能

COX8A的功能简述:呼吸链含有3种多亚基配合物琥珀酸脱氢酶(Complex II,CII)、泛醌-细胞色素c氧化还原酶(Cytochrom b-C1 Complex,Complex III,CIII)和细胞色素c氧化酶(Complex IV,CIV),它们协同将NADH衍生的电子和琥珀酸盐转移到分子氧上,在内膜上形成电化学梯度,驱动跨膜转运和ATP合成酶。细胞色素c氧化酶是催化氧气还原为水的呼吸链的组成部分。通过亚基2的双核铜A中心(CU(A))和亚基1的血红素A(Heme A),由血红素A3和铜B(CU(B))形成的双核中心(BNC)中的一个双核中心(BNC),由细胞膜空间(IMS)中还原的细胞色素c产生的电子被转移。BNC利用IMS中细胞色素c的4个电子和线粒体基质中的4个质子将分子氧还原为2个水分子。

 

COX8A可能导致的疾病:痘苗病毒(VACV)感染增加,无效果乳腺形成结肠谱系的生存能力下降shRNA下降丰度(Z-score《-2)NF-κB报告表达降低shRNA增加丰度(Z值>2)亚砷酸刺激后应激颗粒中G3BP1蛋白表达和组装减少

RPS20基因的功能

RPS20基因的功能简述:GO标识限定GO术语证据使RNA结合HDA,IEA使核糖体的结构组成IDA,IBA,NAS,HDA,IEA 使蛋白质绑定IPI 启动MDM2/MDM4家族蛋白绑定

RPS20可能导致的疾病:无影响生存力下降电离辐射敏感性下降FOXO1核定位有丝分裂细胞数量增加不确定核仁前40S成熟缺陷shRNA减少内体-核距离减少(核周区域内的内体聚集)丙型肝炎病毒复制减少野生型和TP53基因敲除细胞的活力下降,TP53蛋白表达率下降(野生型/TP53敲除细胞)降低核大小细胞数量减少,S-DNA含量增加艾滋病病毒核定位



与RPS20基因相互作用的并且是因为基因共表达的基因有RPS,RPL35,RPL18A,RPS12和RPL1.

证据如图:


与COX8A基因相互作用的并且是因为基因共表达的基因有COX6A1,COX5B,COX6B1,COX7C和COX5A,证据如图:


四、基因集的功能分析和蛋白质组分析( 2小题,共 25分)

 

1, 利用DAVID网站http://david.abcc.ncifcrf.gov/summary.jsp或PATHER网站http://pantherdb.org/;进行基因功能富集分析。请就上述随机运行结果的“2个网站做富集分析的50个人类的基因为”(go_50)的50个基因转化为一列的基因名单,贴到网站的相应位置,选择KEGG_PATHWAY(DAVAID)或是 Biological Process ( GO) 进行功能分析,给出前5个富集的功能词条(少于5个时贴出所有词条)或是图作为结果截屏黏贴下来(5分),并简要用中文说明这些基因富集了哪些功能(5分),选择其中一种功能,描述该功能丧失可能导致的疾病,请查阅英文文献支持你的观点(给出文献题目,发表时间和与疾病有关的文献关键语句)?-00

2,对给定的蛋白质PDB 结构ID进行PDB网站数据资源的查询,下载获取该蛋白的四级结构文件(.pdb文件),用PyMol软件绘制该蛋白的空间结构图(5分),请尝试用不同颜色(Color)和标签(Label)标出不同的链(5分)。-00


Biological Process ( GO) 进行功能分析的前5个富集的功能词条
KEGG_PATHWAY(DAVAID)进行功能分析的所有富集的功能词条


空间结构



生物信息学考题的评论 (共 条)

分享到微博请遵守国家法律