R语言:clusterProfiler进行GO富集分析和Gene_ID转换
ID转换用到的是 bitr() 函数,bitr()的使用方法:
创新互联公司2013年成立,是专业互联网技术服务公司,拥有项目成都做网站、网站建设网站策划,项目实施与项目整合能力。我们以让每一个梦想脱颖而出为使命,1280元鲁甸做网站,已为上家服务,为鲁甸各地企业和个人服务,联系电话:18982081108
org.Hs.eg.db包含有多种gene_name的类型
keytypes() :keytypes(x),查看注释包中可以使用的类型
columns() :类似于keytypes(),针对org.Hs.eg.db两个函数返回值一致
select() :select(x, keys, columns, keytype, ...) eg.
函数enrichGO()进行GO富集分析,enrichGO()的使用方法:
举例:
GO(Gene Ontology)
Ontology 首先是出现于哲学领域的一个词汇,后来广泛用于计算机领域,发挥了很重要的作用,再后来这个概念被引入生物领域。
gene Ontology 是生物中Ontology中一个重要应用。go项目最初是由研究三种模式生物(果蝇、小鼠和酵母)基因组的研究者共同发起。是生物信息分析中很重要的一个方法
go是在生物领域应用非常广,可以帮助生物学家对基因产物进行准确的定义(功能、位置),节省时间。
因为在最开始的时候,生物学家们更多是专注于自己研究的物种/课题,而且每个生物学家对功能等的定义是存在差异的,导致不同实验室/物种不能实现直接的对接(比如A物种内的x基因的功能使用的是a这个词汇进行注释,而B物种内的x基因的功能却使用的是与a同义的词汇b进行注释,这种情况计算机无法识别),就像讲两种语言的人,无法直接进行语言交流。这种情况导致的问题是,出现了一种阻碍,让问题复杂化了。所以就有了Ontology在生物领域中的应用,实现“书同文”。
go定义了基因/基因产物的功能(通过术语)且定义了它们各自之间功能是怎样联系的(关系)。它组成了一个具有大量term的词汇库,并定义各种term之间的关系(is_a part_of R)。
GO通过三个方面的术语对基因/基因产物的功能进行描述:分子功能(molecular function) -由基因/基因产物行使的分子水平上的功能; 细胞组件(cellular component)-基因/基因产物产生功能时其在细胞结构上的位置;生物学过程(biological process)-在哪个生物学通路/生物过程发挥作用。
目前,GO 注释主要有两种方法:
(1)序列相似性比对(BLAST):例如blast2go(将blast结果转化为GO注释)
(2)结构域相似性比对(InterProScan)
blast2go的本地化教程:
在blast2go软件正确安装的情况下,使用blast2go进行go注释,出现无法得到注释结果的问题:
另外还有可能出错的原因是,blast2go无法识别blast高的版本号,当使用高版本的blast的时候,直接将版本号给修改为低版本的就行了,例如(BLASTX 2.2.25+)
GO 的图形是一个有向无环图
2020年转录组文章到底有多难发?一文说明白!
转录组是一类让人既爱又恨的项目,实验门槛低,却是文章泛滥的重灾区,总有人问我,现在转录组还能发文章吗?下面我就借一篇2020年5月4日发表在BMC Genomics上题为:Transcriptome analysis reveals rapid defence responses in wheat induced by phytotoxic aphid Schizaphis graminum feeding 的文章,详细地论述下2020年转录组文章到底有多难发?怎么发?下面我们先看下这篇文章具体内容: 实验简介: 文章研究的是小麦幼苗在麦二叉蚜采食后的快速防卫反应,分别于采食2、6、12、24、48 h后取幼苗叶片(3次生物学重复),进行转录组测序、叶绿素测定以及H2O2 积累测定以及NADPH抑制剂处理进一步探究小麦在咬食后氧迸发防御机制。 实验结果:
1. 麦二叉蚜采食后小麦转录组分析 这部分结果展示比较套路,主要是通过PCA分析看了下样品相关性及处理效应,介绍了一下差异基因总体情况。如下图:
2. 差异基因GO分析 作者按上调/下调基因集分别进行GO注释,并按时间点分别论述上调/下调基因集富集情况,如下图:
3. 麦二叉蚜采食后小麦叶片叶绿素含量变化 从差异基因GO分析可以看出,蚜虫采食可以负向调控小麦的光合作用过程、光捕获和光系统相关基因,所以作者又测定了采食后小麦叶片叶绿素含量变化,如下图:
4. 麦二叉蚜采食后小麦叶片中水杨酸、茉莉酸相关防御途径的基因表达 参与SA生物合成的苯丙氨酸解氨酶(PAL)基因在不同时间点均显著上调,但表达水平随采食时间的增加而逐渐降低;茉莉酸代谢途径中三种脂氧合酶(LOX)基因均显著上调;受MAPKs调控的WRKY转录因子也显示上调,如下图:
5. 二叉蚜采食后小麦叶片中过氧化氢(H2O2)积累和抗氧化酶活性的变化 蚜虫采食明显上调活性氧清除基因的表达,进一步通过3,3 ' -二氨基联苯胺(DAB)对小麦小麦叶片进行细胞学染色,采食2h后就出现H2O2积累,并且随采食时间的延长,斑点数量和大小逐渐增加,如下图:
6. NADPH氧化酶抑制对小麦叶片H2O2积累和防御反应的影响 NADPH氧化酶抑制剂二苯碘铵(DPI)不仅能明显抑制由采食引起的氧迸发,并且对小麦叶片防御应答基因表达水平也有明显的下调作用。
以上就是该篇文章全部结果,回头来看,这个实验设计并不复杂,内容也不是过多,为啥人家能发表而你却被拒稿呢?要知道,就这个2区3.5分影响因子的BMC Genomics ,也是很多人渴望而不可得的存在。
2020年,转录组类文章到底有多难发?从这篇文章我们可以看到,文章并没有你想像中的难发,我试着从中提炼以下几点,希望对您有所借鉴。
1. 实验设计相对合理,层级递进,取样点与植物防卫三级级联反应基本对应,后续分析论述层次较为分明。
2. 转录组仅是的实验中的一部分,套路式的罗列结果的时代已没过去了,将转录组与其他指标融合在一起,就像本文中,除了转录组,作者还进一步进行了生理指标测定,如叶绿素含量、氧迸发等,基因关联性状,使结果更有说服力。
3. 转录组数据介绍切忌空泛,要结合其他生理生化指标,提炼出某些相关基因加以展示,如本文中叶绿素含量与表达下调的光捕获、光和作用相关的基因;H2O2积累和抗氧化酶活性的变化等。
4. 论文精华都在讨论部分,多引用他人数据佐证自己的结果,能做到旁征博引,论文一般都错不了!精读文献原文,请点击文末“阅读原文” 直达。
2020年,转录组类文章有多难发?其实难的是你不肯转变观念,时代不同了,老套路也就过时了;很多老师目前面对的难题不是手里没数据,也不是不会写论文,而是数据看不明白,分析便无从下手,这个梗不破,怎么发文章?!我给大家推荐一部 《转录组分析结果解读》 视频教程 ,轻松解决您看不懂转录组结果数据的难题。
;shareId=1031484705
更多技能学习链接:
;shareId=1031484705
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接: 基因家族分析实操课程 、 基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接: 转录组(有参)结果解读 ; 转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接: WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接: 转录组标准分析后的数据挖掘 、 转录组文献解读
5. 微生物16S/ITS/18S分析原理及结果解读 、 OTU网络图绘制 、 cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接: linux系统使用 、 perl入门到精通 、 perl语言高级 、 R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接: TCGA-差异基因分析 、 GEO芯片数据挖掘 、 GSEA富集分析课程 、 TCGA临床数据生存分析 、 TCGA-转录因子分析 、 TCGA-ceRNA调控网络分析
8.其他课程链接: 二代测序转录组数据自主分析 、 NCBI数据上传 、 二代测序数据解读 。
r语言注释语句什么开头
看注释前的字母。
R语言初学指南可在脚本中加入注释。在脚本中,任何以“#”(sharp/numbersymbol)开头的命令行都会被R忽略。
同样,若“#”出现在某行的中间,则该行中“#”后面的语句都会被忽略。可利用这一特性对脚本添加注释,以便用户或他人日后查阅。
例如,作者每次查看前一天编写的脚本时,都要重新梳理并回忆每条脚本语句的作用。
GO、KEGG富集分析(一)有参情况
对基因的描述一般从三个层面进行:
这三个层面具体是指:
得到GO注释
做GO分析的思路:
比如,在疾病研究的时候,进行药物治疗之后某些基因的表达量明显的发生了变化,拿这些基因去做GO分析发现在Biological process过程当中集中在RNA修饰上,然后在此基础上继续进行挖掘。这个例子就是想启示大家拿到差异表达基因DEG只是一个开始,接下来就应该去做GO注释,之后需要进行一个分析看这些注释主要集中在哪个地方。假如我们有100个差异表达基因其中有99个都集中在细胞核里,那我们通过GO分析就得到了一个显著的分布。
GO富集分析原理:
有一个term注释了100个差异表达基因参与了哪个过程,注释完之后(模式生物都有现成的注释包,不用我们自己注释),计算相对于背景它是否显著集中在某条通路、某一个细胞学定位、某一种生物学功能。
clusterProfiler是一个功能强大的R包,同时支持GO和KEGG的富集分析,而且可视化功能非常的优秀,本章主要介绍利用这个R包来进行Gene Ontology的富集分析。
进行GO分析时,需要考虑的一个基础因素就是基因的GO注释信息从何处获取。Bioconductor上提供了以下19个物种的Org类型的包,包含了这些物种的GO注释信息
对于以上19个物种,只需要安装对应的org包,clusterProfile就会自动从中获取GO注释信息,我们只需要差异基因的列表就可以了,使用起来非常方便。
1.1 准备输入数据
待分析的数据就是一串基因名称了,可以是ensembl id、entrze id或者symbol id等类型都可以。把基因名称以一列的形式排开,放在一个文本文件中(例如命名“gene.txt”)。Excel中查看,就是如下示例这种样式。
1.3 GO富集分析
加载了注释库之后,读取基因列表文件,并使用clusterProfiler的内部函数enrichGO()即可完成GO富集分析。
读取基因列表文件,并使用clusterProfiler的内部函数enrichKEGG()即可完成KEGG富集分析。
此外,clusterProfiler中也额外提供了一系列的可视化方案用于展示本次富集分析结果,具有极大的便利。
参考:
;utm_medium=timeline
当前文章:r语言进行go注释 go语言 注解
文章路径:http://scyingshan.cn/article/hpgipe.html