尔云间 一个专门做科研的团队
原创 eryun 云生信学生物信息学原创不易请关注和转发支持我们
大家好!今天小编跟大家分享一下如何在GEO数据库中找到适合自己的数据 。下面就让小编手把手教您如何进行GEO数据的下载和分析吧 。
1. 如何查找适合的GEO数据并下载
GEO数据库最常用的有两种方式 , 一种是通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,另外一种就是通过pubmed入口啦 。接下来咱们就进入正题 。PS:前方多图预警 。GEO数据库最常用的入口当然是Pubmed入口啦,简单粗暴:
Step1. 先选择GEO DataSets,然后点击Search;
Step2. 刷新页面后,直接点击Advanced;
Step3. 通过关键词、物种名和研究类型来搜索,例如:关键词:lung cancer;物种名:human;研究类型:“”Expression profiling by high throughput sequencing””和“”Non-coding RNA profiling by high throughput sequencing”” , 即检索通过高通量测序得到人肺癌非编码RNA的表达谱数据;
Step4-5. 刷新页面,会看到返回了9条数据并且每条数据中都会显示GSE ID,选择符合自己要求的数据,例如,我们选择GSE68353,然后点击进入新页面;
【零代码!查找适合的GEO数据及韦恩图和火山图绘制】Step6. 在新页面会有Title, Organism, Experiment type, Summary, Overall design等详细信息,其次是Samples数据展开 , 可以看到测序数据只有8个样本,分4组,每组2个样本 。最后是数据下载,一般会下载Series Matrix File(s)文件,它主要存放一些处理好的表达谱的矩阵,包含一些样本的信息,样本的ID对应的什么名字,然后还会包含一些临床信息 。如果我们想下载标准化后的数据,可以直接在这个页面中Supplementary file中进行下载 。
Step7. 对下载的数据进行筛选,logFC > 1或< -1且P_Val < 0.05;
Tips:以上是针对一组差异表达基因进行下载,如果我们想获得两组或两组以上的差异基因表达情况 , 应如何进行操作呢?
我们以GSE54621为例 , 一起来看一下:
(1)直接输入GSE54621,点击Search,页面刷新后,在第1条目录中我们可以看到Accession是GSE54621,然后点击“Analyze with GEO2R”,进入GEO2R在线数据器的界面,用它可以比较两组或多组样品之间的差异表达基因;
(2)确定组别“Define groups”,这里我们自己定义为”SD”或”AS”,然后将1-4样品归入”SD”组,5-8样品归入”AS”组;
(3)在”Options”中,我们可以根据需要进行设置,其中包括p-value值等;在”Profile graph”中我们可以看到各种数据分析的图示,如火山图和气泡图等,在“GSE54621, selected samples”图示中 , 我们可以看到每个样本数据值的分布,从这个分布可知每个数值分布都在”0.”左右,说明是经过标准化的,如果未标准化,则中心数值会在”0.”偏上或偏下 , 分析的结果会有差异 。
(4)“Download full table”,下载测序结果,用Excel打开,就是我们想要的差异表达矩阵 , 通过这个差异表达矩阵,可以筛选差异表达基因 。
2. 维恩图绘制
韦恩图是科研文章中最常见的图,可以用来表示多个数据集之间的关系 。当然也可以进行集合运算 。对于我们下载的GSE68353数据集中标准化数据,如何绘制韦恩图呢?
Step1. 打开Draw Venn Diagram首页(网址:http://bioinformatics.psb.ugent.be/webtools/Venn/) ,
Step2. 将分析的各组差异表达基因分别复制—粘贴到list1/list2/list3中,在右侧分别数据对应的组别名称,然后点击Submit(见下图) , 刷新页面后,即可获得我们想要的韦恩图,输出的维恩图可以显示为嵌入在web应用程序中的SVG或PNG图像 , 或者作为一个独立的 SVG 或 PNG 图像 。
3. 火山图绘制
火山图 (Volcano Plot) 是展示差异表达基因识别结果的最常用方式,其包含两个重要的指标:Fold change和校正后的p_value 。差异表达一般按照倍数变化Fold change(FC)大于2倍做为标准(即logFC>1或<-1) 。
使用R语言可以绘制火山图,那么不会R语言的小伙伴该怎样绘制出漂亮的火山图呢?今天给大家分享使用Excel绘制火山图的完美攻略 。本次绘图所使用数据来源于GSE54621数据集的差异分析结果,我们仅需要ID、logFC和-log10(p_value)这三列,如下图所示:
然后使用筛选功能筛选出上下调变化具有显著性差异的基因,筛选标准:
(1)显著性上调基因:logFC > 1且p_value < 0.05;(2)显著性下调基因:logFC < -1且p_value< 0.05;(3)上下调变化不显著的基因:除上下调基因之外的所有基因 。最后将筛选到的基因分三部分复制到一个新的表格中,每部分按logFC绝对值从大到小排序,如下图所示:
接下来,我们就可以开始绘图了:
Step1: 选中下调基因的logFC和-log10(p_value)列,选择插入散点图即可;
Step2: 把另外两部分基因也加到散点图里面 , 单击其中任一散点,右键选择“添加数据” , 在弹出菜单中点击“添加” 。先添加上调基因,系列名称命名为“up”,在“X轴系列值”选中上调基因的-log10(p_value)列(注意:仅选中数据,不要把列名选中,所以是从第2行开始)、在“Y轴系列值”选中下调基因的logFC列,点击确定 。再使用同样的方法添加表达不显著的基因即可(注意要将第一个系列名称改为down) 。如下图 , 红色:上调基因,蓝色:下调基因,绿色:差异不显著基因 。
Step3: 对其进行进一步个性化修饰:
(1)添加横纵坐标轴及标题信息;
(2)修改图表样式;
(3)添加图例;对于上述这些项目的修改,我们可以直接点击图表右侧的“加号” , 根据需要选择要添加的内容,然后在右侧的格式面板中对每一个元素进行精细调整 。
好了 , 今天小编就先给大家介绍如何基于GEO数据集进行差异基因的表达分析以及零代码如何绘制韦恩图和火山图,如果这些内容帮助到您 , 也希望您转发哦,一个人能走多远,取决于与谁同行 。如果您有什么问题,无论是生信实操还是实验方面的困惑,欢迎留言~~