RNA-seq与miRNA-seq联合分析_rnaseq和mirnaseq-程序员宅基地

技术标签: RNA-seq  miRNA-seq  分析流程  

RNA-seq miRNA-seq联合分析

背景知识

肝癌细胞经常会入侵门静脉系统,从而导致门静脉癌栓,但是还没有一个详尽的研究来讨论其中的作用机制,因此需要对肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal)进行采样分析。

数据来源

数据来源于2017年5月24日清华大学更新的miRNA-seq,DNA methylation, CNV, RNA-seq

项目标题:The molecularlandscape of hepatocellular carcinoma with portal vein tumor thrombosis

实验设计:

提取了来自20个中国肝癌患者的肿瘤组织,门静脉组织和癌旁组织,共计60个样本,分别对其进行miRNA-seq,甲基化分析,拷贝数变异分析和RNA-seq分析。

数据下载网址:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE77276

RNA-seq数据分析

数据预处理

由于此数据原始数据sra太大,没有表达矩阵,提供了测序序列reads经过标准化以后,在每个基因上的数目(normalized_count),将各个样本reads count文件合并就可以得到表达矩阵。

差异表达基因筛选

根据文献所述,使用R包DESeq2筛选差异表达基因,DESeq2使用负二项分布产生的线性模型,具体原理可见如下网址

http://www.bioconductor.org/packages/release/bioc/vignettes/DESeq2/inst/doc/DESeq2.html#theory-behind-deseq2

分组方式:源数据为肝癌组织(tumor),门静脉组织(PVTT),癌旁组织(normal),然而由于门静脉组织也属于病变组织的一种,可以和tumor划分为一类

最终在pvalue<0.001的条件下筛选出5676个差异表达基因,具体可以参见文件condition_treated_results.txt

聚类热图

对前20个差异表达基因绘制聚类热图,可以发现normal和tumor明显分开,这说明DESeq2找出来的差异表达基因还是蛮不错的。

图表 1聚类热图

深度分析

为了进一步探索数据和结果,绘制MA-plot,横坐标为每个基因上reads的数目(标准化后);纵坐标为log2fold change,即变化的程度;每个点就是一个基因,红色小点为pvalue<0.001的基因;只绘制了log2foldchange在(-3,+3)以内的基因,即改变程度在(0.125,8)倍的基因,对于不在此范围内的基因,用三角形的标志画在边界线上。

图表 2MA-plot

可以从图中看出来,黑色部分大致形成一个三角形,而红色部分(差异表达基因)包裹在黑色三角形外围。这说明用DESeq2的负二项分布模型找出来的差异表达基因,大部分都是reads数目多(测序深度高),且表达量差异很大的基因。

 

接下来绘制某一基因在不同组织的表达量。选取p值最小的那个基因

图表 3某一基因的表达量

PVTT和tumor在差异表达基因筛选的时候合为两组,此时绘图的时候仍然将它们分开。可以看到ENSG00000077152在normal和PVTT+tumor间表达量明显不同。

 

再接下来可以进行主成分分析,对整个表达矩阵计算主成分,然后选取前面两个主成分绘制PCA图,可以看见PCA1代表了原本36%的信息量,PCA2代表了原本10%的信息量,然后normal和其他两类比较能分得开,比起之前那次作业芯片数据,这次的紧致性要好得多。

图表 4PCA图

miRNA-seq数据分析

数据处理过程和上面的RNA-seq一样,把代码切换一下目录就成。

在2578个miRNA中,共有199个差异表达(pvalue<0.001),绘制MA-plot发现上调的居多,


图表 5MA-plot

接下来,也对差异表达的部分做了聚类热图,发现对于差异表达的部分,两组确实分得挺开的。

图表 6聚类热图

接下来也挑了p值最小的miRNA绘制reads count图,发现两组之间的差异确实蛮明显的。

图表 7p值最小miRNA

最后,进行了主成分分析,绘制PCA图,紧致性不如上面的RNA-seq,应该是前两个PCA代表的信息太少的缘故,第一主成分只有代表源数据19%的信息,第二主成分代表17%的信息,俩主成分加起来才有刚刚一个主成分那么多信息(RNA-seq第一主成分就有36%)。

图表 8PCA图

联合分析

MAGIA(miRNA和基因整合分析)是一个进行靶预测、miRNA和基因表达数据整合分析的新的网络工具。接下来,使用magia进行miRNA与基因相互作用的联合分析。

网址:http://gencomp.bio.unipd.it/magia/analysis/

Step1

由于miRNA-seq和RNA-seq是来源相同的配对数据,而且样本数有60个。联合分析算法选择MATCHED:Mutual Information

MATCHED: Mutual Information: a classicinformation measure quantifying the mutual dependence of variables, includingnon-linear relationships. Suitable for large sample size (>20 needed).

Step2

接下来的预测方式选择Pita和miRanda的交集

Pita score filter:-10 Miranda score filter:500(都是默认值)

Step3

接下来将上面分析出来的差异表达矩阵分别上传,分析即可。下面就是绘制出来的相互作用网络图。

图表 9相互作用网络

红色三角形为miRNA,绿色圆形为基因。

红色圈圈是看上去连线比较多的几个miRNA,比较重要,名字分别是:hsa-miR-760、hsa-miR-1303 、hsa-miR-671-5p、hsa-miR-324-3p、hsa-miR-423-3p

还能做出来相互作用(interaction)的程度,下载为tsv文件

就是一张包含了MicroRNA、Gene Symbol、MutualInformation的表,Mutual Information指互信息,是信息论里一种有用的信息度量,它可以看成是一个随机变量中包含的关于另一个随机变量的信息量,或者说是一个随机变量由于已知另一个随机变量而减少的不肯定性。

也就是说,在这里MutualInformation就可以看做两者的相关程度。

就比如在下图表的截图中可以看出来,hsa-mir-1303和其对应的靶基因DBF4B、hsa-mir-501-5p和其对应的靶基因KIF2C就有很强的相关性。


图表 10相互作用表

GO注释

使用Gene Ontology官网上的在线注释功能即可,输入刚刚相互作用网络interactions.tsv文件中的基因名,进行biologicalprocess(生化反应),molecularfunction(分子功能),cellularcomponent(细胞定位)三方面的富集分析,通过富集分析可以找出在统计上显著富集的GO Term,这些富集的条目有可能与研究的目前有关。


图表 11biological process


图表 12molecular function


图表 13cellular component

看上去确实有一些相关的富集条目,比如分子功能:染色体绑定(chromatin binding);生化过程:有丝分裂过程(mitotic cell cycle);细胞定位:染色体部位(chromosomal part),这些都和癌症细胞的产生有着重要关系。

结语

本次实验使用的是配对的miRNA和mRNA表达谱文件,这给了我们一个通过生物信息学工具构建miRNA-mRNA相互作用网络的好机会,在系统层次的分析表明,我们找到了许多的重要miRNA和mRNA,这些对于肝癌起始和发展的过程中起着重要作用。这个全局的“miRNA-mRNA相互作用网络”对于筛选miRNA靶基因和发现新的治疗靶标有着重要意义。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
本文链接:https://blog.csdn.net/qq_29300341/article/details/74134083

智能推荐

Word插件开发

创建一个新的 Office 插件项目:在 Visual Studio 中,选择"文件" -> “新建项目”,然后在模板中选择"Office/SharePoint",选择适当的 Office 插件项目模板,如 Word 插件、Excel 插件或 PowerPoint 插件。设计用户界面:在解决方案资源管理器中,打开你的插件项目,并在其中打开相应的 Office 文件(如 Word 文件、Excel 文件或 PowerPoint 文件)。你可以在 Office 应用中测试插件的功能,并在开发过程中进行调试。

便携式iv检测仪解析

在应用场景方面,便携式IV功率测试仪广泛应用于光伏电站的日常运维、光伏组件生产过程中的质量控制以及光伏项目的前期评估等环节。在光伏电站运维中,定期对光伏组件进行IV测试,可以及时发现性能下降或损坏的组件,为电站的运维提供有力支持。首先,从工作原理来看,光伏电站便携式IV功率测试仪通过模拟太阳光照射光伏组件,并测量组件在不同电压下的电流输出,从而绘制出IV曲线。此外,测试仪还可以计算光伏组件的功率输出、转换效率等参数,为用户提供全面的性能评估。

postgresql 索引之 hash_load_categories_hash postgres-程序员宅基地

文章浏览阅读3.6k次。os: ubuntu 16.04postgresql: 9.6.8ip 规划192.168.56.102 node2 postgresqlhelp create indexpostgres=# \h create indexCommand: CREATE INDEXDescription: define a new indexSyntax:CREATE [ UNIQUE ..._load_categories_hash postgres

face++实现人脸识别及人脸相似度对比_face++人脸识别 html5-程序员宅基地

文章浏览阅读4.8k次。使用face++,先获取key和secret下方是人脸识别,还添加了画出人脸轮廓的正方形下方是人脸识别,还添加了画出人脸轮廓的正方形 import requests#网络访问控件 from json import JSONDecoder#互联网数据交换标准格式 import cv2 as cv#图像处理控件 http_url =&amp;amp;amp;quot;https://a..._face++人脸识别 html5

desencrypt java md5_Java实现DES加密与解密,md5加密以及Java实现MD5加密解密类-程序员宅基地

文章浏览阅读322次。很多时候要对秘要进行持久化加密,此时的加密采用md5。采用对称加密的时候就采用DES方法了import java.io.IOException;import java.security.MessageDigest;import java.security.SecureRandom;import javax.crypto.Cipher;import javax.crypto.SecretKey;im..._java desencrypt.encrypt(pass)

BZOJ 2818 欧拉函数,线性筛_线性筛预处理质数表, 并求出欧拉函数, 预处理前缀和即可 bzoj2818boj-程序员宅基地

文章浏览阅读145次。题目链接:https://www.acwing.com/problem/content/description/222/给定整数N,求1<=x,y<=N且GCD(x,y)为素数的数对(x,y)有多少对。GCD(x,y)即求x,y的最大公约数。输入格式输入一个整数N输出格式输出一个整数,表示满足条件的数对数量。数据范围1≤N≤10^7输入样例:4..._线性筛预处理质数表, 并求出欧拉函数, 预处理前缀和即可 bzoj2818boj

随便推点

UVA 12534 - Binary Matrix 2 (网络流‘最小费用最大流’ZKW)_uva12534-程序员宅基地

文章浏览阅读687次。题目:http://acm.hust.edu.cn/vjudge/contest/view.action?cid=93745#problem/A题意:给出r*c的01矩阵,可以翻转格子使得0表成1,1变成0,求出最小的步数使得每一行中1的个数相等,每一列中1的个数相等。思路:网络流。容量可以保证每一行和每一列的1的个数相等,费用可以算出最小步数。行向列建边,如果该格子是_uva12534

免费SSL证书_csdn alphassl免费申请-程序员宅基地

文章浏览阅读504次。1、Let's Encrypt 90天,支持泛域名2、Buypass:https://www.buypass.com/ssl/resources/go-ssl-technical-specification6个月,单域名3、AlwaysOnSLL:https://alwaysonssl.com/ 1年,单域名 可参考蜗牛(wn789)4、TrustAsia5、Alpha..._csdn alphassl免费申请

测试算法的性能(以选择排序为例)_算法性能测试-程序员宅基地

文章浏览阅读1.6k次。测试算法的性能 很多时候我们需要对算法的性能进行测试,最简单的方式是看算法在特定的数据集上的执行时间,简单的测试算法性能的函数实现见testSort()。【思想】:用clock_t计算某排序算法所需的时间,(endTime - startTime)/ CLOCKS_PER_SEC来表示执行了多少秒。【关于宏CLOCKS_PER_SEC】:以下摘自百度百科,“CLOCKS_PE_算法性能测试

Lane Detection_lanedetectionlite-程序员宅基地

文章浏览阅读1.2k次。fromhttps://towardsdatascience.com/finding-lane-lines-simple-pipeline-for-lane-detection-d02b62e7572bIdentifying lanes of the road is very common task that human driver performs. This is important ..._lanedetectionlite

【数据结构】静态表查找之顺序查找、二分查找、分块查找_读取表元是什么意思-程序员宅基地

文章浏览阅读4.1k次,点赞8次,收藏23次。​通过一定的方法找出与给定关键字相同的数据元素的过程叫做查找。也就是根据给定的某个值,在查找表中确定一个关键字等于给定值的记录或数据元素。_读取表元是什么意思

如何设置交易滑点?精确到tick 测算期货冲击成本(附源码)_滑点设置多少合适-程序员宅基地

文章浏览阅读8.3k次,点赞4次,收藏18次。我们在非撮合回测模式下,因为无法获知交易价格当时的真实盘口价差、挂单数量,常主观设定一个滑点均值,比如针对螺纹钢等合约,设置 1 跳,针对某些交易不活跃的品种,设置 2 跳。但是这种近乎拍脑袋的方法并不精确。我们今天尝试通过简单的辅助工具,实现尽可能接近准确的 tick 级别滑点设置,代码已写好,不用编程也可获得结果。_滑点设置多少合适

推荐文章

热门文章

相关标签