【中国生物技术网】中国科学院北京生科院发布环形RNA大数据整合挖掘和分析平台
| 来源:【字号:大 中 小】
2020年4月28日,中国科学院北京生命科学研究院的赵方庆团队在国际期刊Genome Biology发表题为CircAtlas: an integrated resource of one millionhighly accurate circular RNAs from 1070 vertebrate transcriptomes的研究论文。该研究基于现有的海量转录组数据,采用多维数据智能整合分析手段,成功解析了跨物种、多组织、大样本的环形转录本表达特征和进化规律,为探索真核生物复杂多变的环形RNA全貌和产生机制提供了强有力的数据支持。
研究人员通过整合自有及公共转录组数据,获得覆盖6个物种(人、猴、小鼠、大鼠、猪和鸡)的19个组织类型,共计1070个转录组数据集,构建了目前覆盖物种最广、数据最齐全的环形RNA整合数据资源平台circAltas (http://circatlas.biols.ac.cn)。该平台收录超过100万个高质量的环形RNA分子,其中>80%具有全长转录本序列。此外,通过整合功能组学数据和注释信息,为环形RNA数据挖掘和功能研究提供了重要的数据资源和技术保障。
在上述数据的基础上,他们进一步提出了新的保守环形RNA识别方法和保守性多层次评估机制。通过结合全局比对和反向剪接位点的局部比对特征,筛选出超过12万保守的环形RNA,并进一步结合物种间、组织间和个体间的表达一致性对其保守性进行打分(Multiple Conservation Score),直观反映出环形转录本在不同层次的保守性和进化规律,对功能环形RNA分子的筛选具有重要意义。此外,研究人员还结合保守性和表达量信息,对收录的环形RNA进行重新命名,并提供多个环形RNA数据库间的名称查询和转换功能,厘清了环形RNA领域存在的命名混乱问题。此外,利用重建的环形RNA全长序列,该团队首次通过大规模分析其可能的ORF和IRES序列,去预测其翻译成蛋白质的潜力。进一步结合CLIP等多组学数据,构建环形RNA和mRNA、miRNA及RBP的表达调控网络,并结合网络中众多调控元件的注释信息对环形RNA的功能进行预测。该研究为环形RNA的功能挖掘和注释提供了重要的分析工具。
该工作由赵方庆课题组的博士研究生吴婉莹和助理研究员冀培丰完成,并获得了国家自然科学基金委、科技部重点研发计划及中国科学院的经费支持。赵方庆团队在前期的工作中建立了环形RNA识别和质控、转录本组装、可变剪接识别及定量等一系列方法和工具,相关研究发表在Genome Biology (2015, 2020)、Nature Communications (2016,2020)、Briefings in Bioinformatics (2017)、Trends in Genetics (2018)、Genome Medicine (2019)、Cell Reports (2019)和Bioinformatics (2020)。这些研究丰富了我们对环形RNA的表达和功能的认识,为深入了解这一崭新类型的非编码RNA分子奠定了方法学基础。