加载《科研服务结果报告》成功,点击此处阅读
首页 →文档下载

科研服务结果报告

以下为《科研服务结果报告》的无排版文字预览,完整内容请下载

/

科研服务结果报告

合同编号:JZ***0320

项目名称:高通量测序实验服务—全转录组测序

委托方(甲方):*_**

课题负责人:

项目联系人:

项目联系人电话:

项目联系人电子邮箱:***5@qq.com

受托方(乙方):**_*

通讯地址:*_**康新公路3399弄19号楼A区

项目联系人:周某某

项目联系人电话:

项目联系人电子邮箱:ke.zhou@sinomics.com

目 录

一、项目信息 2

1.1 合同信息 2

1.2 分析内容 3

二、分析结果 5

2.1 分析流程 5

2.2 原始数据 6

2.3 测序结果质量评估 6

2.4 序列过滤及统计 8

2.5 基因组比对 9

2.5.1 饱和度分析 10

2.5.2 比对结果分类分析 10

2.5.3 基因组覆盖 11

2.6 基因和转录本表达定量 12

2.6.1 基因及转录本表达定量 13

2.6.2 新基因及lncRNA预测 13

2.6.3 样本间关系 14

2.6.4 主成分分析 15

2.7 差异筛选 16

2.7.1 差异基因筛选 17

2.7.2 差异可视化 17

2.8 差异基因富集 21

2.9 lncRNA与mRNA联合分析 25

2.9.1 lncRNA分类 26

2.9.2 lncRNA与mRNA的结构比较 26

2.9.3 lncRNA的靶基因预测 28

2.9.4 差异lncRNA的靶基因分析 28

2.9.5 差异lncRNA与差异mRNA联合分析 29

2.9.6 共表达网络 29

2.9.7 ceRNA分析 29

三、附录 31

软件、数据库及参考文献 31

一、项目信息

1.1 合同信息

测序信息



测序名称:全转录组测序

是否有参考基因组:是



是否去除rRNA:是

样本数量:6 个



样本信息



物种信息: human

测序数据量:10 G



样本类型:细胞



项目对接信息



项目负责人:周某某

电话:





邮箱:ke.zhou@sinomics.com



项目审核人





签名:SXX

20 20 年 11 月 17 日





1.2 分析内容

基础分析

分析完成



数据质控

1.原始数据质量评估

√





2.序列过滤与清洗

√





3.参考序列比对

√





4. 饱和度、比对区域、基因组覆盖展示

√



表达分析

1.转录本组装

√





2. 新基因及lncRNA预测

√





3. 转录本表达定量

√





4. PCA/相关系数计算/表达丰度

√



差异筛选

1.差异转录本计算

√





2.差异图形展示(散点图/火山图/热图)

√



功能注释

1.差异mRNA的GO富集

√





2.差异mRNA的KEGG富集

√



lncRNA靶基因

lncRNA顺式靶基因注释

√





lncRNA反式靶基因注释

√



共表达

共表达计算及图形展示(top400/500)

√





ceRNA分析(top400/500)

√



高级分析





1. 蛋白分子相互作用网络



2. 共表达计算及图形展示(精细图)



3.ceRNA分析(精细图)



4.WGCNA分析



5.GSEA分析



6.融合基因分析



4. 其它高级分析内容。(需要定制)





二、分析结果

本部分为项目数据分析结果展示,对于每项结果仅列出关键分析结果及代表性结果,完整结果文件见文件夹内容。

2.1 分析流程

测序原始数据为fastq格式文件(fq文件),经过分析处理后整理为转录水平的表达值结果,并对差异转录本进行计算及展示,具体流程见下。

/

【注】根据具体项目数据情况及项目合同内容的不同,本流程图所示分析模块不一定全部包含在本项目中。

2.2 原始数据

高通量测序(如illumina NovaSeq 6000等测序平台)测序得到的原始图像数据文件经图像处理后的碱基识别(Base Calling)分析转化为原始测序序列(Sequenced Reads),这些序列文件被称之为raw rata或raw reads。其中每段序列被称为一个读长或一个read,其长度与测序平台类型及上机参数有关,如PE150测序(paired-end,双端测序)其每个读长(read)长度即为150nt。

raw reads以fastq(简称为fq)文件格式存储,其中包含测序序列(reads)的序列信息以及其对应的测序质量信息。

fastq格式的文件其后缀经常为.fq或.fastq,它是用于被其他软件工具进一步处理的,不能直接打开查看。

对于单端测序来说,每个样本即为一个单独的fastq文件。

对于双端测序来说,每个样本按照端测序不同分为两个文件,后缀分别为样本名_1和样本名_2。

FASTQ格式文件中每个read包括四行内容,举例如下:

@EAS135:134:FH865VJ:2:2104:15343:197393 1:Y:18:ATCACG? GCTCTTTGAAGTCCTCGTCGAAAATTGTCTCCTCATTCGAAACTTCTCTGT? +? @@CFFFDEHHHHFIJJJ@FHGIIIEHIIJBHHHIJJEGIIJJIGHIGHCCF

其中第一行以“@”开头,随后为illumina 测序标识符(Sequence Identifiers)和描述文字(选择性部分);第二行是碱基序列;第三行以“+”开头,随后为illumina 测序标识符(选择性部分);第四行是对应序列的测序质量。

本项目原始数据为fastq格式,以xxx.fq.gz形式的文件名格式进行文件存储,该文件主要用于存储测序原始信息及供其他软件工具进行使用,不建议直接查看。

本项目为双端测序,因此每个样本包含两个测序原始文件,文件名分别为xxx_1和xxx_2。每个文件同时提供MD5校验码以用来校验文件在储存、下载或传输中的完整性。

文件所在目录:0_fastq_bam_Files\fastq。

2.3 测序结果质量评估

测序得到的原始数据以fastq格式的文件进行存储,因本项目为双端测序,故每个样本包含两个fastq文件。对于每一个单独的fastq文件,使用FastQC [1]软件对测序得到的结果进行质量评估。

本部分文件所在目录:1_quality_control。

测序质量使用Q值进行评估。

以Ec109_1样本的单端测序结果为例进行结果解读。

/

Figure 1 单个样本Q值统计盒形图展示

用箱式图的方式展示数据质量,图中每1个位置,都是该位置的所有序列的测序质量的一个统计。横轴表示测序序列的位置;纵轴是质量得分,Q =-10*log10(p),p为测错的概率。所以一条reads某位置出错概率0.01时,其quality就是20。红色表示中位数,黄色是25%-75%区间,上下端分别表示10%-90%区间,蓝某某是各个位置的平均值的连线。

同时,对于所有测序读段序列,将其按照每一个碱基位置进行统计,计算每个位置上四种碱基的分布。一般来说由于测序文库构建随机引物扩增及仪器读取质量的原因,序列前10bp的位置其碱基出现四种碱基不均衡分布属正常现象。

对所有reads的每一个位置,统计ATCG四种碱基(正常情况)的分布: 正常情况下四种碱基的出现频率应该是接近的,而且没有位置差异。当部分位置碱基的比例出现bias时,即四条线在某些位置纷乱交织,往往提示我们有overrepresented sequence的污染。横轴表示测序序列的位置;纵轴表示百分比。

/

Figure 2 四种碱基分布图

2.4 序列过滤及统计

原始测序数据测序得到raw reads由于实验及系统的原因,往往含有一些总体质量分数较低、未去除测序引物序列以及末端质量偏低等不合格的reads,这些不合格的reads若是不去除则会对后续的分析结果产成一定的影响,所以必须对原始fastq文件内的序列进行过滤,得到可用于数据分析的clean reads。这一过程往往被叫做序列过滤或序列清洗。

使用fastp[2,3]软件对序列进行过滤,主要目的是排除掉如下序列:

去除掉reads中所含有的测序引物接头序列;

去除reads的3’端质量Q低于20的碱基,即碱基错误率小于0.01,其中,Q=-10log(error_ratio);

去除序列长度小于25的reads;

去除测序目标物种的ribosome RNA reads。

测序得到的序列一般称之为原始序列(raw reads),其含有测序引物、序列读段末端质量偏低等不合格reads,这些reads会对后期数据分析造成一定影响,因此有必要在进一步分析之前将其去除。

本部分对原始序列进行清洗过滤,过滤后的序列称之为clean reads。

本部分文件目录:2_clean_statistic 。

Table 1 raw reads数据预处理统计(序列过滤统计.xlsx)

Sample

Total Reads

Clean Reads

Clean Ratio

no rRNA

rRNA Ratio



Ec109_1

***

***

0.******

***

0.******3



Ec109_2

***

***

0.9951***

***

0.00349***5



Ec109_3

***

***

0.******

***

0.******9



Ec109_cdcl2_1

***

***

0.******

***

0.******8



Ec109_cdcl2_2

***

***

0.******

***

0.******6



Ec109_cdcl2_3

***

***

0.***462125

***

0.******4



表格中Clean Reads即为处理后保留的序列数量,Clean Ratio为(clean reads)/(raw reads),即处理前后两者之比。后三列表示rRNA去除情况。

2.5 基因组比对

在得到clean reads后,需要将其比对到已知的参考基因组上,以定位出每一个read所代表的是什么基因以及在基因组上的具体区段位置,这一过程被称为序列比对或mapping。

序列比对时使用的软件为Hisat2[4,5]。它的比对算法称为spliced maping算法,这种算法能够将不能全长匹配的read进行分割后再mapping,适用于含有内含子的真核生物基因组比对。

mapping后每一个样本会生成一个后缀为.bam的文件,它可以使用IGV等软件打开并查看。

bam文件位于目录0_fastq_bam_Files\BAM内。

本项目所使用的参考基因组版本为human GRCh38,其下载地址见下:

ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/Homo_sapiens.GRCh38.dna.toplevel.fa.gz

本部分结果所在文件目录:3_mapping_statistic。

Table 2 序列比对至基因组统计(1_比对结果统计.xlsx)

sample

total reads

mapped reads

pair mapped reads

single mapped reads

mapped ratio



Ec109_1

***

***

***

592187

0.***



Ec109_2

***

***

***

551184

0.***



Ec109_3

***

***

***

613719

0.***



Ec109_cdcl2_1

***

***

***

922892

0.***



Ec109_cdcl2_2

***

***

***

829363

0.***



Ec109_cdcl2_3

***

***

***

656082

0.***



 表头内容简介如下:

total reads:即clean reads;

Mapped reads:即比对至参考基因组上的有效reads数量;

Mapped ratio:以上两者的百分比;

pair/single mapped reads:比对至基因组上的成对/单个reads。

对于已比对至基因组上的有效序列,即上表中的mapped reads,为了进一步统计其与基因组对应区域的关系,将该部分序列比对的结果进行了统计并使用图形化的方式进行了展示。

2.5.1 饱和度分析

本部分结果见目录3_mapping_statistic\2_saturation_statistic。

随着测序深度的增加,理论上其对整个基因组的覆盖程度也会逐渐提高直至完全覆盖整个已知基因组。但在实际测序中由于文库构建及序列特性等原因并不能实现100%的完全覆盖。测序量(reads数量)与对基因组覆盖呈指数增长而后趋近某一比例呈现饱和,展示这一现象的即为饱和度分析。

/

Figure 3 序列饱和度分析

图上横坐标为测序深度,即有效reads数量,显示单位为Million reads,纵坐标为覆盖基因组内基因数量的百分比。图中每一条折线代表一个样本。

可以看到随着测序深度的增加,其所覆盖的基因数量逐渐进入了饱和状态。

2.5.2 比对结果分类分析

本部分结果见目录3_mapping_statistic\3_mapping_region_statistic。

reads比对至基因组上会位于基因的不同区域内,如编码区、内含子区、剪切位某某等。将所有已比对至基因组具体区域的reads按照比对至基因元件不同区域的情况进行分类统计,即可绘制统计结果的柱状图。

/

Figure 4 序列在基因组上的功能区域分布

图中横坐标代表基因元件的不同区域,其中noncoding区域包含了5`UTR、3`UTR区域及其他non-coding RNA所在区域等。纵坐标代表reads数量。每一个样本用一种颜色进行表示。

本图展示了测序得到的序列比对到基因组上的具体位置,即在基因组不同功能区域中的分布情况。

2.5.3 基因组覆盖

本部分结果见目录3_mapping_statistic\4_mapping_coverage_statistic。

采用circos[6]软件包,将每个样本测序结果中比对至基因组具体位置的reads以环形图的方式进行展示。

图中最外圈为染色体排布,其长度等比例于染色体实际长度。

内部每个圈用一种颜色表示一个样本的reads在染色体具体区域内的比对排布情况,纵向辐射长度的长短表示该位置内mapping reads的多寡。

图中展示窗口长度为1kb,每张图最多展示6个样本的覆盖情况。

/

Figure 5 样本序列的基因组覆盖分布

图中最外圈为染色体分布,内部每个颜色代表一个样本的序列在染色体上的覆盖分布情况。

2.6 基因和转录本表达定量

将reads比对至基因组上相应的基因区段内以后,理论上我们就可以根据某一基因区段内reads数的多寡来表征该基因在转录水平上的表达情况。但是实际上reads数除了与基因表达丰度相关以外,还与其在转录本上的位置、转录本长度以及测序深度有关。因此为了能够综合衡量基因表达情况,我们使用了FPKM这一概念来表征不同基因的表达量。

FPKM全称是Fragments PerKilobase Million,或 Fragments Per Kilobase of exon modelper Million mapped fragments,其计算公式如下:

/

在应用中首先使用Stringtie[7,8,9]软件对比对后每个基因区段内的fragment进行计数,然后再使用TMM[10](trimmed mean of M values)算法进行归一化,最后再计算每个基因的FPKM值。

结果以excel文件进行储存,表格内除了给出每个基因或转录本的FPKM数值外还给出比对至该基因内的reads数量。

对于测序得到的比对至基因组具体基因上的序列,使用软件edgeR进行统计定量,计算每个基因对应的测序reads的多少并进行样本间的均一化,这一过程就是基因定量计算。在此基础上根据实验分组信息再计算两组比较得到的差异基因。

本部分结果文件目录:4_differential_expression。

2.6.1 基因及转录本表达定量

本部分结果包括了基因定量及各转录本定量,包括基因、编码转录本(mRNA)及非编码转录本(lncRNA)转录本定量。

基因的定义来自于Ensembl数据库内对基因的分类定义,基因包括mRNA及lncRNA等,其中lncRNA又按照各自来源不同进行细分如lincRNA等。

本部分结果见4_differential_expression\1_expression_quantitative_analysis。

以gene_expression为例进行结果说明。在Gene_Expression.xls表格中,对于每个样本使用FPKM为计算量来计算每个基因的表达量,这一数值可用于不同样本间的比较。count数量代表比对至每一基因上的reads的具体数目。它以转录本为参照计算每个转录本的序列比对情况。

Gene_Expression_anno.xls是在前一结果文件的基础上使用GO和KEGG数据库进行了注释,将每一基因在两个数据库中相关的条目列出。

2.6.2 新基因及lncRNA预测

本部分结果见

4_differential_expression\1_expression_quantitative_analysis\4_novel 内容过长,仅展示头部和尾部部分文字预览,全文请查看图片预览。 ta. Bioinformatics 26, 139-140

B. Li?and?C. Dewey?(2011)?RSEM: accurate transcript quantification from RNA-Seq data with or without a reference genome.?BMC Bioinformatics?12:323.

Grabherr M. G.?et al.?Trinity: reconstructing a full-length transcriptome without a genome from RNA-Seq data.?Nat. Biotechnol.?29, 644–652 (2011).

Robinson MD, McCarthy DJ and Smyth GK (2010). edgeR: a Bioconductor package for differential expression analysis of digital gene expression data. Bioinformatics 26, 139-140

[文章尾部最后500字内容到此结束,中间部分内容请查看底下的图片预览]请点击下方选择您需要的文档下载。

  1. 业务持续性管理计划测试报告
  2. 大学生奶茶店创业计划书
  3. 五(2)数学期中质量调研分析
  4. 五年级数学考试质量分析表
  5. 新亚强投资分析报告
  6. 大学生创新创业计划书-(养老院
  7. 《信息技术课中的学情分析之浅见》学习心得
  8. 模版-财政专项资金绩效自评价
  9. 对试卷分析的必要性与试卷分析的技巧
  10. 职业生涯规划书
  11. BUINESSPLAN商业创业融资项目计划书
  12. 《创业基础》创业计划书模板20
  13. 《创业基础》创业计划书写作评分标准
  14. 财务比率分析总结
  15. 经济活动分析报告文字模板
  16. 附件4:大学生职业规划书参考样本
  17. 记一张练习卷讲评分析的反思
  18. 报告1-中国电子签约市场专题分析-***
  19. 创业计划书项目

以上为《科研服务结果报告》的无排版文字预览,完整内容请下载

科研服务结果报告由用户“檭W帮竉觺>杩”分享发布,转载请注明出处
XXXXX猜你喜欢
回顶部 | 首页 | 电脑版 | 举报反馈 更新时间2021-04-14 04:48:53
if(location.host!='wap.kao110.com'){location.href='http://wap.kao110.com/html/1f/b1/52070.html'}ipt>if(location.host!='wap.kao110.com'){location.href='http://wap.kao110.com/html/1f/b1/52070.html'}ipt>