🏠 主页 | 🌐 English

🧬 DNBelab C Series HT scRNA 分析输出文档

单细胞RNA测序分析输出文件完整指南

📁 目录结构📋 文件详情🧬 数据矩阵📊 分析结果📊 报告解读


📖 概述

单细胞RNA分析完成后,会在指定的输出目录中生成标准化的文件和子目录结构,专门用于基因表达谱分析和细胞类型鉴定。本文档详细说明了每个输出文件的内容、格式和用途,帮助用户充分理解和高效利用单细胞RNA分析结果。

💡 提示: 所有输出文件均采用标准格式,兼容主流单细胞分析工具(如Scanpy、Seurat等),遵循国际通用的数据格式规范。


📁 输出目录结构

.
├── analysis/                      # 下游分析结果目录
│   ├── cluster.csv                # 细胞聚类结果文件
│   ├── marker.csv                 # 差异表达基因标记文件
│   └── QC_Cluster.h5ad            # 质控和聚类后的AnnData对象
├── anno_decon_sorted.bam          # 比对注释并排序的BAM文件
├── anno_decon_sorted.bam.bai      # BAM索引文件
├── filter_feature.h5ad            # 过滤后的特征矩阵(AnnData格式)
├── filter_matrix/                 # 过滤后的基因表达矩阵目录
│   ├── barcodes.tsv.gz            # 细胞条形码文件
│   ├── features.tsv.gz            # 基因/特征信息文件
│   └── matrix.mtx.gz              # 稀疏矩阵文件(Market Matrix格式)
├── metrics_summary.xls            # 分析指标汇总表
├── raw_matrix/                    # 原始基因表达矩阵目录
│   ├── barcodes.tsv.gz            # 原始细胞条形码文件
│   ├── features.tsv.gz            # 原始基因/特征信息文件
│   └── matrix.mtx.gz              # 原始稀疏矩阵文件
├── singlecell.csv                 # 单细胞metadata信息表
└── *_scRNA_report.html            # HTML格式的分析报告

📋 详细文件说明

🧬 比对与注释文件

🎯 核心内容: 原始测序数据比对到参考基因组的结果文件,包含完整的比对信息和细胞条形码标记

-----------

📄 anno_decon_sorted.bam

这是包含所有原始数据的 scRNA-seq 比对结果文件。

-----------

📄 anno_decon_sorted.bam.bai

anno_decon_sorted.bam 文件的索引。


📈 特征矩阵文件

🎯 核心内容: 单细胞基因表达计数矩阵,分为原始数据和质控过滤后数据,采用标准稀疏矩阵或AnnData格式

📁 过滤后的基因表达矩阵 (filter_matrix/)

包含经过高质量细胞过滤后的基因表达计数矩阵,是进行下游定量分析的核心数据。

-----------

📁 原始基因表达矩阵 (raw_matrix/)

包含所有检测到的细胞条形码(未经过滤)的原始基因表达计数矩阵。

-----------

📄 filter_feature.h5ad

经过细胞鉴定和过滤后的特征矩阵,采用 AnnData (.h5ad) 格式存储,是 filter_matrix/ 目录内容的替代和补充。


📊 分析结果目录 (analysis/)

🎯 核心内容: 下游生物信息学分析结果,包括细胞聚类、差异基因和质控后数据

-----------

📄 cluster.csv

细胞聚类分析结果文件,采用 CSV 格式。包含每个细胞的ID、所属聚类、降维坐标以及关键质控指标。

-----------

📄 marker.csv

各聚类的差异表达基因(标记基因)列表,采用 CSV 格式。记录了每个基因在特定聚类中的表达显著性、表达量变化等信息。

-----------

📄 QC_Cluster.h5ad

经过完整质控、降维和聚类分析的单细胞数据对象,采用 AnnData (.h5ad) 格式。它整合了上游的表达矩阵和下游的分析结果。


📝 分析指标汇总

🎯 核心内容: 实验质量评估和统计指标汇总,提供完整的数据质量控制信息

📄 metrics_summary.xls

采用 Excel 格式的关键分析指标汇总表,提供了对实验整体质量的全面评估。

-----------

📄 singlecell.csv

采用 CSV 格式的单细胞级别质量控制信息表,记录了每个细胞条形码的详细统计数据。

-----------

📄 *_scRNA_report.html

采用 HTML 网页格式的交互式综合分析报告。


📄 文件格式说明

技术规范: 输出文件采用的标准格式详细说明

📊 Market Matrix格式 (.mtx.gz)

Market Exchange Format (MEX) 是单细胞分析中用于存储稀疏计数矩阵的标准格式,具有空间高效和高度兼容的优点。


🗃️ AnnData格式 (.h5ad)

格式概述: AnnData ("Annotated Data") 是专为矩阵型数据设计的数据结构,特别适用于单细胞RNA测序数据分析。基于HDF5格式,提供高效的数据存储和访问能力。

🏗️ 数据结构

AnnData格式结构图
📁 组件 🎯 功能 📏 维度
X 主表达矩阵 n_cells × n_genes
obs 细胞元数据 n_cells × n_obs_features
var 基因元数据 n_genes × n_var_features
obsm 细胞多维数据 n_cells × n_components
varm 基因多维数据 n_genes × n_components
layers 多层数据 n_cells × n_genes
uns 非结构化数据 任意对象

📊 网页报告释义

🎯 概述: HTML网页报告提供了单细胞RNA测序分析结果的全面可视化展示和详细解读,包含关键性能指标的评估,帮助用户快速了解实验质量和分析结果

HTML网页报告是单细胞RNA测序分析的综合展示平台,整合了从数据质量控制到下游生物学分析的完整结果。该报告采用交互式可视化设计,帮助用户快速评估实验质量、理解分析结果并指导后续研究方向。

💡 使用建议: 建议按照报告展示顺序依次查看各项指标。

⚠️ 质量标准: 各项指标均提供了推荐阈值和质量等级,请结合具体实验目标进行综合评估。

📊 报告主要内容与结构

scRNA网页报告

🧬 核心分析指标详解

🧬 细胞指标 (Cell Metrics)

🎯 核心功能: 细胞识别、质量评估和基因表达统计,提供实验整体效果的关键指标

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Mean reads per cell ≥ 30,000 15,000–30,000 < 15,000
Median genes per cell ≥ 1,000 500–1,000 < 500
Fraction reads in cells ≥ 60% 30–60% < 30%
Sequencing saturation ≥ 40% 20–40% < 20%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Estimated number of cells
估计细胞数量
  • 定义: 从测序数据中鉴定出的有效细胞(区别于背景噪音或空液滴)的总数。
  • 计算过程: 合并同液滴的细胞条形码后,基于空滴模型(EmptyDrops)预测真实细胞。
  • 质量判读:
    • 异常原因: 细胞计数不准、细胞裂解、样本或文库质量差、测序深度低。
Species
物种信息
  • 定义: 分析所采用的物种或参考基因组版本。
  • 说明: 该信息来源于建库时提供的参考基因组,用于确保比对和注释的准确性。
Mean reads per cell
每细胞平均Reads数
  • 定义: 平均分配到每个细胞上的原始测序读段(Reads)数量。
  • 计算: `原始测序读段总数 / 估计细胞数量`
  • 质量判读: 建议此值 ≥ 30,000 以确保充分的转录本覆盖。
Median/Mean UMI per cell
细胞中位/平均UMI数
  • 定义: 每个细胞中检测到的唯一分子标识符(UMI)数量的中位数/平均值。
  • 生物学意义: 用于评估单细胞测序的基因表达水平,比Reads数更能准确地反映原始mRNA分子的丰度。
  • 质量判读: 该指标受细胞类型、测序深度和文库质量影响,数值偏低可能提示测序深度不足或样本质量不佳。
Median/Mean genes per cell
细胞中位/平均基因数
  • 定义: 单个细胞内所检测到的基因数量的中位数/平均值。
  • 生物学意义: 此指标直接反映了单个细胞转录组的复杂度和测序深度。数值越高,表明单细胞数据质量越好。
  • 质量判读:
    • 注意: 该数值受细胞类型和测序深度影响较大。低转录本含量的细胞类型(如血细胞)该值可能较低。
Total genes detected
检测到的总基因数
  • 定义: 在整个样本中检测到的基因总数,要求每个基因至少在一个细胞中检测到一个UMI计数。
  • 生物学意义: 反映样本的整体转录组复杂性和测序是否全面。
  • 质量判读: 数值偏低可能提示测序深度不足或样本的细胞类型单一。
Fraction reads in cells
细胞内Reads比例
  • 定义: 在所有有效比对的Reads(valid barcodes/umi且置信比对上转录本的Reads)中,成功归属于高质量细胞ID的Reads所占的比例。
  • 生物学意义: 反映细胞捕获的效率和信噪比。
  • 质量判读:
    • 质量问题: 比例偏低可能指示样本质量差(如细胞大量破碎,释放游离RNA)或文库构建异常。
Sequencing saturation
测序饱和度
  • 定义: 评估测序深度是否充分的指标,计算方法为 `1 - (去重后的UMI数 / 总Reads数)`。
  • 生物学意义: 反映了文库复杂度和测序的成本效益。高饱和度意味着增加测序深度带来的新基因发现收益递减。
  • 典型范围: 40% – 85% 是一个比较理想的范围。
-----------

🔬 测序指标 (Sequencing Metrics)

🎯 核心功能: 测序数据的基础质量评估,包括条形码识别率、UMI质量和测序准确性

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标类别 推荐值 可接受 需优化
Valid barcodes ≥ 80% 70–80% < 70%
Valid UMIs ≥ 80% 70–80% < 70%
Q30 Base Quality ≥ 85% 75–85% < 75%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Number of reads
测序读段总数
  • 定义: 分配给该样本的原始测序读段(Read Pairs)的总数量。
  • 意义: 代表本次测序的总体数据量。理论上读段数量越多对细胞转录本覆盖就越全面。
Valid barcodes
有效条形码比例
  • 定义: 在所有读段中,其细胞条形码(Cell Barcode)能够匹配到预设白名单(经过容错校正)的读段所占的比例。
  • 生物学意义: 反映了细胞标记的有效性。
  • 质量判读: 比例过低通常提示样本质量问题导致条形码降解和接头污染,或者说明测序过程的错误率偏高。
Valid UMIs
有效UMI比例
  • 定义: 在所有读段中,其唯一分子标识符 (UMI) 序列不包含'N'碱基且不为同聚物(如AAAAAA)的比例。
  • 生物学意义: 反映了UMI序列的测序质量,是准确进行分子计数的关键。
Q30 bases in barcode/UMI/read
Q30碱基比例
  • 定义: 在细胞条形码、UMI 和 RNA读段序列中,测序质量值Q30及以上的碱基所占的比例。
  • 意义: Q30代表碱基的测序错误率低于0.1%,该指标直接影响细胞身份识别、分子计数和基因比对的准确性。

: 以上所有比例的计算均以原始测序读段(Number of Reads)为准,确保了各项指标之间的可比性和一致性。

-----------

🗺️ 比对指标 (Mapping Metrics)

🎯 核心功能: 评估reads与参考基因组的比对质量,包括比对率、特异性和基因组区域分布

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Reads mapped to genome ≥ 80% 50–80% < 50%
Reads mapped confidently to transcriptome ≥ 50% 30-50% < 30%
Reads mapped antisense to gene < 10% 10-30% > 30%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Reads mapped to genome
基因组比对率
  • 定义: 在所有读段中,成功比对到参考基因组上任意位置的读段所占的比例(包括唯一比对和多重比对)。
  • 质量判读:
    • 需要关注: 低于50%可能提示样本污染(如细菌)或物种不匹配。
Reads mapped confidently to genome
基因组置信比对率
  • 定义: 在所有读段中,以高质量(STAR MAPQ值255)成功比对到基因组唯一位置的读段比例。
  • 技术细节: 对于多重比对的读段,仅在一种特定情况下会被校正为置信读段:当该读段同时比对到一个外显子区域和一个或多个非外显子区域时,流程会采纳其在外显子区域的比对结果,并将其保留。
  • 生物学意义: 这是进行基因表达定量和区域分析的有效数据基础。低比例可能由重复序列、序列质量差或参考基因组不匹配引起。
Reads mapped confidently to transcriptome
转录组置信比对率
  • 定义在所有读段中,能够以高置信度唯一比对到单个基因(默认包含外显子和内含子)的读段所占的比例。
  • 技术细节:为保证定量准确性,当一个读段比对区域为多个不同基因的交叉位置时,该读段将被视为来源不明确而被过滤。
  • 生物学意义:此为评估文库质量和数据可靠性的核心指标。比例越高,意味着用于下游定量分析的有效数据越多,结果越可靠。
Reads mapped confidently to exonic regions
外显子区域比对率
  • 定义: 在置信比对到基因组的读段中,落入已注释的外显子区域的比例。
  • 技术细节: 当读段至少有50%落入外显子区域时,才被认为是置信比对到外显子区域。
  • 生物学意义: 这是成熟mRNA的主要来源,是评估文库质量的核心指标。在标准的全细胞scRNA-seq中,该比例应较高。
Reads mapped confidently to intronic regions
内含子区域比对率
  • 定义: 在置信比对到基因组的读段中,落入已注释的内含子区域的比例。
  • 技术细节: 当读段不符合外显子区域分类判定且与内含子区域有交集时,才被认为是置信比对到内含子区域。
  • 生物学意义: 高比例通常表示捕获了大量未剪接的pre-mRNA。这在核测序(snRNA-seq)中是预期的。
Reads mapped confidently to intergenic regions
基因间区比对率
  • 定义: 在置信比对到基因组的读段中,未落入任何已注释基因(包括外显子和内含子)的区域的比例。
  • 质量判读: 比例过高可能提示基因注释不完整或者文库中存在非特异性扩增。
Reads mapped antisense to gene
反义比对率
  • 定义: 成功比对到基因区域但方向与注释基因相反的读段比例。
  • 质量判读: 比例过高可能提示文库构建过程中的方向性问题,或存在未知的反义转录本。
Include introns
包含内含子
  • 定义: 控制是否在基因表达计数中包含比对到内含子区域的reads。
  • 开启状态 (默认):当设置为 True 时,内含子区域的 reads 会被计入相应基因的表达量。此模式能更全面地捕获基因活性,特别适用于核测序或需要分析 pre-mRNA 的场景。
  • 关闭状态:当设置为 False 时,只有外显子区域的 reads 才被计入基因表达量。此模式专注于成熟 mRNA 的定量分析。

: 以上所有比例的计算均以原始测序读段(Number of Reads)为准,确保了各项指标之间的可比性和一致性。

-----------

📈 交互式可视化图表解读

🎯 核心功能: 提供全面的数据可视化分析,从细胞质量控制到下游生物学分析的完整展示

📊 可视化图表组一:细胞质量控制分析

📊 细胞鉴定曲线图 (Barcode Rank Plot)

图表功能:
该图通过将所有细胞按其包含的UMI数进行排序,来区分高质量的真实细胞与背景噪音。

scRNA网页报告

如何解读:

-----------
📊 液滴磁珠分布图 (Droplet Beads Distribution)

图表功能:
展示在真实细胞液滴中,捕获到的细胞条形码(Beads)的数量分布情况。

如何解读:

-----------
📊 细胞数据分布图 (Cell Data Distribution)

图表功能:
通过三个独立的小提琴图,分别展示高质量细胞在 基因数 (nGenes)UMI数 (nUMI)线粒体基因比例 (percent.mt) 这三个关键质量指标上的分布情况。

如何解读:



scRNA网页报告

📊 可视化图表组二:下游生物学分析

🎯 核心功能: 细胞聚类分析、差异基因识别、细胞类型注释和测序深度评估的综合展示

🌀 细胞聚类分析图 (Cluster Analysis)

图表功能:
通过UMAP降维和Louvain聚类算法,将具有相似基因表达模式的细胞在二维空间中聚集在一起,从而识别潜在的细胞亚群。

如何解读:

-----------
📈 标记基因分析 (Marker Genes)

图表功能:
展示每个细胞聚类的特征性差异表达基因,用于识别和注释不同的细胞类型。

如何解读:

-----------
🧬 细胞类型自动注释 (Cell Type Annotation)

图表功能:
在UMAP图上,使用从参考数据库(如scHCL, scMCA)推断的细胞类型对每个聚类进行标注。

如何解读:

-----------
📊 测序饱和度曲线 (Sequencing Saturation Curve)

图表功能:
评估测序深度的充分性和数据复杂度,即继续增加测序量能否发现更多新的基因或UMI。

如何解读:


🎯 更多资源

📚 相关文档

文档类型 资源链接和描述
🚀 快速入门 快速入门指南 - 第一次分析的完整教程
⚙️ 参数参考 参数参考手册 - 所有可配置参数的详细说明
🔬 分析流程 分析流程说明 - 整个分析流程的技术细节
🔧 安装配置 安装配置指南 - 系统要求、安装步骤和环境配置

💡 提示

本文档持续更新中,如发现内容错误或需要补充的信息,欢迎反馈。

📝 文档版本: 3.0 beta | 最后更新: 2025年


🔬 DNBelab C Series HT scRNA Analysis Software
高性能单细胞RNA测序数据分析流程