🧬 DNBelab C Series HT scRNA 分析输出文档

单细胞RNA测序分析输出文件完整指南

📁 目录结构 • 📋 文件详情 • 🧬 数据矩阵 • 📊 分析结果 • 📊 报告解读

📖 概述

单细胞RNA分析完成后，会在指定的输出目录中生成标准化的文件和子目录结构，专门用于基因表达谱分析和细胞类型鉴定。本文档详细说明了每个输出文件的内容、格式和用途，帮助用户充分理解和高效利用单细胞RNA分析结果。

💡 提示: 所有输出文件均采用标准格式，兼容主流单细胞分析工具（如Scanpy、Seurat等），遵循国际通用的数据格式规范。

📁 输出目录结构

.
├── analysis/                      # 下游分析结果目录
│   ├── cluster.csv                # 细胞聚类结果文件
│   ├── marker.csv                 # 差异表达基因标记文件
│   └── QC_Cluster.h5ad            # 质控和聚类后的AnnData对象
├── anno_decon_sorted.bam          # 比对注释并排序的BAM文件
├── anno_decon_sorted.bam.bai      # BAM索引文件
├── filter_feature.h5ad            # 过滤后的特征矩阵（AnnData格式）
├── filter_matrix/                 # 过滤后的基因表达矩阵目录
│   ├── barcodes.tsv.gz            # 细胞条形码文件
│   ├── features.tsv.gz            # 基因/特征信息文件
│   └── matrix.mtx.gz              # 稀疏矩阵文件（Market Matrix格式）
├── metrics_summary.xls            # 分析指标汇总表
├── raw_matrix/                    # 原始基因表达矩阵目录
│   ├── barcodes.tsv.gz            # 原始细胞条形码文件
│   ├── features.tsv.gz            # 原始基因/特征信息文件
│   └── matrix.mtx.gz              # 原始稀疏矩阵文件
├── singlecell.csv                 # 单细胞metadata信息表
└── *_scRNA_report.html            # HTML格式的分析报告

📋 详细文件说明

🧬 比对与注释文件

🎯 核心内容: 原始测序数据比对到参考基因组的结果文件，包含完整的比对信息和细胞条形码标记

-----------

📄 anno_decon_sorted.bam

这是包含所有原始数据的 scRNA-seq 比对结果文件。

核心用途:
- 深度分析与可视化: 可用于 IGV 等基因组浏览器进行深度可视化，检查特定基因座的比对情况和剪接模式。
- 自定义分析: 为需要直接操作比对级别数据的用户提供原始输入，例如进行可变剪接分析、RNA速率分析等。
内容与格式:
- 采用国际标准的 BAM (Binary Alignment Map) 格式。
- 文件已按基因组坐标排序，并建立了索引（.bai 文件），便于快速随机访问。
- 每个读段都通过 TAG 字段标记了细胞来源、UMI 和基因注释信息。

关键TAG字段说明:

BAM文件通过丰富的TAG字段来存储单细胞特有的信息，主要分为细胞/分子标识和基因注释两大类。

🧬 细胞和分子标识标签：

标签	类型	描述	生物学意义
`CB`	String	细胞条形码合并后的细胞ID	用于将reads归属到特定细胞，是经过纠错和合并的最终细胞ID
`CC`	String	经过错误校正细胞条形码序列	纠错后的细胞条形码，是生成`CB`标签的中间步骤
`CR`	String	原始测序细胞条形码	保留原始测序信息，用于质量评估和错误追溯
`CY`	String	细胞条形码质量分数	Phred质量分数，评估条形码测序的可靠性
`UB`	String	错误校正后的UMI序列	用于分子去重，识别PCR重复和原始mRNA分子
`UR`	String	原始测序UMI序列	保留原始UMI信息，用于质量评估和算法优化
`UY`	String	UMI质量分数	Phred质量分数，评估UMI测序的准确性

🧬 基因注释和功能标签：

标签	类型	描述	功能用途
`GX`	String	Ensembl ID	基因表达定量的主要ID
`GN`	String	基因名称	便于生物学解释，支持基因功能注释
`TX`	String	转录本ID	用于转录本水平的表达分析和可变剪接研究
`AN`	String	反义转录本标记	识别反义RNA，评估文库方向性和非编码RNA表达
`RE`	String	基因组区域类型	区分外显子(E)、内含子(N)、基因间区(I)，用于转录组特征分析

-----------

📄 anno_decon_sorted.bam.bai

anno_decon_sorted.bam 文件的索引。

核心用途:
- 快速数据访问: 允许 IGV、Samtools 等工具在无需完整加载BAM文件的情况下，快速跳转和读取任意基因组区域的比对数据。
- 性能保障: 是所有对BAM文件进行随机访问操作的性能保障。

格式与说明:

索引文件由 samtools index 命令生成。为了兼容不同大小的基因组，流程会自动选择合适的索引格式（BAI 或 CSI）。

格式类型	使用说明
BAI 格式	默认生成的索引格式，兼容性最佳，适用于大多数分析工具和基因组。
CSI 格式	当BAM文件包含长度超过 512 Mbp (2^29-1 bp) 的染色体时自动生成，以支持超大基因组。

📈 特征矩阵文件

🎯 核心内容: 单细胞基因表达计数矩阵，分为原始数据和质控过滤后数据，采用标准稀疏矩阵或AnnData格式

📁 过滤后的基因表达矩阵 (`filter_matrix/`)

包含经过高质量细胞过滤后的基因表达计数矩阵，是进行下游定量分析的核心数据。

核心用途:
- 下游定量分析: 作为细胞聚类、差异表达分析等分析的主要输入。
- 高质量数据: 只包含被鉴定为真实细胞的条形码，确保分析结果的准确性。

内容与格式:

采用标准的 Market Matrix Exchange (MEX) 格式（关于矩阵格式详见Market Matrix格式说明），由以下三个压缩文件组成：

文件名	内容描述
`barcodes.tsv.gz`	细胞ID列表，标识通过质控筛选的高质量细胞。每行包含一个细胞ID信息，对应矩阵的列索引
`features.tsv.gz`	基因/特征信息文件，包含基因ID、名称和类型。每行包含三列信息，对应矩阵的行索引
`matrix.mtx.gz`	基因表达计数矩阵，采用 Market Matrix 格式。包含矩阵维度信息和非零元素的行、列索引及数值

格式优势:
- 空间高效: 稀疏矩阵格式（.mtx）仅存储非零元素，极大节省了存储空间。
- 高度兼容: MEX 格式是单细胞社区的标准，兼容 Seurat, Scanpy 等几乎所有主流分析工具。

-----------

📁 原始基因表达矩阵 (`raw_matrix/`)

包含所有检测到的细胞条形码（未经过滤）的原始基因表达计数矩阵。

核心用途:
- 质量控制评估: 可用于评估细胞过滤的效果，或根据自定义标准进行手动过滤。
- 数据完整性: 保留了所有原始数据，可用于深度挖掘或在需要时重新分析。
内容与格式:
- 采用标准的 Market Matrix Exchange (MEX) 格式，其文件组成与 filter_matrix/ 目录完全相同。
- 包含所有被检测到的条形码，包括高质量细胞、低质量细胞和背景液滴。

-----------

📄 filter_feature.h5ad

经过细胞鉴定和过滤后的特征矩阵，采用 AnnData (.h5ad) 格式存储，是 filter_matrix/ 目录内容的替代和补充。

核心用途:
- Python生态系统集成: 作为 scanpy 等Python单细胞分析库的标准输入格式，无缝衔接下游分析。
- 数据整合: 单个文件即可封装表达矩阵、细胞元数据和基因元数据，便于管理和分享。
内容与格式:
- 基于 HDF5 的二进制格式，详细格式参考AnnData格式说明。

📊 分析结果目录 (`analysis/`)

🎯 核心内容: 下游生物信息学分析结果，包括细胞聚类、差异基因和质控后数据

-----------

📄 cluster.csv

细胞聚类分析结果文件，采用 CSV 格式。包含每个细胞的ID、所属聚类、降维坐标以及关键质控指标。

核心用途:
- 聚类结果可视化: 可直接用于绘图软件，可视化UMAP降维结果。
- 细胞注释基础: 为手动或自动细胞类型注释提供基础分组信息。
内容与格式:
- 每一行代表一个高质量细胞，主要列包括：
  - Barcode: 细胞ID
  - Cluster: 该细胞所属的聚类编号
  - UMAP_1, UMAP_2: UMAP降维的二维坐标
  - nGene, nUMI: 每个细胞检测到的基因数和UMI数

-----------

📄 marker.csv

各聚类的差异表达基因（标记基因）列表，采用 CSV 格式。记录了每个基因在特定聚类中的表达显著性、表达量变化等信息。

核心用途:
- 细胞类型鉴定: 通过查找已知细胞类型的标记基因，对无监督聚类结果进行生物学注释。
- 功能富集分析: 可作为后续GO、KEGG等功能富集分析的输入基因列表。
内容与格式:
- 每一行代表一个基因在一个聚类中的差异表达信息，主要列包括：
  - cluster: 基因作为标记基因的聚类编号
  - gene: 基因名称
  - avg_log2FC: 平均对数倍数变化
  - p_val_adj: 调整后的p值，评估统计显著性
  - pct.1, pct.2: 该基因在目标聚类和其他聚类中的表达细胞比例

-----------

📄 QC_Cluster.h5ad

经过完整质控、降维和聚类分析的单细胞数据对象，采用 AnnData (.h5ad) 格式。它整合了上游的表达矩阵和下游的分析结果。

核心用途:
- 分析复现与探索: 包含完整的分析流程和结果，可直接在scanpy中加载，进行深入探索性分析或可视化。
- 数据交付: 作为最终分析结果的交付文件，结构清晰，信息完整。
内容与格式:
- 在 filter_feature.h5ad 的基础上，增加了以下信息：
  - obs: 包含聚类结果 (cluster) 等细胞元数据。
  - obsm: 包含降维坐标 (X_umap)。
  - uns: 包含标记基因 (marker_genes) 等非结构化结果。

📝 分析指标汇总

🎯 核心内容: 实验质量评估和统计指标汇总，提供完整的数据质量控制信息

📄 metrics_summary.xls

采用 Excel 格式的关键分析指标汇总表，提供了对实验整体质量的全面评估。

核心用途:
- 质量评估: 快速评估测序数据质量、比对效率、细胞鉴定结果等核心指标。
- 结果概览: 无需查看所有文件即可对分析结果有一个全面的了解。

内容与格式:

包含三大类别的关键指标：

指标类别	包含内容
基本统计	总 reads数、有效条形码比例、UMI质量、Q30碱基质量等基础测序指标
细胞识别	估计细胞数量、每细胞中位基因/UMI数、测序饱和度等细胞调用结果
比对指标	基因组比对率、转录组比对率、外显子/内含子比例等比对统计

内置推荐的质量控制标准，方便用户判断：
推荐质量阈值：
- ✅ 有效条形码比例: >70%
- ✅ Q30碱基质量: >75%（条形码和UMI区域）
- ✅ 转录组置信比对率: >30%
- ✅ 细胞内reads比例: >50% (核样本>30%)
- ✅ 每细胞平均reads数: >15,000

-----------

📄 singlecell.csv

采用 CSV 格式的单细胞级别质量控制信息表，记录了每个细胞条形码的详细统计数据。

核心用途:
- 精细化质控: 支持用户根据自定义标准进行更精细的细胞过滤和分析。
- 下游分析输入: 可作为下游分析工具的细胞元数据(metadata)输入，支持VDJ分析中的细胞过滤和磁珠合并操作。
内容与格式:
- 每一行代表一个细胞条形码。
- 主要列包括：UMI数量、基因数量、线粒体基因比例以及是否被判定为高质量细胞、磁珠合并信息等。

-----------

📄 *_scRNA_report.html

采用 HTML 网页格式的交互式综合分析报告。

核心用途:
- 结果可视化: 以交互式图表的形式，直观展示质控结果、细胞聚类、标记基因等关键分析结果。
- 结果解读: 提供各项指标的生物学意义和技术解释，帮助用户深度解读数据。
- 便捷分享: 单个 HTML 文件，易于传阅和分享。
内容与格式:
- 无需网络，可在任何现代浏览器中打开。
- 报告的详细解读请参考本文档下方的网页报告释义部分。

📄 文件格式说明

技术规范: 输出文件采用的标准格式详细说明

📊 Market Matrix格式 (`.mtx.gz`)

Market Exchange Format (MEX) 是单细胞分析中用于存储稀疏计数矩阵的标准格式，具有空间高效和高度兼容的优点。

核心优势:
- 空间高效: 稀疏矩阵仅存储非零元素，对于通常超过95%为零值的单细胞数据，可极大节省存储空间。
- 高度兼容: 作为国际标准格式，可被 Seurat, Scanpy 等几乎所有主流分析工具直接读取。

文件组成:

一个完整的MEX格式数据由以下 三个文件 构成：

文件名	描述
`matrix.mtx.gz`	压缩的稀疏矩阵文件。文件头包含矩阵维度，后续每行记录一个非零元素的位置（行/列索引）和数值。
`barcodes.tsv.gz`	压缩的细胞条形码文件。每行是一个细胞ID，行号对应矩阵的列。格式例如`CELL1_N2`，其中`CELL1`为细胞ID，`N2`为由两个条形码组成。
`features.tsv.gz`	压缩的特征（基因）文件。每行包含基因ID、基因名称等信息，行号对应矩阵的行。

🗃️ AnnData格式 (`.h5ad`)

格式概述: AnnData ("Annotated Data") 是专为矩阵型数据设计的数据结构，特别适用于单细胞RNA测序数据分析。基于HDF5格式，提供高效的数据存储和访问能力。

🏗️ 数据结构

📁 组件	🎯 功能	📏 维度
X	主表达矩阵	n_cells × n_genes
obs	细胞元数据	n_cells × n_obs_features
var	基因元数据	n_genes × n_var_features
obsm	细胞多维数据	n_cells × n_components
varm	基因多维数据	n_genes × n_components
layers	多层数据	n_cells × n_genes
uns	非结构化数据	任意对象

📊 网页报告释义

🎯 概述: HTML网页报告提供了单细胞RNA测序分析结果的全面可视化展示和详细解读，包含关键性能指标的评估，帮助用户快速了解实验质量和分析结果

HTML网页报告是单细胞RNA测序分析的综合展示平台，整合了从数据质量控制到下游生物学分析的完整结果。该报告采用交互式可视化设计，帮助用户快速评估实验质量、理解分析结果并指导后续研究方向。

💡 使用建议: 建议按照报告展示顺序依次查看各项指标。

⚠️ 质量标准: 各项指标均提供了推荐阈值和质量等级，请结合具体实验目标进行综合评估。

📊 报告主要内容与结构

🧬 核心分析指标详解

🧬 细胞指标 (Cell Metrics)

🎯 核心功能: 细胞识别、质量评估和基因表达统计，提供实验整体效果的关键指标

📊 质量控制标准：

注意: 以下标准仅供参考，实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异，建议结合具体实验背景进行判断。

指标名称	推荐值	可接受	需优化
Mean reads per cell	≥ 30,000	15,000–30,000	< 15,000
Median genes per cell	≥ 1,000	500–1,000	< 500
Fraction reads in cells	≥ 60%	30–60%	< 30%
Sequencing saturation	≥ 40%	20–40%	< 20%

🔍 详细指标解释：

指标名称	详细解释与技术要求
Estimated number of cells 估计细胞数量	定义: 从测序数据中鉴定出的有效细胞（区别于背景噪音或空液滴）的总数。计算过程: 合并同液滴的细胞条形码后，基于空滴模型（EmptyDrops）预测真实细胞。质量判读: 异常原因: 细胞计数不准、细胞裂解、样本或文库质量差、测序深度低。
Species 物种信息	定义: 分析所采用的物种或参考基因组版本。说明: 该信息来源于建库时提供的参考基因组，用于确保比对和注释的准确性。
Mean reads per cell 每细胞平均Reads数	定义: 平均分配到每个细胞上的原始测序读段（Reads）数量。计算: `原始测序读段总数 / 估计细胞数量` 质量判读: 建议此值 ≥ 30,000 以确保充分的转录本覆盖。
Median/Mean UMI per cell 细胞中位/平均UMI数	定义: 每个细胞中检测到的唯一分子标识符(UMI)数量的中位数/平均值。生物学意义: 用于评估单细胞测序的基因表达水平，比Reads数更能准确地反映原始mRNA分子的丰度。质量判读: 该指标受细胞类型、测序深度和文库质量影响，数值偏低可能提示测序深度不足或样本质量不佳。
Median/Mean genes per cell 细胞中位/平均基因数	定义: 单个细胞内所检测到的基因数量的中位数/平均值。生物学意义: 此指标直接反映了单个细胞转录组的复杂度和测序深度。数值越高，表明单细胞数据质量越好。质量判读: 注意: 该数值受细胞类型和测序深度影响较大。低转录本含量的细胞类型（如血细胞）该值可能较低。
Total genes detected 检测到的总基因数	定义: 在整个样本中检测到的基因总数，要求每个基因至少在一个细胞中检测到一个UMI计数。生物学意义: 反映样本的整体转录组复杂性和测序是否全面。质量判读: 数值偏低可能提示测序深度不足或样本的细胞类型单一。
Fraction reads in cells 细胞内Reads比例	定义: 在所有有效比对的Reads（valid barcodes/umi且置信比对上转录本的Reads）中，成功归属于高质量细胞ID的Reads所占的比例。生物学意义: 反映细胞捕获的效率和信噪比。质量判读: 质量问题: 比例偏低可能指示样本质量差（如细胞大量破碎，释放游离RNA）或文库构建异常。
Sequencing saturation 测序饱和度	定义: 评估测序深度是否充分的指标，计算方法为 `1 - (去重后的UMI数 / 总Reads数)`。生物学意义: 反映了文库复杂度和测序的成本效益。高饱和度意味着增加测序深度带来的新基因发现收益递减。典型范围: 40% – 85% 是一个比较理想的范围。

-----------

🔬 测序指标 (Sequencing Metrics)

🎯 核心功能: 测序数据的基础质量评估，包括条形码识别率、UMI质量和测序准确性

📊 质量控制标准：

注意: 以下标准仅供参考，实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异，建议结合具体实验背景进行判断。

指标类别	推荐值	可接受	需优化
Valid barcodes	≥ 80%	70–80%	< 70%
Valid UMIs	≥ 80%	70–80%	< 70%
Q30 Base Quality	≥ 85%	75–85%	< 75%

🔍 详细指标解释：

指标名称	详细解释与技术要求
Number of reads 测序读段总数	定义: 分配给该样本的原始测序读段（Read Pairs）的总数量。意义: 代表本次测序的总体数据量。理论上读段数量越多对细胞转录本覆盖就越全面。
Valid barcodes 有效条形码比例	定义: 在所有读段中，其细胞条形码（Cell Barcode）能够匹配到预设白名单（经过容错校正）的读段所占的比例。生物学意义: 反映了细胞标记的有效性。质量判读: 比例过低通常提示样本质量问题导致条形码降解和接头污染，或者说明测序过程的错误率偏高。
Valid UMIs 有效UMI比例	定义: 在所有读段中，其唯一分子标识符 (UMI) 序列不包含'N'碱基且不为同聚物（如AAAAAA）的比例。生物学意义: 反映了UMI序列的测序质量，是准确进行分子计数的关键。
Q30 bases in barcode/UMI/read Q30碱基比例	定义: 在细胞条形码、UMI 和 RNA读段序列中，测序质量值Q30及以上的碱基所占的比例。意义: Q30代表碱基的测序错误率低于0.1%，该指标直接影响细胞身份识别、分子计数和基因比对的准确性。

注: 以上所有比例的计算均以原始测序读段(Number of Reads)为准，确保了各项指标之间的可比性和一致性。

-----------

🗺️ 比对指标 (Mapping Metrics)

🎯 核心功能: 评估reads与参考基因组的比对质量，包括比对率、特异性和基因组区域分布

📊 质量控制标准：

注意: 以下标准仅供参考，实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异，建议结合具体实验背景进行判断。

指标名称	推荐值	可接受	需优化
Reads mapped to genome	≥ 80%	50–80%	< 50%
Reads mapped confidently to transcriptome	≥ 50%	30-50%	< 30%
Reads mapped antisense to gene	< 10%	10-30%	> 30%

🔍 详细指标解释：

指标名称	详细解释与技术要求
Reads mapped to genome 基因组比对率	定义: 在所有读段中，成功比对到参考基因组上任意位置的读段所占的比例（包括唯一比对和多重比对）。质量判读: 需要关注: 低于50%可能提示样本污染（如细菌）或物种不匹配。
Reads mapped confidently to genome 基因组置信比对率	定义: 在所有读段中，以高质量（STAR MAPQ值255）成功比对到基因组唯一位置的读段比例。技术细节: 对于多重比对的读段，仅在一种特定情况下会被校正为置信读段：当该读段同时比对到一个外显子区域和一个或多个非外显子区域时，流程会采纳其在外显子区域的比对结果，并将其保留。生物学意义: 这是进行基因表达定量和区域分析的有效数据基础。低比例可能由重复序列、序列质量差或参考基因组不匹配引起。
Reads mapped confidently to transcriptome 转录组置信比对率	定义在所有读段中，能够以高置信度唯一比对到单个基因（默认包含外显子和内含子）的读段所占的比例。技术细节：为保证定量准确性，当一个读段比对区域为多个不同基因的交叉位置时，该读段将被视为来源不明确而被过滤。生物学意义：此为评估文库质量和数据可靠性的核心指标。比例越高，意味着用于下游定量分析的有效数据越多，结果越可靠。
Reads mapped confidently to exonic regions 外显子区域比对率	定义: 在置信比对到基因组的读段中，落入已注释的外显子区域的比例。技术细节: 当读段至少有50%落入外显子区域时，才被认为是置信比对到外显子区域。生物学意义: 这是成熟mRNA的主要来源，是评估文库质量的核心指标。在标准的全细胞scRNA-seq中，该比例应较高。
Reads mapped confidently to intronic regions 内含子区域比对率	定义: 在置信比对到基因组的读段中，落入已注释的内含子区域的比例。技术细节: 当读段不符合外显子区域分类判定且与内含子区域有交集时，才被认为是置信比对到内含子区域。生物学意义: 高比例通常表示捕获了大量未剪接的pre-mRNA。这在核测序（snRNA-seq）中是预期的。
Reads mapped confidently to intergenic regions 基因间区比对率	定义: 在置信比对到基因组的读段中，未落入任何已注释基因（包括外显子和内含子）的区域的比例。质量判读: 比例过高可能提示基因注释不完整或者文库中存在非特异性扩增。
Reads mapped antisense to gene 反义比对率	定义: 成功比对到基因区域但方向与注释基因相反的读段比例。质量判读: 比例过高可能提示文库构建过程中的方向性问题，或存在未知的反义转录本。
Include introns 包含内含子	定义: 控制是否在基因表达计数中包含比对到内含子区域的reads。开启状态 (默认)：当设置为 `True` 时，内含子区域的 reads 会被计入相应基因的表达量。此模式能更全面地捕获基因活性，特别适用于核测序或需要分析 pre-mRNA 的场景。关闭状态：当设置为 `False` 时，只有外显子区域的 reads 才被计入基因表达量。此模式专注于成熟 mRNA 的定量分析。

注: 以上所有比例的计算均以原始测序读段(Number of Reads)为准，确保了各项指标之间的可比性和一致性。

-----------

📈 交互式可视化图表解读

🎯 核心功能: 提供全面的数据可视化分析，从细胞质量控制到下游生物学分析的完整展示

📊 可视化图表组一：细胞质量控制分析

📊 细胞鉴定曲线图 (Barcode Rank Plot)

图表功能:
该图通过将所有细胞按其包含的UMI数进行排序，来区分高质量的真实细胞与背景噪音。

如何解读:

视觉编码: 🔵 蓝线（有效细胞）| ⬜ 灰线（背景噪音）| 🔷 蓝色渐变区（混合区域）
图表轴系详解:
- X轴: Barcode Rank（细胞排序）- 按UMI总数降序排列（对数刻度）
- Y轴: UMI Counts（UMI计数）- 每个细胞的总UMI数量（对数刻度）
- 交互: 悬停显示细胞排序位置、UMI数量和该区段真实细胞比例
质量评估指导:
- 理想模式: 明显"拐点"区分真实细胞和背景，真实细胞区域陡峭下降，背景区域平缓分布
- 异常模式: 缺乏明显拐点（细胞浓度过低）、平缓下降（背景RNA过高）

-----------

📊 液滴磁珠分布图 (Droplet Beads Distribution)

图表功能:
展示在真实细胞液滴中，捕获到的细胞条形码（Beads）的数量分布情况。

如何解读:

理论分布: 液滴中磁珠的数量分布理论上符合泊松分布，这反映了微反应体系中随机捕获过程的统计特性。
实际影响: 最终的分布会受到测序饱和度、液滴大小均一性、细胞浓度等实验因素的影响。

-----------

📊 细胞数据分布图 (Cell Data Distribution)

图表功能:
通过三个独立的小提琴图，分别展示高质量细胞在 基因数 (nGenes)、UMI数 (nUMI) 和 线粒体基因比例 (percent.mt) 这三个关键质量指标上的分布情况。

如何解读:

基因数和UMI数: 分布的中心（最宽处）越高，表明细胞的转录组复杂度和捕获效率越高。
线粒体基因比例: 分布应集中在较低的百分比（通常 < 10-20%）。比例过高可能表示细胞凋亡或压力状态。

📊 可视化图表组二：下游生物学分析

🎯 核心功能: 细胞聚类分析、差异基因识别、细胞类型注释和测序深度评估的综合展示

🌀 细胞聚类分析图 (Cluster Analysis)

图表功能:
通过UMAP降维和Louvain聚类算法，将具有相似基因表达模式的细胞在二维空间中聚集在一起，从而识别潜在的细胞亚群。

如何解读:

左图 (细胞类型聚类): 每个点代表一个细胞，不同颜色代表不同的细胞聚类。空间位置相近的细胞，其基因表达谱也更相似。
右图 (UMI数分布): 在相同的UMAP空间上，用颜色梯度展示每个细胞的总UMI数。可用于辅助判断聚类结果的可靠性，例如某些cluster是否由低质量细胞组成。

-----------

📈 标记基因分析 (Marker Genes)

图表功能:
展示每个细胞聚类的特征性差异表达基因，用于识别和注释不同的细胞类型。

如何解读:

关键指标解释:
- P-val: 差异表达的统计显著性p值，数值越小表示差异越显著（阈值: < 0.05显著，< 0.01高度显著）
- p_val_adj: 经Bonferroni多重检验校正后的调整p值，控制假阳性率（推荐使用调整p值进行最终筛选）
- avg_log2FC: 平均对数倍数变化（log2尺度）
- pct.1 / pct.2: 目标聚类/其他聚类中表达该基因的细胞比例
交互功能: 聚类筛选（下拉菜单选择特定聚类）| 基因搜索（搜索框快速定位基因表达）

-----------

🧬 细胞类型自动注释 (Cell Type Annotation)

图表功能:
在UMAP图上，使用从参考数据库（如scHCL, scMCA）推断的细胞类型对每个聚类进行标注。

如何解读:

注释结果: 为每个聚类提供一个可能的细胞类型标签。
物种支持: Human(Homo sapiens)/ Mouse(Mus musculus), 其他物种不提供细胞类型注释。
使用建议: 自动注释结果仅供参考，其准确性依赖于参考数据库的质量和样本的相似性。建议结合标记基因进行手动验证和校正。

-----------

📊 测序饱和度曲线 (Sequencing Saturation Curve)

图表功能:
评估测序深度的充分性和数据复杂度，即继续增加测序量能否发现更多新的基因或UMI。

如何解读:

坐标轴: X轴为平均每个细胞的测序读段数，Y轴为饱和度/平均每个细胞的中位基因数。
曲线趋势: 曲线如果趋于平缓，表明测序已接近饱和，增加测序深度对发现新基因的贡献不大。如果曲线仍在快速上升，则表明增加测序可能仍有较大收益。

🎯 更多资源

📚 相关文档

文档类型	资源链接和描述
🚀 快速入门	快速入门指南 - 第一次分析的完整教程
⚙️ 参数参考	参数参考手册 - 所有可配置参数的详细说明
🔬 分析流程	分析流程说明 - 整个分析流程的技术细节
🔧 安装配置	安装配置指南 - 系统要求、安装步骤和环境配置

💡 提示

本文档持续更新中，如发现内容错误或需要补充的信息，欢迎反馈。

📝 文档版本： 3.0 beta | 最后更新： 2025年

🔬 DNBelab C Series HT scRNA Analysis Software
高性能单细胞RNA测序数据分析流程

🧬 DNBelab C Series HT scRNA 分析输出文档

📖 概述

📁 输出目录结构

📋 详细文件说明

🧬 比对与注释文件

📄 anno_decon_sorted.bam

📄 anno_decon_sorted.bam.bai

📈 特征矩阵文件

📁 过滤后的基因表达矩阵 (filter_matrix/)

📁 原始基因表达矩阵 (raw_matrix/)

📄 filter_feature.h5ad

📊 分析结果目录 (analysis/)

📄 cluster.csv

📄 marker.csv

📄 QC_Cluster.h5ad

📝 分析指标汇总

📄 metrics_summary.xls

📄 singlecell.csv

📄 *_scRNA_report.html

📄 文件格式说明

📊 Market Matrix格式 (.mtx.gz)

🗃️ AnnData格式 (.h5ad)

🏗️ 数据结构

📊 网页报告释义

📊 报告主要内容与结构

🧬 核心分析指标详解

🧬 细胞指标 (Cell Metrics)

🔬 测序指标 (Sequencing Metrics)

🗺️ 比对指标 (Mapping Metrics)

📈 交互式可视化图表解读

📊 可视化图表组一：细胞质量控制分析

📊 细胞鉴定曲线图 (Barcode Rank Plot)

📊 液滴磁珠分布图 (Droplet Beads Distribution)

📊 细胞数据分布图 (Cell Data Distribution)

📊 可视化图表组二：下游生物学分析

🌀 细胞聚类分析图 (Cluster Analysis)

📈 标记基因分析 (Marker Genes)

🧬 细胞类型自动注释 (Cell Type Annotation)

📊 测序饱和度曲线 (Sequencing Saturation Curve)

🎯 更多资源

📚 相关文档

📁 过滤后的基因表达矩阵 (`filter_matrix/`)

📁 原始基因表达矩阵 (`raw_matrix/`)

📊 分析结果目录 (`analysis/`)

📊 Market Matrix格式 (`.mtx.gz`)

🗃️ AnnData格式 (`.h5ad`)