🏠 主页 | 🌐 English

🧬 DNBelab C Series HT scATAC 分析输出文档

单细胞ATAC测序分析输出文件完整指南

📁 目录结构📋 文件详情🧬 数据矩阵📊 分析结果📊 报告解读


📖 概述

单细胞ATAC测序分析完成后,会在指定的输出目录中生成标准化的文件和子目录结构,专门用于染色质可及性分析和表观基因组学研究。本文档详细说明了每个输出文件的内容、格式和用途,帮助用户充分理解和高效利用单细胞ATAC分析结果。

💡 提示: 所有输出文件均采用标准格式,兼容主流单细胞表观基因组分析工具(如Signac、ArchR等),遵循国际通用的数据格式规范。


📁 输出目录结构

.
├── alignment.fragments.sorted.tagged.bam       # 质控后的比对结果(分析需添加need_bam参数)
├── alignment.fragments.sorted.tagged.bam.bai   # 比对结果索引文件
├── filter_peak_matrix/                         # 过滤后的峰矩阵MEX格式目录
│   ├── barcodes.tsv.gz                         # 过滤后的细胞条形码信息
│   ├── matrix.mtx.gz                           # 过滤后的稀疏矩阵格式的峰信号数据
│   └── peaks.bed.gz                            # 过滤后的峰位置信息
├── fragments.tsv.gz                            # 包含所有比对到基因组的片段信息
├── fragments.tsv.gz.tbi                        # 片段文件的索引,用于快速随机访问
├── filtered.fragments.tsv.gz                   # 质量控制后的ATAC片段文件,仅包含通过细胞过滤的片段信息
├── filtered.fragments.tsv.gz.tbi               # 细胞过滤的片段文件的Tabix索引,支持基因组区间的快速查询
├── metrics_summary.xls                         # 分析质量指标汇总表
├── raw_peak_matrix/                            # 原始峰矩阵MEX格式目录
│   ├── barcodes.tsv.gz                         # 原始细胞条形码信息
│   ├── matrix.mtx.gz                           # 原始稀疏矩阵格式的峰信号数据
│   └── peaks.bed.gz                            # 原始峰位置信息
├── singlecell.csv                              # 细胞信息汇总表
└── *_scATAC_report.html                        # HTML格式的分析报告

📋 文件详细说明

🧬 ATAC片段和峰文件

🎯 核心内容: ATAC-seq片段信息和峰识别结果,包含完整的染色质可及性数据和细胞条形码标记

-----------

📄 fragments.tsv.gz

fragments.tsv.gz 是一个包含 ATAC-seq 片段信息的压缩 TSV 文件,是进行下游分析的核心数据之一。它的主要特点和内容如下:

-----------

📄 fragments.tsv.gz.tbi

fragments.tsv.gz 文件的 Tabix 索引。

-----------

📄 filtered.fragments.tsv.gz

这是经过细胞质量控制和过滤后的 ATAC-seq 片段文件,是 fragments.tsv.gz 的子集,仅包含高质量细胞的片段。

-----------

📄 filtered.fragments.tsv.gz.tbi

filtered.fragments.tsv.gz 文件的 Tabix 索引。

-----------

📄 alignment.fragments.sorted.tagged.bam

这是包含所有具有有效条形码(valid barcode)并且成功比对的片段的 ATAC-seq 比对结果文件。

-----------

📄 alignment.fragments.sorted.tagged.bam.bai

alignment.fragments.sorted.tagged.bam 文件的索引。


📈 峰矩阵文件

🎯 核心内容: 单细胞峰信号计数矩阵,分为原始数据和质控过滤后数据,采用标准稀疏矩阵格式

📁 过滤后的峰矩阵 (filter_peak_matrix/)

包含经过高质量细胞过滤后的峰计数矩阵,是进行下游定量分析的核心数据。

-----------

📁 原始峰矩阵 (raw_peak_matrix/)

包含所有检测到的细胞条形码(未经过滤)的原始峰计数矩阵。


📝 分析指标汇总

🎯 核心内容: 实验质量评估和统计指标汇总,提供完整的数据质量控制信息

📄 metrics_summary.xls

采用 Excel 格式的关键分析指标汇总表,提供了对实验整体质量的全面评估。

-----------

📄 singlecell.csv

采用 CSV 格式的单细胞级别质量控制信息表,记录了每个细胞条形码的详细统计数据。

-----------

📄 *_scATAC_report.html

采用 HTML 网页格式的交互式综合分析报告。


📄 文件格式说明

技术规范: 输出文件采用的标准格式详细说明

📊 Market Matrix格式 (.mtx.gz)

Market Exchange Format (MEX) 是单细胞分析中用于存储稀疏计数矩阵的标准格式,具有空间高效和高度兼容的优点。


📊 网页报告释义

🎯 概述: HTML 网页报告提供了单细胞ATAC测序分析结果的全面可视化展示和详细解读,包含关键性能指标的评估,帮助用户快速了解实验质量和分析结果

HTML网页报告是单细胞ATAC测序分析的综合展示平台,整合了从数据质量控制到下游表观基因组学分析的完整结果。该报告采用交互式可视化设计,帮助用户快速评估实验质量、理解分析结果并指导后续研究方向。

💡 使用建议: 建议按照报告展示顺序依次查看各项指标。

⚠️ 质量标准: 各项指标均提供了推荐阈值和质量等级,请结合具体实验目标进行综合评估。

📊 报告主要内容与结构

scATAC网页报告

🧬 核心分析指标详解

🧬 细胞指标 (Cell Metrics)

🎯 核心功能: 细胞识别、质量评估和染色质可及性统计,提供实验整体效果的关键指标

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Median fragments per cell ≥ 10,000 2,000–10,000 < 2,000
TSS enrichment score ≥ 6 4–6 < 4
Median fraction of fragments overlapping peaks ≥ 30% 15–30% < 15%
Median fraction of fragments overlapping TSS ≥ 20% 10–20% < 10%
Fraction fragments in cells ≥ 50% 20–50% < 20%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Estimated number of cells
估计细胞数量
  • 定义: 从测序数据中鉴定出的有效细胞(区别于背景噪音或空液滴)的总数。
  • 计算过程: 合并同液滴的细胞条形码后,通过峰区域片段数量、TSS比例等参数进行过滤。
  • 质量判读:
    • 异常原因: 细胞计数不准、细胞裂解、样本或文库质量差、测序深度低。
Species
物种信息
  • 定义: 分析所采用的物种或参考基因组版本。
  • 说明: 该信息来源于建库时提供的参考基因组,用于确保比对和注释的准确性。
Median fragments per cell
每细胞中位片段数
  • 定义: 单个细胞内所包含的有效ATAC-seq片段数量的中位数。
  • 生物学意义: 此指标直接反映了单个细胞核内染色质开放区域的捕获效率和测序深度。数值越高,表明单细胞数据质量越好。
  • 质量判读:
    • 高质量标准: ≥ 10,000
    • 推荐最低值: ≥ 2,000
    • 注意: 该数值受细胞类型和测序深度影响较大。
Mean raw read pairs per cell
每细胞平均原始读段对数
  • 定义: 平均分配到每个细胞上的原始测序读段对(Read Pairs)数量。
  • 计算: `原始测序读段对总数 / 估计细胞数量`
  • 质量判读: 建议此值 ≥ 25,000 以确保充分的染色质覆盖。
Fraction overlapping peaks
片段重叠峰区域比例
  • 定义: 单个细胞内,其片段(fragments)落入开放染色质区域(Peaks)的比例。
  • 生物学意义: 这是一个关键的信噪比指标。高比例意味着转座酶攻击更集中于开放染色质,数据信噪比高。
  • 质量判读:
    • 质量警告: < 15% 可能提示样本质量问题。
Fraction overlapping TSS
TSS区域片段重叠比例
  • 定义: 单个细胞内,其片段落在转录起始位点(TSS)±2kb 区域内的比例。
  • 生物学意义: 评估染色质在启动子区域的活跃性与测序特异性的关键指标。
  • 质量判读:
    • 质量警告: < 10% 可能提示样本质量问题。
Fraction of fragments in cells
细胞内片段比例
  • 定义: 在所有有效片段中,成功归属于高质量细胞ID的片段所占的比例。
  • 生物学意义: 反映细胞捕获的效率和信噪比。
  • 质量判读:
    • 质量问题: 比例偏低可能指示样本质量差或文库构建异常。
Number of peaks
识别峰数量
  • 定义: 通过聚合所有细胞的信号后,在全基因组范围内识别出的开放染色质区域(峰)的总数量。
  • 生物学意义: 反映了样本的整体复杂度和可检测到的调控元件数量。
  • 影响因素: 受细胞数量、细胞类型异质性及测序深度影响。
  • 典型范围: 50,000 – 150,000 个。
-----------

🔬 测序指标 (Sequencing Metrics)

🎯 核心功能: 测序数据的基础质量评估,包括条形码识别率、比对质量和测序准确性

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标类别 推荐值 可接受 需优化
Valid barcodes ≥ 80% 70–80% < 70%
Q30 bases in barcode > 85% 75–85% < 75%
Q30 bases in read > 85% 75–85% < 75%
Reads mapped to genome > 80% 50–80% < 50%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Total read pairs
测序读段对总数
  • 定义: 分配给该样本的原始测序读段对(Read Pairs)的总数量。
  • 意义: 代表本次测序的总体数据量。
Valid barcodes
有效条形码比例
  • 定义: 在所有读段中,其细胞条形码(Cell Barcode)能够匹配到预设白名单(经过容错校正)的读段所占的比例。
  • 生物学意义: 反映了细胞标记的有效性。
  • 质量判读: 比例过低通常提示文库构建问题(如条形码降解、污染)或测序错误率高。
Reads mapped to genome
基因组比对率
  • 定义: 在所有读段中,成功比对到参考基因组上任意位置的读段所占的比例。
  • 质量判读:
    • 需要关注: < 50% 可能提示样本污染或物种不匹配。
Mitochondria reads ratio
线粒体reads比例
  • 定义: 所有比对上的读段中,比对到线粒体基因组上的读段所占的比例。
  • 生物学意义: 这是细胞健康状况的一个重要指标。
  • 质量判读: 比例过高(如 > 10%)通常提示细胞死亡或裂解过度,导致胞质中的线粒体DNA被大量捕获。
Nucleosome-free regions
无核小体区域比例
  • 定义: 来自开放染色质区域(即无核小体区域)的片段比例。
  • 生物学意义: 反映了有效的ATAC-seq信号强度。
  • 质量判读: 高比例(如 > 40%)表示良好的染色质可及性信号和高效的转座酶活性。
Mono-nucleosome regions
单核小体区域比例
  • 定义: 包含单个核小体的片段区域所占的比例。
  • 生物学意义: 反映了染色质结构的完整性。该指标与“无核小体区域比例”共同评估染色质状态。
Q30 bases in barcode
条形码Q30碱基比例
  • 定义: 在细胞条形码(Cell Barcode)序列中,测序质量值Q30及以上的碱基所占的比例。
  • 意义: Q30代表碱基的测序错误率低于0.1%,该指标直接影响细胞身份识别的准确性。
Q30 bases in read
读段Q30碱基比例
  • 定义: 在测序读段(Read)序列中,测序质量值Q30及以上的碱基所占的比例。
  • 意义: 反映了整体测序数据的质量水平,是后续比对和片段识别准确性的基础。
-----------

📈 可视化图表1

🎯 核心功能: 细胞质量控制、片段分析和染色质可及性评估的多维度可视化展示

📊 细胞排序图 (Barcode Rank Plot)

图表功能:
该图通过将所有细胞条形码按其包含的片段数进行排序,来区分高质量的真实细胞与背景噪音。

如何解读:

-----------
📊 液滴磁珠分布图 (Droplet Beads Distribution)

图表功能:
展示在真实细胞液滴中,捕获到的细胞条形码(Beads)的数量分布情况。

如何解读:

-----------
📊 细胞数据分布图 (Cell Data Distribution)

图表功能:
通过三个独立的小提琴图(Violin Plots),分别展示高质量细胞在 片段数 (Fragments)TSS富集比例 (TSS Proportion)Peak区域片段比例 (Peak Proportion) 这三个关键质量指标上的分布情况。

如何解读:

-----------
📊 片段长度分布图 (Fragment Length Distribution)

图表功能:
展示去重后ATAC-seq片段的插入长度分布,是评估样本质量和染色质结构完整性的关键图表。

如何解读:


scATAC网页报告

📈 其他核心指标 (Additional Key Metrics)

Percent duplicates (重复序列百分比)

-----------

Jaccard threshold (Jaccard相似度阈值)


📈 可视化图表2

🎯 核心功能: 细胞聚类分析、TSS富集模式、饱和度评估和磁珠相似性的高级可视化展示

🌀 细胞聚类分析图 (Cluster Analysis)

图表功能:
通过UMAP降维和Louvain聚类算法,将具有相似染色质可及性模式的细胞在二维空间中聚集在一起,从而识别潜在的细胞亚群。

如何解读:

-----------
📈 转录起始位点(TSS)富集图 (TSS Enrichment Profile)

图表功能:
展示在所有基因的转录起始位点(TSS)周围,ATAC-seq片段切割位点的富集情况,是衡量ATAC-seq信噪比和数据质量的核心指标。

如何解读:

-----------
📊 单细胞靶向图 (Single Cell Targeting Plot)

图表功能:
通过散点图展示每个细胞的两个关键质量指标,用于评估细胞识别(Cell Calling)算法的效果。

如何解读:

-----------
📈 饱和度曲线图 (Saturation Curve)

图表功能:
评估测序深度的充分性和数据复杂度,即继续增加测序量能否发现更多新的(Unique)片段。

如何解读:

-----------
📊 磁珠相似性排序图 (Bead Similarity Ranking)

图表功能:
该图用于C4 ATAC技术中,通过计算Jaccard相似度来合并来自同一细胞液滴的多个磁珠(Beads)。

如何解读:


🎯 更多资源

📚 相关文档

文档类型 资源链接和描述
🚀 快速入门 快速入门指南 - 第一次分析的完整教程
⚙️ 参数参考 参数参考手册 - 所有可配置参数的详细说明
🔬 分析流程 分析流程说明 - 整个分析流程的技术细节
🔧 安装配置 安装配置指南 - 系统要求、安装步骤和环境配置

💡 提示

本文档持续更新中,如发现内容错误或需要补充的信息,欢迎反馈。

📝 文档版本: 3.0 beta | 最后更新: 2025年


🔬 DNBelab C Series HT scATAC Analysis Software
高性能单细胞ATAC测序数据分析流程