🏠 主页 | 🌐 English

🧬 DNBelab C Series HT scVDJ 分析输出文档

单细胞V(D)J测序分析输出文件完整指南

📁 目录结构📋 文件详情📊 分析结果📊 报告解读


📖 概述

单细胞VDJ分析完成后,会在指定的输出目录中生成标准化的文件和子目录结构,专门用于免疫受体库谱分析。本文档详细说明了每个输出文件的内容、格式和用途,帮助用户充分理解和高效利用V(D)J分析结果。

💡 提示: VDJ分析需要基于5'端RNA测序数据,所有输出文件遵循AIRR标准并兼容主流免疫组学分析工具。

⚠️ 前提条件: 需要先完成5'端单细胞RNA测序分析


📁 输出目录结构

.
├── airr_annotations.tsv                    # AIRR标准格式的注释文件
├── all_contig_annotations.csv              # 所有组装序列的注释信息
├── all_contig.fasta                        # 所有组装序列的FASTA文件
├── all_contig.fasta.fai                    # 所有组装序列的索引文件
├── clonotypes.csv                          # 克隆型分析结果
├── consensus_annotations.csv               # 一致性序列注释信息
├── consensus.fasta                         # 一致性序列FASTA文件
├── consensus.fasta.fai                     # 一致性序列索引文件
├── filtered_contig_annotations.csv         # 过滤后组装序列的注释信息
├── filtered_contig.fasta                   # 过滤后的组装序列FASTA文件
├── filtered_contig.fasta.fai               # 过滤后组装序列的索引文件
├── metrics_summary.xls                     # 分析质量指标汇总表
└── *_scVDJ_TR(IG)_report.html              # HTML格式的分析报告

📋 文件详细说明

🧬 VDJ组装和注释文件

🎯 核心内容: V(D)J 重叠群序列组装、精确注释和质量评估结果,涵盖 TCR 和 BCR 重排序列的完整信息

-----------

🧵 V(D)J 转录本结构与组成

典型 V(D)J 转录本结构示意:

V(D)J 转录本结构示意图

🔍 重要术语解释:

组成区域 英文缩写 生物学功能
非翻译区 UTR (Untranslated Region) 调控 mRNA 稳定性和翻译效率,不编码蛋白质
框架区 FWR (Framework Region) 维持免疫球蛋白折叠的保守性结构框架
互补决定区 CDR (Complementarity Determining Region) 直接与抗原接触,决定结合特异性的关键可变区域

🧬 技术优势: V(D)J 分析流程可精确识别并提供框架区(FWR)和互补决定区(CDR)的氨基酸与核苷酸序列。所有组装重叠群和克隆型共识序列的 V(D)J 注释信息均以多种标准格式输出。

-----------

🔍 重要注释标准说明

📋 全长序列判定标准 (Full Length)

重叠群序列被认定为 全长序列 须同时满足以下严格条件:

🧬 生产性序列判定标准 (Productive)

重叠群序列被认定为 生产性序列(具有功能活性)须同时满足以下所有条件:

🎯 高置信度序列判定 (High Confidence)

🔬 不同细胞类型的预期受体配置:

细胞类型 标准受体配置 生物学意义
T 细胞 1 个生产性 TRA 链 + 1 个生产性 TRB 链 正常 TCR α/β 异源二聚体
B 细胞 1 个生产性重链 + 1 个生产性轻链(κ 或 λ) 正常 BCR 重链/轻链配对

🤔 低置信度序列标记原则:

⚠️ 重要提示:超出正常配置的额外生产性重叠群通常为异常情况,可能源于:

异常类型 原因分析
环境污染 游离 mRNA 的非特异性捕获,可能来自外源污染或凋亡细胞释放的核酸
双细胞事件 液滴中包含多个细胞 (doublets),导致无法区分不同细胞的受体信号
技术伪影 PCR 扩增或测序过程中的人工序列,包括嵌合体序列或错误的引物结合

📉 低置信度序列的判定依据:

-----------

📄 airr_annotations.tsv

包含V(D)J重排的注释序列和共识序列,采用AIRR标准格式。

-----------

📄 all_contig_annotations.csv

包含所有重叠群序列(来自细胞和背景条形码)的详细注释信息。

-----------

📄 all_contig.fasta

包含所有组装重叠群的核苷酸序列。

-----------

📄 filtered_contig_annotations.csv

all_contig_annotations.csv 的优质子集,仅包含通过质量过滤的高置信度、且来源于细胞的重叠群注释结果。

-----------

📄 filtered_contig.fasta

all_contig.fasta 的优质子集,仅包含通过质量过滤和细胞调用的优质重叠群序列。


📊 克隆型谱系分析文件

🎯 核心内容: TCR 和 BCR 克隆型谱系的精确识别、频率统计和 CDR3 序列多样性分析

-----------

📄 clonotypes.csv

克隆型统计分析文件,提供每个独特克隆型的详细描述信息。

-----------

📄 consensus_annotations.csv

提供每个克隆型共识序列的详细注释信息。

-----------

📄 consensus.fasta

包含每个克隆型共识序列的FASTA文件。


📝 分析指标汇总

🎯 核心内容: V(D)J 组装质量的全面评估和统计指标汇总,提供完整的数据质量控制信息

-----------

📄 metrics_summary.xls

采用 Excel 格式的关键分析指标汇总表,提供了对实验整体质量的全面评估。

-----------

📄 *_scVDJ_TR(IG)_report.html

采用 HTML 网页格式的交互式综合分析报告。


📊 网页报告释义

🎯 概述: HTML 网页报告提供了单细胞 V(D)J 测序分析结果的全面可视化展示和详细解读,包含关键性能指标的评估,帮助用户快速了解实验质量和分析结果

HTML网页报告是单细胞VDJ测序分析的综合展示平台,整合了从数据质量控制到下游免疫组库分析的完整结果。该报告采用交互式可视化设计,帮助用户快速评估实验质量、理解分析结果并指导后续研究方向。

💡 使用建议: 建议按照报告展示顺序依次查看各项指标。

⚠️ 质量标准: 各项指标均提供了推荐阈值和质量等级,请结合具体实验目标进行综合评估。

📊 报告主要内容与结构

scVDJ网页报告

🧬 核心分析指标详解

🧬 VDJ 分析指标 (VDJ Analysis Metrics)

🎯 核心功能: 细胞识别、质量评估和免疫受体组装统计,提供实验整体效果的关键指标

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Mean reads per cell ≥ 10,000 5,000–10,000 < 5,000
Fraction of Reads in Cells ≥ 50% 20–50% < 20%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Estimated number of cells
估计细胞数量
  • 定义: 与表达目标 V(D)J 转录本的细胞相关联的条形码数量估计值。
  • 影响因素: 加载细胞数量和表达 V(D)J 转录本的细胞比例。
  • 质量判读:
    • 异常原因: 细胞计数不准确、T/B 细胞富集效果差、样本或文库质量差、测序深度低。
Mean reads per cell
平均每细胞读数统计
  • 定义: 输入测序读数对总数除以估计有效细胞数量的比值。
  • 技术要求:
    • 最低测序深度:每细胞 5,000 个读数对(双端测序)。
    • 单端测序建议深度翻倍至每细胞 10,000 个读数。
  • 质量判读: 测序深度不足可能导致 V(D)J 细胞识别准确性下降和组装质量降低。
Fraction of Reads in Cells
细胞内读数占比
  • 定义: 具有细胞相关条形码的读数数量与具有有效条形码的读数总量的比值。
  • 质量判读:
    • 优质样本特征: 高比例表明细胞捕获效率良好,背景噪音控制有效。
    • 质量问题指示: 比例偏低可能指示生物样本质量问题或细胞浓度不当、文库构建质量控制问题或技术操作失误。
Median TRA/TRB or IGH/IGK/IGL UMIs per cell
每细胞特异性链 UMI 中位数
  • 定义: 分配给特定免疫受体链(如 IGH、TRA、TRB、IGK、IGL 等)转录本的 UMI 分子数中位数统计。
  • 生物学意义: 该指标直接反映每个细胞的 TCR/BCR 表达水平和转录活跃程度。
Number of cells with TRA/TRB or IGH/IGK/IGL contig
含有TRA/TRB或IGH/IGK/IGL重组子的细胞
  • 定义: 通过单细胞测序检测到至少一条T细胞受体(TRA/TRB)或B细胞受体(IGH/IGK/IGL)基因重组的细胞。
  • 说明: 包含完整和不完整的VDJ重组事件,仅要求存在相关基因的contig(组装序列),不要求功能性,可能包含未跨越V-J区域的片段化contig或非生产性重排。
Cells with V-J spanning TRA/TRB or IGH/IGK/IGL contig
含有V-J跨区TRA/TRB或IGH/IGK/IGL重组子的细胞
  • 定义: 要求contig必须跨越V基因和J基因的重组连接区,比第一类更严格但仍包含非生产性重排的细胞。
  • 说明: 排除未完成V-J重组的无效contig。
Cells with productive TRA/TRB or IGH/IGK/IGL contig
含功能性TRA/TRB或IGH/IGK/IGL重组子的细胞
  • 定义: 必须同时满足V-J跨区(对TRA/IGK/IGL)或V-D-J跨区(对TRB/IGH)、productive为true(无移码突变且CDR3完整)、符合阅读框(in-frame)的严格标准。
Paired clonotype diversity
配对克隆型多样性
  • 定义: 配对克隆型的有效多样性,计算为克隆型频率的逆辛普森指数。值为1表示最小多样性样本——仅检测到一个不同的克隆型。值等于估计细胞数表示最大多样性样本。
  • 质量判读:
    • 样本类型依赖性指标,克隆型多样性反映了免疫系统的复杂性和功能状态。
    • 低于预期值可能由于样本中B或T细胞比例低、样本质量差、文库质量差或测序深度低。
-----------

🔬 测序指标 (Sequencing Metrics)

🎯 核心功能: 测序数据的基础质量评估,包括条形码识别率、比对质量和测序准确性

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Valid barcodes ≥ 80% 70–80% < 70%
Valid UMIs ≥ 80% 70–80% < 70%
Q30 Base Quality ≥ 85% 75–85% < 75%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Valid barcodes
有效条形码比例
  • 定义: 在所有读段中,其细胞条形码(Cell Barcode)能够匹配到预设白名单(经过容错校正)的读段所占的比例。
  • 生物学意义: 反映了细胞标记的有效性。
  • 质量判读: 比例过低通常提示样本质量问题导致条形码降解和接头污染,或者说明测序过程的错误率偏高。
Valid UMIs
有效UMI比例
  • 定义: 在所有读段中,其唯一分子标识符 (UMI) 序列不包含'N'碱基且不为同聚物(如AAAAAA)的比例。
  • 生物学意义: 反映了UMI序列的测序质量,是准确进行分子计数的关键。
Q30 bases Quality
Q30碱基比例
  • 定义: 在细胞条形码、UMI 和 RNA读段序列中,测序质量值Q30及以上的碱基所占的比例。
  • 意义: Q30代表碱基的测序错误率低于0.1%,该指标直接影响细胞身份识别、分子计数和基因比对的准确性。
-----------

🧬 基因富集性能指标 (Enrichment Metrics)

🎯 核心功能: V(D)J基因富集效率评估,反映免疫受体序列的捕获效果

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标类别 推荐值 可接受 需优化
Reads mapped to any V(D)J gene ≥ 50% 30–50% < 30%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Reads mapped to any V(D)J gene
泛 V(D)J 基因映射读数比例
  • 定义: 具有有效条形码且部分或完全映射到任意胚系 V(D)J 基因片段的读数占比。
  • 质量判读:
    • 质量警告阈值 (<30%): 可能由样本中 B 或 T 细胞比例偏低、样本质量下降、文库富集效率不佳或参考基因组不匹配等原因导致。
Reads mapped to TRA/TRB/IGH/IGK/IGL
TRA/TRB/IGH/IGK/IGL 特异性免疫受体链映射比例
  • 类型定义:
    • TRA vs TRB: TRA(α 链)表达水平通常低于 TRB(β 链),反映 T 细胞受体的正常表达模式
    • IGH vs IGK/IGL: 重链和轻链呈现配对表达特征,映射比例反映各免疫受体链的相对表达丰度
  • 计算基准说明: 以上富集指标均以有效条形码读数总量作为分母基准进行计算
-----------

🧬 V(D)J 注释分析 (V(D)J Annotation)

🎯 核心功能: 生产性重排配对分析,评估免疫受体的功能性表达水平

📊 质量控制标准:

注意: 以下标准仅供参考,实际质量评估应考虑组织类型、细胞状态和实验目标等多种因素。不同样本间存在显著差异,建议结合具体实验背景进行判断。

指标名称 推荐值 可接受 需优化
Cells with productive V-J spanning pair ≥ 40% 20–40% < 20%

🔍 详细指标解释:

指标名称 详细解释与技术要求
Number of Cells with Productive V-J Spanning Pair
具有生产性 V-J 跨越配对的细胞绝对数量
  • 定义: 至少具有一个 TRA/TRB 配对或免疫球蛋白重链/轻链配对的生产性重叠群的细胞总数。
Cells with productive V-J spanning pair
生产性 V-J 跨越配对细胞比例
  • 定义: 具有至少一个完整受体配对(每个链均有生产性重叠群)的细胞相关条形码占比。
  • 生产性重叠群判定标准:
    • 跨越完整性:重叠群注释完整跨越从 V 区域 5' 端到对应链 J 区域 3' 端。
    • 起始密码子:在 V 序列预期位置成功识别有效起始密码子(ATG)。
    • CDR3 完整性:发现完整的框内 CDR3 氨基酸基序。
    • 阅读框正确:比对的 V-J 区域中无提前终止密码子(无移码突变)。
Cells with productive V-J spanning (IGK, IGH) pair
IGK/IGH 生产性配对细胞比例
  • 定义: 具有(IGK, IGH)免疫球蛋白受体配对且每个链均有至少一个生产性重叠群的细胞相关条形码占比。
  • 说明:
    • 针对 B 细胞数据集的特异性指标。
    • 取决于样本中表达 κ 轻链(IGK)的 B 细胞亚群比例。
    • κ/λ 轻链使用比例因物种和个体差异而变化。
Cells with productive V-J spanning (IGL, IGH) pair
IGL/IGH 生产性配对细胞比例
  • 定义: 具有(IGL, IGH)免疫球蛋白受体配对且每个链均有至少一个生产性重叠群的细胞相关条形码占比。
  • 说明:
    • 针对 B 细胞数据集的特异性指标。
    • 取决于样本中表达 λ 轻链(IGL)的 B 细胞亚群比例。
    • 与 IGK 配对互补,共同反映 B 细胞轻链使用模式。
Cells with productive V-J spanning (TRA, TRB) pair
TRA/TRB 生产性配对细胞比例
  • 定义: 具有(TRA, TRB)T 细胞受体配对且每个链均有至少一个生产性重叠群的细胞相关条形码占比。
  • 说明:
    • 针对 T 细胞数据集的核心指标。
    • 反映 TCR α 链和 β 链的成功配对情况。
    • 指示 αβ T 细胞的功能性受体表达状态。

📈 可视化图表1

🎯 核心功能: V(D)J细胞质量控制、UMI分析和免疫受体表达评估的多维度可视化展示

📊 V(D)J 细胞排序分析图 (V(D)J Barcode Rank Plot)

图表功能: 可视化展示每个细胞的 UMI 数量分布(仅统计 productive contig 的 UMI),直观展示细胞质量控制结果和背景噪音水平。

V(D)J 细胞排序分析图

如何解读:

-----------

📈 可视化图表2

🎯 核心功能: 克隆型丰度分析和免疫受体多样性评估的可视化展示

📊 克隆型丰度统计分析

图表功能: 展示样本中克隆型的相对丰度分布和免疫应答的集中程度。

scVDJ 克隆型分析图表

如何解读:


🎯 更多资源

📚 相关文档

文档类型 资源链接和描述
🚀 快速入门 快速入门指南 - 第一次分析的完整教程
⚙️ 参数参考 参数参考手册 - 所有可配置参数的详细说明
🔬 分析流程 分析流程说明 - 整个分析流程的技术细节
🔧 安装配置 安装配置指南 - 系统要求、安装步骤和环境配置

💡 提示

本文档持续更新中,如发现内容错误或需要补充的信息,欢迎反馈。

📝 文档版本: 3.0 beta | 最后更新: 2025年


🔬 DNBelab C Series HT scVDJ Analysis Software
高性能单细胞V(D)J测序数据分析流程