🧬 DNBelab C Series HT 工具类分析参数

🛠️ GTF 文件操作 (mkgtf) • 📄 BAM 转 FASTQ (bam2fastq) • 🧬 染色体分割 (chromsplit) • 📝 FASTQ 切割 (fqsubC4)

🛠️ GTF 文件操作 (mkgtf)

🧬 核心功能

GTF 文件全面操作工具，支持基因类型统计、智能过滤和文件格式校验。为单细胞分析提供高质量、标准化的基因注释数据。

📊 用法

$ dnbc4tools tools mkgtf -h

optional arguments:
  -h, --help            show this help message and exit

Basic Settings:
  --action <STR>        Select action type: 'mkgtf'(filter), 'stat'(statistics) or 'check'(validation) [default: mkgtf]
  --ingtf <FILE>        Path to input GTF annotation file
  --output <FILE>       Path to output file

Filter Settings:
  GTF file format requirements:
                  RNA analysis requires "gene"/"transcript" and "exon" types, plus gene_id/name and transcript_id/name attributes.

  --include <STR>       Set filter parameters in 'mkgtf' mode, multiple filters separated by commas. Default includes: protein_coding, lncRNA, lincRNA, antisense, IG_*/TR_* genes
  --type <STR>          Set according to gene type tag in GTF attributes [default: gene_biotype]
  --feature <STR>       Select information from feature column. If no 'gene' rows, select 'transcript' [default: gene]

📝 参数说明

🔴 必需参数

`--ingtf` (必需)

指定输入的GTF基因注释文件路径。

格式要求: 标准GTF格式，不支持GFF或GFF3格式。

默认值: 无

示例:

--ingtf Homo_sapiens.GRCh38.108.gtf

`--output` (必需)

指定处理结果的输出文件。

功能: 根据操作模式生成不同类型的输出文件。
自动创建: 如果指定的输出目录不存在，将会被自动创建。

默认值: 无

示例:

# 当 action 为 'mkgtf' (过滤)
--output ./filtered_genes.gtf

# 当 action 为 'stat' (统计)
--output ./gene_statistics.txt

# 当 action 为 'check' (校验)
--output ./corrected.gtf

🟢 可选参数

`--action` (可选)

选择要执行的操作类型。

mkgtf: (默认) 根据基因类型过滤GTF文件。
stat: 统计GTF文件中的基因类型。
check: 校验并修复GTF文件格式。

默认值: mkgtf

示例:

--action stat

`--include` (可选)

在 mkgtf 模式下，指定要保留的基因类型，多个类型以逗号分隔。

功能: 用于精确筛选您感兴趣的基因集合。

默认值: protein_coding,lncRNA,lincRNA,antisense,IG_*,TR_*

示例:

--include protein_coding,lncRNA

`--type` (可选)

指定GTF属性中用于标识基因类型的标签。

功能: 适配不同来源GTF文件的注释风格。

默认值: gene_biotype

示例:

--type gene_type

`--feature` (可选)

指定从GTF文件的哪一列（feature）提取信息。

功能: 通常用于指定操作对象是基因级别还是转录本级别。
备选: 如果GTF文件中没有 `gene` 行，建议选择 `transcript`。

默认值: gene

示例:

--feature transcript

Note

💡使用示例

统计基因类型:

dnbc4tools tools mkgtf --action stat --ingtf genes.gtf --output gtfstat.txt --type gene_biotype

过滤基因类型:

dnbc4tools tools mkgtf --action mkgtf --ingtf genes.gtf --output genes.filter.gtf --type gene_biotype

校验并修复 GTF 文件:

dnbc4tools tools mkgtf --action check --ingtf genes.gtf --output corrected.gtf

📄 BAM 转 FASTQ (bam2fastq)

📄 专业转换工具

高效的 BAM 文件操作工具，专用于将 C4 RNA BAM 文件转换成 FASTQ 文件。支持多线程并行处理和灵活的输出配置。

📊 用法

$ bam2fastq --help
BAM to FASTQ Converter for C4 Single Cell RNA seq Data

Usage: bam2fastq [OPTIONS] <BAM> <OUTPUT>

Arguments:
  <BAM>     Path to the input BAM file
  <OUTPUT>  Directory where FASTQ files will be written

Options:
  -t, --threads <THREADS>        Number of CPU threads for parallel processing [default: 4]
  -r, --locus <REGION>           Process reads from a specific genomic region (format: chr1:1000-2000)
  -n, --reads-per-fastq <READS>  Maximum number of reads per FASTQ file. All reads go to a single file if not specified.
      --max-memory <MEMORY>      Maximum memory to use in MB. If not specified, will be automatically determined based on system resources.
      --no-compress              Disable gzip compression for output FASTQ files
  -h, --help                     Print help
  -V, --version                  Print version

📝 参数说明

🔴 必需参数

`<BAM>` (必需)

指定输入的BAM文件路径。

格式要求: 必须是有效的C4 RNA BAM文件，支持单端和双端数据。
索引要求: BAM文件必须已经索引（即旁边存在对应的.bai文件）。
双端数据注意: 如果是双端数据，需要先使用 samtools sort -n 根据序列名排序后再进行处理。

默认值: 无

示例:

/path/to/your.bam

`<OUTPUT>` (必需)

指定输出FASTQ文件的目录。

功能: 所有转换后的FASTQ文件将保存在此目录。
自动创建: 如果目录不存在，将会被自动创建。

默认值: 无

示例:

/path/to/output_dir

🟢 可选参数

`-t, --threads` (可选)

设置用于并行处理的CPU线程数。

性能说明: 由于工具需要确保输出顺序与输入一致，因此增加线程数并不能显著提升整体分析速度。
建议: 推荐使用默认的4个线程进行分析。

默认值: 4

示例:

-t 4

`-r, --locus` (可选)

仅处理来自特定基因组区域的读段。

格式: 标准基因组坐标格式 (染色体:起始-结束)。
应用: 用于靶向分析特定基因或染色体区域。

默认值: 无

示例:

-r chr1:1000-2000

`-n, --reads-per-fastq` (可选)

设置每个输出FASTQ文件的最大读段数量。

分割策略: 自动将大文件分割为多个小文件，便于下游处理。
默认行为: 如果不指定，所有读段将写入单个文件。

默认值: 无

示例:

-n 10000000

`--max-memory <MEMORY>` (可选)

设定工具可使用的最大内存（单位：MB）。

功能: 控制工具的内存消耗，防止因内存不足导致程序失败。
自动确定: 如果不指定，工具将根据系统可用资源自动分配。

默认值: 自动确定

示例:

--max-memory 8192

`--no-compress` (标志)

禁用对输出FASTQ文件的gzip压缩，以显著提高分析速度。

性能瓶颈: 程序的主要速度瓶颈在于写入压缩文件。
强烈建议: 使用此参数可禁用压缩，从而显著提高整体分析速度。
权衡: 生成的未压缩文件会占用更多磁盘空间，请确保有足够的存储空间。

默认值: 不设置

Note

💡 使用示例

基本转换:

bam2fastq input.bam ./output_dir --no-compress

多线程高速转换:

bam2fastq -t 8 input.bam ./output_dir --no-compress

区域特异性转换:

bam2fastq -r chr1:1000000-2000000 -t 4 input.bam ./output_dir --no-compress

大文件分割转换:

bam2fastq -n 5000000 -t 4 input.bam ./output_dir --no-compress

🧬 染色体分割 (chromsplit)

🧬 核心功能

专业的基因组序列分割工具，智能识别分割位点以维护基因注释完整性。主要用于 ATAC 建库时控制染色体长度不超过 2^29-1 的限制要求。

📊 用法

$ chromsplit --help

Usage: chromsplit [OPTIONS] --fasta <FA> --prefix <PREFIX>

Options:
  -f, --fasta <FA>           Input genome sequence file in FASTA format
  -g, --gtf <GTF>            Optional GTF/GFF annotation file for the genome
  -o, --prefix <PREFIX>      Prefix for output files
  --min_length <MIN_LENGTH>  Minimum length of output scaffold fragments [default: 300000000]
  --max_length <MAX_LENGTH>  Maximum length of output scaffold fragments [default: 500000000]
  --cut_site <CUT_SITE>      Optional cut site file containing predefined split positions
  -h, --help                 Print help
  -V, --version              Print version

📝 参数说明

🔴 必需参数

`-f, --fasta <FA>` (必需)

指定输入的基因组序列文件。

格式要求: 标准FASTA格式 (.fa, .fasta, .fna)。
内容: 包含完整的染色体或scaffold序列。

默认值: 无

示例:

--fasta genome.fasta

`-o, --prefix <PREFIX>` (必需)

指定输出文件的前缀。

输出文件: 工具会自动生成 <prefix>.fa, <prefix>.cutsite.tsv 等文件。
文件管理: 便于批量处理和结果追踪。

默认值: 无

示例:

--prefix split_genome

🟢 可选参数

`-g, --gtf <GTF>` (可选)

指定基因注释文件（GTF/GFF格式）。

智能分割: 提供注释文件可确保分割点位于基因间区域，保护基因完整性。
注释同步: 工具会自动调整并输出坐标同步后的新注释文件。

默认值: 无

示例:

--gtf annotation.gtf

`--min_length <MIN_LENGTH>` (可选)

设置输出片段的最小长度（单位：bp）。

功能: 确保分割后的片段不会过小，以影响后续分析。

默认值: 300000000

示例:

--min_length 300000000

`--max_length <MAX_LENGTH>` (可选)

设置输出片段的最大长度（单位：bp）。

技术限制: 主要用于确保片段长度符合ATAC建库等下游分析的要求 (通常 < 2^29-1 bp)。

默认值: 500000000

示例:

--max_length 500000000

`--cut_site <CUT_SITE>` (可选)

提供一个包含预定义分割位置的文本文件。

精确控制: 优先使用文件中指定的位点进行分割，实现对分割位置的精确控制。

默认值: 无

示例:

--cut_site predefined_cuts.txt

Note

💡 使用示例

基本分割:

chromsplit --fasta genome.fasta --prefix split_result

带注释文件的智能分割:

chromsplit --fasta genome.fasta --gtf annotation.gtf --prefix split_genome

自定义长度分割:

chromsplit --fasta genome.fasta --prefix custom_split --min_length 300000000 --max_length 500000000

使用预定义分割位点:

chromsplit --fasta genome.fasta --gtf annotation.gtf --prefix precise_split --cut_site custom_cuts.txt

📝 FASTQ 切割 (fqsubC4)

📝 核心功能

专业的 FASTQ 序列区域提取工具，支持精确的序列位置截取。主要用于解决多次加测数据格式不一致问题，确保 C4 测序数据的标准化处理。

📊 用法

$ fqsubC4 --help

Usage: fqsubC4 [OPTIONS] --input <FILE> --output <FILE> --regions <REGIONS>

Options:
  -i, --input <FILE>           Path to input FASTQ file
  -o, --output <FILE>          Path to output FASTQ file
  -r, --regions <REGIONS>      Comma-separated regions in format start:end (e.g., 7:16,23:32,38:47)
  -b, --batch-size <BATCH_SIZE>  Batch size for processing [default: 100000]
  --buffer-size <BUFFER_SIZE>  Buffer size for channel between reader and writer [default: 500]
  -h, --help                   Print help
  -V, --version                Print version

📝 参数说明

🔴 必需参数

`-i, --input <FILE>` (必需)

指定输入的FASTQ文件路径。

格式支持: 支持未压缩 (.fq, .fastq) 和 gzip 压缩 (.fq.gz, .fastq.gz) 格式。
自动识别: 工具会根据文件扩展名自动判断压缩格式。

默认值: 无

示例:

--input sample_R1.fastq.gz

`-o, --output <FILE>` (必需)

指定输出的FASTQ文件路径。

自动压缩: 如果输出文件名以 .gz 结尾，输出文件将被自动压缩。
性能提醒: GZIP压缩会显著降低处理速度。

默认值: 无

示例:

--output extracted_R1.fastq.gz

`-r, --regions <REGIONS>` (必需)

指定要从序列中提取的区域。

格式规范: 使用 start:end 格式，多个区域用逗号分隔。
坐标系统: 坐标为1-based（序列的第一个碱基位置为1）。
应用: 用于提取Barcode、UMI，或对序列进行修剪。

默认值: 无

示例:

--regions 7:16,23:32,38:47

🟢 可选参数

`-b, --batch-size <BATCH_SIZE>` (可选)

设置单次批处理的记录数量（即一次性读入内存的FASTQ记录数）。

性能影响: 较高的值会使用更多内存，但可能会提升处理性能。
平衡策略: 需要在内存占用和处理效率之间找到平衡。

默认值: 100000

示例:

--batch-size 200000

`--buffer-size <BUFFER_SIZE>` (可选)

设置读取器和写入器之间通道的缓冲区大小。

吞吐量优化: 调整此参数以获得更好的大文件处理吞吐量。

默认值: 500

示例:

--buffer-size 1000

Note

💡 使用示例

基本区域提取:

fqsubC4 --input sample.fastq.gz --output extracted.fastq --regions "7:16,23:32"

💡 提示

本文档持续更新中，如发现内容错误或需要补充的信息，欢迎反馈。

📝 文档版本： 3.0 beta | 最后更新： 2025年

🛠️ DNBelab C Series HT Tool-based Analysis Parameters
高性能单细胞数据分析工具参数配置指南

🧬 DNBelab C Series HT 工具类分析参数

🛠️ GTF 文件操作 (mkgtf)

📊 用法

📝 参数说明

🔴 必需参数

--ingtf (必需)

--output (必需)

🟢 可选参数

--action (可选)

--include (可选)

--type (可选)

--feature (可选)

💡使用示例

📄 BAM 转 FASTQ (bam2fastq)

📊 用法

📝 参数说明

🔴 必需参数

<BAM> (必需)

<OUTPUT> (必需)

🟢 可选参数

-t, --threads (可选)

-r, --locus (可选)

-n, --reads-per-fastq (可选)

--max-memory <MEMORY> (可选)

--no-compress (标志)

💡 使用示例

🧬 染色体分割 (chromsplit)

📊 用法

📝 参数说明

🔴 必需参数

-f, --fasta <FA> (必需)

-o, --prefix <PREFIX> (必需)

🟢 可选参数

-g, --gtf <GTF> (可选)

--min_length <MIN_LENGTH> (可选)

--max_length <MAX_LENGTH> (可选)

--cut_site <CUT_SITE> (可选)

💡 使用示例

📝 FASTQ 切割 (fqsubC4)

📊 用法

📝 参数说明

🔴 必需参数

-i, --input <FILE> (必需)

-o, --output <FILE> (必需)

-r, --regions <REGIONS> (必需)

🟢 可选参数

-b, --batch-size <BATCH_SIZE> (可选)

--buffer-size <BUFFER_SIZE> (可选)

💡 使用示例

`--ingtf` (必需)

`--output` (必需)

`--action` (可选)

`--include` (可选)

`--type` (可选)

`--feature` (可选)

`<BAM>` (必需)

`<OUTPUT>` (必需)

`-t, --threads` (可选)

`-r, --locus` (可选)

`-n, --reads-per-fastq` (可选)

`--max-memory <MEMORY>` (可选)

`--no-compress` (标志)

`-f, --fasta <FA>` (必需)

`-o, --prefix <PREFIX>` (必需)

`-g, --gtf <GTF>` (可选)

`--min_length <MIN_LENGTH>` (可选)

`--max_length <MAX_LENGTH>` (可选)

`--cut_site <CUT_SITE>` (可选)

`-i, --input <FILE>` (必需)

`-o, --output <FILE>` (必需)

`-r, --regions <REGIONS>` (必需)

`-b, --batch-size <BATCH_SIZE>` (可选)

`--buffer-size <BUFFER_SIZE>` (可选)