宏基因组学中如何计算分箱结果bins（基因组）的丰度？

2023-12-14 17:07:07

1、基于metawrap环境计算bin丰度(推荐)

MetaWRAp（Metagenomic Workflow for Assembly, binning, and annotation）是一个用于处理宏基因组学数据的工具，包括元组装、分箱（binning）、基因组注释等功能。要基于 MetaWRAp 计算宏基因组分箱结果的丰度，你可以按照以下步骤进行：

安装 MetaWRAp：首先确保已经安装了 MetaWRAp 工具。你可以通过官方的 GitHub 页面（https://github.com/bxlab/metaWRAP）或者相关文档找到安装说明。
准备输入数据：准备你的宏基因组学数据，包括原始测序数据（fastq 或者 fasta 格式）以及进行元组装得到的 contigs 或 scaffolds。
运行 MetaWRAp：使用 MetaWRAp 中的相应工具来计算 bins 的丰度。在 MetaWRAp 中，你可以使用 metabat2_wf 或 maxbin2_wf 等工作流来执行分箱操作，并获得 bins 的丰度信息。

示例命令（以 MetaBAT2 为例）：

source activate metawrap

#示例：
metawrap metabat2_wf -o output_directory -t num_threads assembly.fasta reads_1.fastq,reads_2.fastq

metawrap quant_bins \
    -t 32 \
    -o Bin_quant/ \
    -b Bin/ \
    -a final.contigs.fa \
    Clean_data/H*.fastq

# 参数：
# -t # 线程
# -o # 输出文件夹（自动创建）
# -b # Bin所在文件夹
# -a # contig组装结果
# 最后是fastq/a（初始数据）文件所在文件夹

其中：

-o output_directory：指定输出目录。
-t num_threads：指定线程数。
assembly.fasta：是你的组装后的 contigs 或 scaffolds 文件。
reads_1.fastq,reads_2.fastq：是原始测序数据（paired-end reads）。

这个挺好的就是直接出图了，相应数据结果直接在bin_quant文件夹。

2、基于coverm环境计算bins丰度

CoverM 是一个用于基因组学和宏基因组学研究的工具，用于评估基因组或分箱（bins）的覆盖度和丰度。以下是使用 CoverM 计算 bins 丰度的一般步骤：

安装 CoverM：首先需要安装 CoverM 工具及其相关依赖。你可以从 CoverM 的官方 GitHub 页面（https://github.com/wwood/CoverM）获取安装说明。
准备输入数据：准备输入数据，这通常是包含基因组组装结果的 FASTA 格式文件。这可能是来自于元组装工具（如MetaBAT、MaxBin、CONCOCT等）输出的 bins。
运行 CoverM：使用 CoverM 来计算 bins 的丰度。下面是一个示例命令：

coverm contig \
  --genome-fasta input_bins.fasta \
  --min-read-aligned-percent 95 \
  --min-read-aligned-length 1000 \
  --min-covered-fraction 0.5 \
  --min-base-quality 0 \
  --min-read-length 100 \
  --reference-fasta reference_sequences.fasta \
  --output-dir output_directory

?这里的参数解释如下：

--genome-fasta：指定输入的 bins 文件。
--min-read-aligned-percent：指定至少需要覆盖的 reads 百分比。
--min-read-aligned-length：指定最小的 reads 长度。
--min-covered-fraction：指定一个 contig 被认为是被覆盖的最小比例。
--min-base-quality：指定 reads 的最小质量。
--min-read-length：指定最小的 reads 长度。
--reference-fasta：可选参数，用于提供参考序列。
--output-dir：指定输出目录。

同样超级简单，直接上代码：

mamba activate coverm

# 建议sh脚本，采用nohup运行，这个还是要耗点时间的
for i in $(ls bins); \
do \
    coverm genome \
    -d $i/metabat2_bins \
    -x fa \
    -t 80 \
    -c read_qc/${i}/*.fastq \
    > coverm/${i}.mtbt2.bins.out ;\
done

文章来源:https://blog.csdn.net/zrc_xiaoguo/article/details/134996264
本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若内容造成侵权/违法违规/事实不符，请联系我的编程经验分享网邮箱：veading@qq.com进行投诉反馈，一经查实，立即删除！