cphasing-rs pairs-break
老师,您好:
当我使用cphasing-rs pairs-break生成新的 corrected.pairs.gz文件时,发现少了一个输入文件<BREAK_BED>,我该怎么得到这个文件呢,此前我已经使用cphasing scaffolding命令得到了一个新的corrected.groups.agp文件
命令1:cphasing scaffolding ../3.hyperpartition/output.clusters.txt ../2.prepare/A.poreC.counts_AAGCTT.txt ../2.prepare/A.poreC.clm.gz -sc ../2.prepare/A.poreC.split.contacts -f ../A.raw.assembly.fa -t 120 --corrected -o corrected.groups.agp -m precision
命令2:cphasing-rs pairs-break -t 120 -o corrected.groups.agp ../A.poreC.paf.gz
cphasing-rs pairs-break --help Break contigs at chimeric points follwed a bed
Usage: cphasing-rs pairs-break [OPTIONS] <PAIRS> <BREAK_BED>
Arguments: <PAIRS> pairs <BREAK_BED> break contigs with a bed format
Options: -t, --threads <THREADS> [default: 8] -o, --output <OUTPUT> output file, default is stdout [default: -] -h, --help Print help
你好,不好意思文档遗漏了这些信息
这个文件就是一个4列的txt文件(contig\tstart\end\new_contig),里面记录了打断contig的信息,可以从corrected.groups.agp 里面获取。 例如:
utg000001l 1 10000 utg000001l:1-10000
utg000001l 10001 20000 utg000001l:10001-20000
utg000002l 1 20000 utg000002l:1-20000
utg000002l 20001 40000 utg000002l:20001-40000
感谢老师百忙之中回复我的问题,还请老师查看我此前提到的命令是否正确,因为我比较了原始生成的groups.agp和使用命令1生成的corrected.groups.agp似乎只有在未挂载的contig中有区别,而在染色体区域完全一致(如下图),不知道这是否是正常现象。另外您提到的bed文件具体是corrected.groups.agp里的哪四列呢?
命令1:cphasing scaffolding ../3.hyperpartition/output.clusters.txt ../2.prepare/A.poreC.counts_AAGCTT.txt ../2.prepare/A.poreC.clm.gz -sc ../2.prepare/A.poreC.split.contacts -f ../A.raw.assembly.fa -t 120 --corrected -o corrected.groups.agp -m precision
你好,这两个agp的contig数量一致吗?有重复的contig吗?
--corrected 和pairs-break是针对前面有打断contig的时候才需要使用的。你是在哪里操作了打断了contig,需要去加--corrected 参数的。
好的,老师,那可能是我理解错了,我以为加了--corrected 参数软件就会自动纠错组装时的错误,从而生成一个新的corrected.groups.agp