How to Improve Genome Assembly Accuracy (Genome Assembly Accuracy를 향상시키는 방법)

Phase Genomics Blog

How to Improve Genome Assembly Accuracy

Genome Assembly Accuracy를 향상시키는 방법

Fragmented assembly, misjoined contigs, incomplete scaffolds 문제를 줄이고 chromosome-scale genome assembly를 구현하기 위한 Hi-C 기반 접근법을 소개합니다.

Genome sequencing technology가 빠르게 발전하면서 de novo genome assembly 프로젝트의 규모와 complexity 역시 크게 증가하고 있습니다.

특히 plant genomics, environmental genomics, microbial genomics와 같은 분야에서는 repetitive sequence, heterozygosity, structural complexity로 인해 high-quality genome assembly를 얻는 것이 여전히 쉽지 않습니다.

이러한 이유로 최근에는 long-read sequencing뿐 아니라 Hi-C 기반 genome scaffolding workflow가 chromosome-scale assembly 구현을 위한 중요한 접근법으로 활용되고 있습니다.

Why is Genome Assembly Difficult?

Genome assembly 과정에서는 sequencing read를 기반으로 contig와 scaffold를 재구성하게 됩니다. 하지만 실제 biological sample에서는 다양한 요소가 assembly accuracy를 저하시킬 수 있습니다.

  • Highly repetitive genomic regions
  • Large genome size
  • Structural variation
  • Heterozygosity
  • Fragmented sequencing assemblies
  • Misjoined contigs

이러한 문제는 특히 plant genome, fungal genome, complex microbial genome assembly에서 더욱 두드러질 수 있습니다.

Traditional Genome Assembly Approaches

Traditional genome assembly workflow에서는 short-read sequencing 또는 long-read sequencing 기반 contig assembly 후 computational scaffolding을 수행하는 경우가 많습니다.

Short-read Assembly

Cost-efficient 하지만 repetitive region 해결 및 long-range structure reconstruction에는 제한이 존재할 수 있습니다.

Long-read Sequencing

Improved contiguity를 제공하지만 chromosome-scale structure reconstruction에는 추가 정보가 필요할 수 있습니다.

Computational Scaffolding

Statistical assumption 기반 scaffolding은 misjoin 또는 incomplete scaffold 문제를 남길 수 있습니다.

How Hi-C Improves Genome Assembly

Hi-C sequencing은 DNA fragment 간의 physical proximity information을 제공하기 때문에 genome scaffolding accuracy를 크게 개선할 수 있습니다.

특히 chromosome 내부에서 서로 가까이 존재하는 genomic region은 더 높은 interaction frequency를 나타내므로, 이를 활용하여 contig ordering 및 orientation을 최적화할 수 있습니다. ([phasegenomics.com](https://phasegenomics.com/technology/bioinformatics/?utm_source=chatgpt.com))

Hi-C 기반 scaffolding의 장점

  • Chromosome-scale scaffold generation
  • Improved contig ordering
  • Misjoined contig detection
  • Enhanced structural accuracy
  • Long-range genomic connectivity analysis
  • Complex genome assembly optimization

Traditional Assembly vs Hi-C Scaffolding

Feature Traditional Assembly Hi-C Based Scaffolding
Long-range Information Limited Available through proximity signal
Chromosome-scale Assembly Difficult Possible
Contig Ordering Less accurate Improved ordering
Misjoin Detection Limited Enhanced
Structural Genome Analysis Limited Improved

Key Applications of Hi-C Genome Scaffolding

Plant Genomics

Large genome size 및 repetitive sequence를 포함하는 crop genome assembly 프로젝트

Animal Genomics

Chromosome-level assembly 및 structural variation 연구

Fungal Genomics

Complex fungal genome structure reconstruction 및 comparative genomics

Microbial Genomics

Improved microbial genome assembly 및 chromosome-scale scaffold generation

Phase Genomics Solutions for Genome Assembly

Phase Genomics는 Hi-C 기반 genome scaffolding 및 metagenomics workflow를 위한 advanced platform을 제공합니다. Proximo는 chromosome-scale genome assembly를 지원하며, ProxiMeta는 genome-resolved metagenomics analysis를 가능하게 합니다.

Proximo™ Hi-C Genome Scaffolding Kits

Chromosome-scale genome scaffolding 및 structural genomics workflow를 위한 Hi-C solution

  • Genome scaffolding
  • Chromosome-scale assembly
  • Plant & animal genomics
  • Structural genome analysis
View Proximo™

ProxiMeta™ Hi-C Metagenomics Platform

Genome-resolved metagenomics 및 microbiome structure analysis를 위한 Hi-C metagenomics platform

  • MAG reconstruction
  • Plasmid-host linkage
  • Phage-host interaction
  • Environmental genomics
View ProxiMeta™

Conclusion

Genome assembly accuracy는 sequencing technology뿐 아니라 scaffolding strategy 및 long-range genomic information availability에 의해 크게 영향을 받을 수 있습니다.

특히 complex genome assembly 프로젝트에서는 Hi-C 기반 scaffolding workflow가 chromosome-scale assembly 및 structural genome analysis를 가능하게 하는 중요한 접근법으로 자리잡고 있습니다. 

앞으로 plant genomics, environmental genomics, comparative genomics 분야에서 Hi-C genome scaffolding의 활용 범위는 더욱 확대될 것으로 기대됩니다.

Interested in Hi-C Genome Scaffolding?

Phase Genomics 제품, chromosome-scale assembly workflow, metagenomics analysis 관련 문의는 R&D Mate로 연락 부탁드립니다.

블로그로 돌아가기