banner
홈페이지 / 소식 / ViralCC는 완전한 바이러스 게놈과 바이러스를 검색합니다.
소식

ViralCC는 완전한 바이러스 게놈과 바이러스를 검색합니다.

Jun 04, 2024Jun 04, 2024

Nature Communications 14권, 기사 번호: 502(2023) 이 기사 인용

3725 액세스

20 알트메트릭

측정항목 세부정보

처리량이 많은 염색체 구조 캡처(Hi-C)를 메타게놈학에 ​​도입하면 미생물 군집에서 고품질의 메타게놈 조립 게놈(MAG)을 재구성할 수 있습니다. Hi-C 접촉 맵을 사용하여 진핵생물, 박테리아 및 고세균 게놈을 복구하는 데 있어 최근의 발전에도 불구하고 Hi-C 기반 방법 중 바이러스 게놈을 검색하도록 설계된 방법은 거의 없습니다. 여기에서는 Hi-C 데이터를 사용하여 완전한 바이러스 게놈을 복구하고 바이러스-숙주 쌍을 탐지하는 공개 도구인 ViralCC를 소개합니다. 다른 Hi-C 기반 방법과 비교하여 ViralCC는 바이러스-호스트 근접 구조를 Hi-C 상호 작용을 위한 보완적인 정보 소스로 활용합니다. 인간 내장, 소 배설물 및 폐수를 포함한 여러 가지 미생물 생태계의 모의 및 실제 메타게놈 Hi-C 데이터 세트를 사용하여 ViralCC가 기존 Hi-C 기반 비닝 방법과 최첨단 도구보다 성능이 우수함을 입증합니다. 특히 메타게놈 바이러스 비닝에 전념합니다. ViralCC는 또한 미생물 군집에서 바이러스 및 바이러스-숙주 쌍의 분류학적 구조를 밝힐 수 있습니다. 실제 폐수 메타게놈 Hi-C 데이터 세트에 적용하면 ViralCC는 CRISPR 스페이서 분석을 사용하여 추가로 검증되는 파지-호스트 네트워크를 구성합니다. ViralCC는 https://github.com/dyxstat/ViralCC에서 사용할 수 있는 오픈 소스 파이프라인입니다.

바이러스는 지구상에서 가장 다양하고 어디에나 존재하는 생물학적 유기체로 추정되는 전 세계 풍부도는 1031 1입니다. 바이러스는 박테리아와 고세균을 감염시키는 용원성 또는 용해성 주기를 통해 미생물 군집 내의 포식자 및/또는 기생충으로서 생태계에 막대한 영향을 미칩니다2,3. 예를 들어, 바이러스는 수생 서식지4,5에서 탄소와 질소의 생지화학적 순환에 크게 기여하며 인간 시스템의 염증성 장 질환 및 심각한 급성 영양실조와 같은 특정 질병과 관련이 있습니다6,7. 따라서 지난 20년 동안 바이로믹스에 대한 관심이 급격히 높아졌습니다.

실험실에서 전통적으로 배양할 수 있는 바이러스의 수는 바이러스 다양성을 평가하기에는 너무 제한되어 있기 때문에8, 문화 독립적 샘플링 전략인 메타게놈학은 바이러스 게놈을 복구하고 새로 발견된 바이러스의 숙주를 식별하기 위해 널리 활용되어 왔습니다. 미생물 군집9,10,11에서 바이러스를 연구하는 가장 어려운 측면 중 하나입니다. Metagenomic 전체 게놈 샷건 시퀀싱(WGS)은 다양한 환경 샘플에서 게놈 단편을 직접 추출하여 이후에 contigs12,13,14로 조립되는 다수의 짧은 판독값을 생성합니다. Metagenomic 바이러스 contig는 서열 구성, 서열 유사성 및/또는 바이러스 단백질의 검출을 기반으로 대규모 어셈블리에서 식별됩니다. 그러나 샷건 판독을 통한 바이러스 게놈 조립은 어려운 일이며18 짧은 바이러스 콘티그는 전체 바이러스 게놈의 일부만을 나타낼 수 있습니다. 불완전한 바이러스 단편은 기본 바이러스 다양성 및 풍부도의 특성화, 숙주 예측 및 기능적 능력을 포함하여 다운스트림 분석에 상당히 부정적인 영향을 미칩니다. 따라서 동일한 종의 바이러스 연속체를 바이러스성 메타게놈 조립 게놈(vMAG)으로 그룹화하는 프로세스로 정의된 메타게놈 바이러스 비닝은 특히 거대 바이러스의 경우 유용합니다.

대부분의 전통적인 샷건 기반 비닝 도구는 진핵생물, 박테리아 및 고세균 게놈을 복구하고23,24,25,26 범용 단일 복사본 유전자의 부족 및 상대적으로 작은 크기의 바이러스 게놈과 같은 바이러스와 관련된 문제를 무시하기 위해 개발되었습니다. . 또한 미생물 마커 유전자 분석을 활용하는 비닝 도구는 바이러스에 적용할 수 없습니다. CoCoNet29와 vRhyme30은 특별히 메타게놈 바이러스 비닝에 전념하는 두 가지 기존 방법입니다. CoCoNet은 두 개의 바이러스 연속체가 동일한 게놈에서 유래할 확률을 예측하기 위해 샘플 전반에 걸쳐 바이러스 연속체의 구성 및 동시 발생 특징을 모두 사용하여 신경망을 훈련합니다. vRhyme은 단일 또는 다중 샘플 적용 범위 효과 크기 비교를 활용하여 바이러스 콘티그 간의 적용 범위 차이를 계산합니다. 시퀀스 구성 정보를 처리하기 위해 vRhyme은 먼저 게놈 조각을 사용하여 감독된 기계 학습 기반 분류 모델을 사전 학습합니다. 그런 다음 두 개의 바이러스 콘티그 사이의 뉴클레오티드 특징 유사성 벡터가 분류 모델에 입력되어 바이러스 콘티그가 동일한 게놈에서 유래할 확률 값을 예측합니다. 마지막으로, vRhyme은 가중치 네트워크를 구성합니다. 여기서 각 노드는 바이러스 연속체이고 가장자리 가중치는 적용 범위 차이를 확률 값으로 나누어 계산됩니다. 네트워크는 vMAG로 더욱 세분화됩니다. 그러나 CoCoNet과 vRhyme은 바이러스 콘티그의 신뢰할 수 있는 공존 프로파일(즉, 어떤 콘티그가 여러 샘플에 걸쳐 일관된 존재량 값을 공유하고 따라서 동일한 게놈에서 나올 가능성이 있는지 보여주는 프로파일)을 구성하기에 충분한 샘플이 없을 때 심각하게 손상될 수 있습니다. .