PaperReviews/Omics

세포 하나하나가 다른 유전체를 가진다면?

bioinfohub 2025. 12. 4. 19:17
728x90

이 연구는 단일세포 DNA 시퀀싱과 초정밀 벌크 시퀀싱(duplex sequencing)을 결합해, 한 사람의 폐와 대장 세포에서 발생한 모든 종류의 체세포 돌연변이를 가능한 한 넓게 포착한 대규모 분석입니다.

 

그 결과, 같은 장기 안에서도 세포마다 전혀 다른 돌연변이 패턴과 염색체 이상을 갖고 있으며, 흡연·APOBEC·염색체 이수성·T세포 V(D)J 재배열·배아기 계통 추적까지, 기존 벌크 분석으로는 보이지 않던 “개별 세포의 역사”를 동시에 읽어낸다는 점이 핵심입니다.


🔍 체세포 모자이크란 무엇을 의미하나요?

우리 몸의 모든 세포가 똑같은 유전체를 가지고 있을 것 같지만, 실제로는 각 세포가 살아오면서 축적한 돌연변이 때문에 서로 조금씩 다른 유전체를 가진 상태를 보입니다. 이를 체세포 모자이크(somatic mosaicism)라고 부릅니다.

  • 기존에는 조직을 통째로 시퀀싱하는 벌크 분석이 주류였기 때문에,
    • 자주 등장하는 공통 돌연변이(클론성 변화)는 잘 보이지만
    • 아주 소수의 세포에만 있는 희귀 돌연변이·세포 간 이질성은 거의 관측하기 어려웠습니다.
  • 최근에는 단일세포 DNA 시퀀싱이 발전하면서, 각 세포의 돌연변이 전체를 직접 읽을 수 있는 시대가 열렸습니다.
  • 다만 단일세포에서 DNA를 증폭하는 과정에서 기술적 오류(artifacts)가 많이 생기기 때문에,
    • 정확한 돌연변이와 증폭 오류를 어떻게 구분할 것인가가 가장 큰 기술적 난제였습니다.

이번 연구는 PTA(primary template-directed amplification)라는 고정밀 증폭 기술과 특화된 분석 알고리즘(SCAN2)을 이용해서, 이 문제를 상당 부분 해결한 사례라고 볼 수 있습니다.

단일세포 PTA 시퀀싱의 실험 흐름과 품질 관리. 설명: 이 그림은 시신에서 얻은 폐·대장 조직을 여러 센터에 분배하고, 각각 다른 단일핵 분리·PTA 증폭·라이브러리 제작 프로토콜을 거쳐, 최종적으로 단일 센터에서 통합 분석하는 전체 워크플로를 보여줍니다. 각 세포별 평균 시퀀싱 깊이, 커버리지, 품질 지표를 이용해 품질이 떨어지는 세포를 걸러내는 2단계 QC 프로세스도 함께 제시됩니다. 출처: Experimental overview and quality control of PTA single-cell DNA sequencing. Luquette et al., 2025. Figure 1.


🧫 한 사람, 두 장기, 102개의 세포를 어떻게 분석했나

연구팀은 74세 남성 기증자의 폐와 대장(postmortem, 동결 조직)에서 핵을 분리해,
102개의 단일핵에 PTA를 적용했습니다. 이 중 품질 기준을 통과한 87개 세포(폐 56, 대장 46)를 최종 분석에 사용했습니다.

핵심 포인트는 다음과 같습니다.

  • 다기관·다중센터 프로토콜
    • 하버드, 브로드, 메이요, 예일, 연세 등 여러 기관이 각자 최적화한 nuclei isolation + PTA 프로토콜을 사용했습니다.
    • 그럼에도 불구하고, 결과 데이터의 품질과 돌연변이 특성이 센터 간 크게 다르지 않다는 점을 보임으로써,
      PTA 기반 단일세포 DNA 분석이 재현성 있는 플랫폼임을 입증했습니다.
  • 깊이 있는 시퀀싱과 넓은 커버리지
    • 각 세포는 약 15–50× 깊이로 시퀀싱되었고,
    • 분석 가능한 유전체의 약 86–94%가 10× 이상으로 커버되었습니다.
  • 벌크 100× WGS + 6종 duplex sequencing 병행
    • 동일한 폐·대장 조직을 대상으로 100× 벌크 WGS
    • 6가지 서로 다른 duplex sequencing 플랫폼을 적용해,
    • 단일세포에서 나온 돌연변이량과 스펙트럼이 독립적인 방법으로 재현되는지 비교·검증했습니다.

단일세포 기반 작은 변이(SNV/indel)가 벌크 duplex 시퀀싱 결과와의 일치정도 비교. 설명: 이 그림은 세포별로 분석 가능(genome callable)한 유전체 비율, SNV/indel/DNV 개수, 그리고 센서티비티 보정 후 세포당 돌연변이율을 요약한 뒤, 이를 6가지 duplex 기술의 결과와 비교합니다. 대부분의 경우 단일세포에서 추정한 돌연변이율이 duplex 기술의 중앙값과 근접하며, 돌연변이 스펙트럼 역시 코사인 유사도 0.91–0.97 수준으로 잘 일치함을 보여줍니다. 또한 SNV 스펙트럼 기반 클러스터링을 통해 최소 6개의 세포 집단이 존재함을 시각화합니다. 출처: Experimental overview and quality control of PTA single-cell DNA sequencing. Luquette et al., 2025. Figure 2.


🧯 흡연·APOBEC 등 세포별 DNA 손상 ‘시그니처’ 읽기

단순히 “돌연변이가 얼마나 쌓였는지”만 보는 것이 아니라,
돌연변이의 종류와 주변 염기서열 패턴을 함께 분석하면 어떤 DNA 손상 과정이 원인이었는지 추론할 수 있습니다. 이를 돌연변이 시그니처(mutational signature) 분석이라고 합니다.

이 연구에서는 SNV(96채널) + indel(83채널) + DNV(78채널)를 합친 257차원 데이터를 기반으로, HDP(hierarchical Dirichlet process)를 이용해 총 6개의 복합 시그니처를 추출했습니다.

주요 결과는 다음과 같습니다.

  1. 시계형 시그니처 (SBS5 및 SBS1 유사)
    • Component 1, 2, 4가 여기에 해당합니다.
    • 나이에 따라 서서히 누적되는 ‘시계형(clock-like)’ 돌연변이로,
      • 폐 세포에서는 SBS5/SBS16 유사 T>C 시그니처(component 2) 비중이 높고,
      • 대장 세포에서는 CpG 위치의 C>T(SBS1 유사, component 4) 비중이 높았습니다.
  2. 흡연 관련 시그니처 (Component 3)
    • 폐 세포 일부에서 C>A 위주의 SBS4 + 1bp deletion ID3 + CC>AA DNV가 함께 나타났습니다.
    • 이는 담배 연기 속 발암물질이 남긴 전형적인 패턴으로,
      같은 폐 조직 안에서도 어떤 세포는 흡연의 직격탄을 맞았고, 어떤 세포는 상대적으로 덜 노출되었음을 의미합니다.
  3. APOBEC 관련 시그니처 (Component 5)
    • 일부 폐·대장 세포에서 C>T 중심의 APOBEC 유사 시그니처(SBS2)가 관찰되었습니다.
    • 흥미롭게도, 유전체 여기저기에 흩어진 C>T 쌍(pair) 돌연변이(간격 <100 bp)가 관찰되었는데,
      이는 최근 보고된 흡연 발암물질과 APOBEC이 함께 작용할 때 생기는 ‘didyma’ 패턴과 일치합니다.

결국, “한 사람, 한 장기”라는 같은 조건 안에서도 세포마다 담배, APOBEC, 노화 등 서로 다른 손상 이력을 가지고 있다는 사실을 단일세포 분석이 선명하게 보여주었다고 할 수 있습니다.

단일세포 수준에서 보는 흡연·APOBEC 돌연변이 시그니처. 설명: 이 그림은 6개의 복합 시그니처 구성, 각 세포에서의 시그니처 노출량, 그리고 대표 세포 3개의 SNV 스펙트럼·indel 스펙트럼·DNV 패턴·rainfall plot을 보여줍니다. 특히 폐의 한 T세포, 흡연 손상이 많은 폐 세포, APOBEC 손상이 두드러진 대장 세포를 비교해 같은 사람 안에서도 전혀 다른 돌연변이 ‘지문’이 존재함을 시각적으로 보여줍니다. 출처: Experimental overview and quality control of PTA single-cell DNA sequencing. Luquette et al., 2025. Figure 3.


🌳 수정란까지 거슬러 올라가는 세포 계보도

단일세포 돌연변이의 또 다른 강점은, “여러 세포가 공유하는 체세포 돌연변이”를 이용해 세포 간 계통수를 재구성할 수 있다는 것입니다.

이번 연구에서는 다음과 같이 접근했습니다.

  • 초기 배아 시기에 생긴 돌연변이는 여러 세포(심지어 서로 다른 장기)에 공유됩니다.
  • 보통 단일세포 분석에서는 이런 변이가 벌크에서 보인다고 해서 필터링해 버리는데,
    이번에는 bulk 필터를 일부 완화한 뒤,
    • Sequoia 알고리즘을 사용해 197개의 공유 SNV + 2개의 공유 indel을 기반으로 계통수를 재구성했습니다.

핵심 결과:

  • 최상단 루트는 수정란(zygote)에 해당하며, 여기서 3개의 큰 계통(clade)로 분지되었습니다.
  • 각 계통이 폐·대장 벌크에서 차지하는 비율을 계산해 보니, 세 계통의 합이 약 100%를 이루어
    계통도가 실제 조직 구성과 일치함을 확인했습니다.
  • 이전 LCM/클론 확장 기반 연구에서 관찰된 것과 마찬가지로,
    초기 배아 단계에서 거의 대칭적인 분할과 기여가 이루어진다는 점도 재확인했습니다.
  • 시계형 시그니처(SBS5)는 모든 계통에 고르게 존재하지만,
    흡연·APOBEC와 같은 후천적 손상 시그니처는 후기 가지(branch)에 산발적으로 등장해,
    초기 배아 분지와 성인기 노출 이력이 서로 다른 층위의 정보임을 보여줍니다.

수정란에서 시작해 폐·대장 세포로 이어지는 계보와 돌연변이 시그니처. 설명: 그림은 공유 체세포 돌연변이를 기반으로 구축한 세포 계통수를 보여주며, 루트에서 세 개의 큰 계통으로 나뉘고, 각 계통이 폐와 대장 벌크에서 차지하는 비율이 파이차트로 표시됩니다. 또 다른 패널에서는 단일세포 기반 PTA와 벌크 기반 분석이 발견한 공유 돌연변이의 겹침 정도를 벤 다이어그램으로 제시해, PTA만으로도 벌크 수준의 계통 정보를 상당 부분 재구성할 수 있음을 시각적으로 확인시켜 줍니다. 마지막 패널은 각 가지에 할당된 돌연변이 시그니처와 chrY 이수성·TCR 재배열 정보를 함께 표시합니다. 출처: Experimental overview and quality control of PTA single-cell DNA sequencing. Luquette et al., 2025. Figure 4.


🧩 정상 조직 속 숨은 염색체 이상과 T세포 V(D)J 재배열

이 연구의 또 다른 강점은, 단일세포 수준에서 큰 구조 변이(CNV, SV)를 동시에 본 것입니다.

1) 염색체 Y의 이득과 소실, 그리고 다중 염색체 이상

  • 분석 대상 98개 세포(극단적 dropout 세포 4개는 제외) 중,
    14개 세포에서 전체 염색체 수준의 이수성(aneuploidy)가 발견되었습니다.
  • 가장 흔한 사건은 염색체 Y의 소실(6개 세포) 또는 이득(2개 세포)로,
    이는 남성에서 빈번히 관찰되는 somatic LOY(loss of Y) 현상과 일치합니다.
  • 일부 세포에서는 여러 염색체에 걸친 복합적인 copy number 변화도 관찰되어,
    겉보기에는 정상 조직이지만, 일부 세포는 암세포처럼 복잡한 염색체 재배열을 품고 있다는 사실을 보여줍니다.

2) 대규모 LOH·복제·삭제의 진짜 CNV vs 기술적 artifact 구분

  • CNVpytor와 HiScanner를 이용해 read depth(RD) + B-allele frequency(BAF)를 동시에 활용한 2D 분석을 수행했습니다.
  • 10 Mb 이상의 copy-neutral LOH, duplication, deletion의 경우
    PTA 증폭 아티팩트로 설명하기 너무 큰 규모·일관된 BAF 패턴을 보여 실제 생물학적 사건으로 해석했습니다.

3) 한 세포에서만 발견된 복합 재배열 모델

  • 특정 폐 세포(WashU_Lu_S2)의 경우,
    • 여러 염색체(2, 6, 7, 12, 17, Y)를 포함하는 복잡한 재배열과 dicentric chromosome 구성이 관찰되었습니다.
    • CNVpytor의 RD/BAF 신호에 더해, Manta가 제공한 split/discordant read를 이용해
      구체적인 재배열 모델을 제시했으며, 이는 기존 암 유전체 연구에서 보고된 비정상 염색체 구조와도 부합합니다.

4) T 세포 수용체(TCR) V(D)J 재배열로 T 세포를 식별

  • 100 kb 이상의 deletion/duplication을 검색하다가,
    5개의 폐 세포에서 TCR α/β/γ 영역에 집중된 16개의 deletion을 발견했습니다.
  • 이는 T 세포 특이적 V(D)J 재배열로 설명 가능한 패턴으로,
    • 각 세포마다 서로 다른 조합의 이형/동형 deletion이 존재해
    • 같은 조직 안에서도 서로 다른 T세포 클론을 단일세포 DNA만으로 구분할 수 있음을 보여줍니다.
  • 즉, 돌연변이 패턴만으로도 세포 유형을 추론할 수 있는 가능성을 제시한 셈입니다.

정상 폐·대장 세포 속 염색체 Y 이수성, 대규모 LOH, 복합 재배열, TCR V(D)J 이벤트. 설명: 이 그림은 chr2/X/Y를 예시로 한 염색체 Y 이득·소실, copy-neutral LOH를 보이는 대장 세포, 여러 염색체를 가로지르는 복합 CNV·SV를 가진 폐 세포의 RD/BAF 패턴과 재배열 모델을 제시합니다. 또한 TCR α/β/γ 영역의 copy number와 rearrangement arc를 통해, 특정 세포들이 T세포임을 유전체 구조만으로 판별할 수 있음을 보여줍니다. 출처: Experimental overview and quality control of PTA single-cell DNA sequencing. Luquette et al., 2025. Figure 5.


🚀 왜 중요한가? — 정밀의학·노화·암 연구에 주는 메시지

이 연구의 의의는 단순히 “새로운 기술을 썼다”가 아니라,
“한 번의 단일세포 DNA 분석으로 거의 모든 종류의 체세포 변화(SNV, indel, DNV, CNV, SV, 계통 정보, 시그니처, TCR 재배열)를 동시에 읽어낼 수 있다”는 ‘플랫폼 완성도’에 있습니다.

정리하면 다음과 같은 함의를 가집니다.

  1. 정상 조직에서도 암 유사 구조변이가 드물지 않다
    • 극히 일부 세포지만, 복합 재배열·염색체 이수성·대규모 LOH가 존재합니다.
    • 향후 암 발생 전 단계의 위험 세포를 조기에 탐지하는 데 활용될 수 있습니다.
  2. 개별 세포의 노출 이력을 읽는 ‘분자 블랙박스’
    • 흡연, APOBEC 활성, 시계형 돌연변이 속도 등은
      각 세포가 지나온 환경·스트레스의 기록입니다.
    • 동일한 장기에서도 서로 다른 미시환경과 노출을 반영하는 세포 군집을 구분할 수 있습니다.
  3. 배아기부터 노년까지 이어지는 ‘전 생애 계통 지도’ 구축 가능성
    • 이번 연구는 한 사람, 두 장기, 102개 세포에 대한 데모에 가깝지만,
    • 더 많은 장기·세포가 쌓이면 “인간 한 명의 전 생애 유전체 계보도”도 현실적인 목표가 됩니다.
  4. PTA 단일세포 DNA vs duplex 벌크 시퀀싱의 상보성
    • duplex는 평균적인 SNV/indel 특성을 가장 정밀하게 측정하지만,
    • 희귀 세포·복합 재배열·대규모 CNV·계통 정보는 단일세포(PTA)가 압도적으로 유리합니다.
    • 앞으로는 두 기술을 전략적으로 병행하는 설계가, 노화·암·희귀질환 연구에서 표준이 될 가능성이 큽니다.

💡 한줄평

PTA 기반 단일세포 DNA 시퀀싱을 통해, 한 사람의 정상 장기 속에 숨겨진 체세포 모자이크의 전 생애적 지형과 세포별 손상 이력을 통합적으로 보여준 연구입니다.

 

참고문헌 : doi: https://doi.org/10.1101/2025.10.31.685648

반응형