PaperReviews/Omics

유전체 변이 예측의 새 기준, varCADD: 인간 집단 변이로 병원성을 학습하다

bioinfohub 2025. 8. 8. 19:17
728x90

🧭 왜 중요할까? — 시뮬레이션 대신 ‘실제 인간 변이’

기존 CADD는 진화 유래 변이(benign proxy)와 시뮬레이션 변이(deleterious proxy)를 학습해 전장유전체에서 병원성(정확히는 “유해성”)을 점수화해왔습니다. 하지만 데이터가 코딩 영역·소수 유전자에 편중되어 있고, 비코딩 변이 우선순위화에는 한계가 있었습니다. varCADD는 gnomAD v3.0 전장유전체 71,156명실제 관찰 변이 빈도를 레이블로 사용해, 자주 관찰되는 변이(≥0.1%)는 양성, 희귀/싱글톤 변이(<0.1% 또는 AC=1)는 유해성 대리로 두고 학습합니다. 그 결과, ClinVar(2025년 6월 릴리스) 검증에서 CADD v1.6·v1.7과 동등~우수한 성능을 보였습니다.

 

변이 빈도 ↔ 유해성  개념과 varCADD 학습 파이프라인 요약

 


🧪 데이터와 레이블링 — 빈번 vs 희귀/싱글톤

  • 데이터 원천: gnomAD v3.0 전장유전체, 친족 샘플 제외. 변이 수억 건에서 품질 필터 후 사용.
  • 라벨 정의
    • Proxy-benign: 빈번 변이(MAF ≥ 0.1%).
    • Proxy-deleterious: 희귀 변이(MAF < 0.1%, AC>1) 또는 싱글톤(AC=1).
    • 레이블 누출을 막기 위해 치환 비율·인델 길이를 빈번 변이에 맞춰 매칭.
  • 학습 특징(Features): CADD v1.6과 동일한 주석 세트(보존·제한성, 조절/후성유전, 서열기반, 변이밀도 등). L2 로지스틱 회귀, 표준화·결측치 보정·교차특징 포함.

빈도–CADD 점수 역상관, CADD 점수↑일수록  평균 대립빈도↓ , 싱글톤 비율↑.

 


🧰 평가 설계 — ClinVar·MPRA로 다각도 검증

  • ClinVar(2025.6): GRCh38 기준 SNV/≤50bp 인델, 병성/양성 확정 레이블. 총 1,478,131 변이(병성 261,148; 양성 1,216,983).
  • 조절변이(MPRA): 여러 세포주에서 유전자 발현 영향이 재현되는 변이만 엄격 선별한 효과/무효과 세트 구성.

📊 핵심 결과 — CADD와 어깨 나란히, 어떤 영역은 앞선다

  • 전체 성능(ClinVar): fr’(빈번-희귀+변이밀도), fs’(빈번-싱글톤+변이밀도)CADD v1.6·v1.7동급 또는 약간 우위(AUPRC). rs/rs’(희귀-싱글톤)은 구분력이 낮음. 변이밀도 특징의 영향은 데이터셋에 따라 상이하지만 대규모 누출 징후는 없음.
  • 대체·증강 학습
    • CADD의 시뮬레이션 deleterious싱글톤으로 대체한 hs는 v1.6·v1.7과 동급~소폭 우위,
    • human-derived + 빈번 vs 싱글톤(hfs) 증강 모델정밀도-재현율(PR) 개선이 가장 뚜렷.
    • 단, 싱글톤 전량(hs-all/hfs-all) 투입은 노이즈↑ → PR 저하.
  • 유형별/영역별
    • stop-gain, UTR, 비코딩 엑손 등에서 varCADD 계열이 선두를 차지하는 구간 존재(차이는 전반적으로 소폭).
    • 비코딩 집합 비교에서 hfs·fr이 상대적으로 높은 정밀도를 보임.

ClinVar ROC/PRC, fr’/fs’ 우수, rs/rs’ 열위.

 

결합 학습 성능,  hfs 가 v1.6·v1.7 대비  PR 향상 , 불균형 대용량 모델은 역효과

 

유형별·비코딩·MPRA,유형별 1위 모델이 다름, 비코딩·MPRA에서 varCADD 일부 강점

 


🧠 왜 작동하나 — 자연선택의 그림자를 레이블로 활용

정화선택(purifying selection)은 유해 변이의 빈도를 낮추고, 중립/유익 변이는 남기거나 드리프트시킵니다. varCADD는 이 빈도 분포 자체를 레이블로 삼아, 전장유전체에서 병원성(유해성) 우선순위화를 가능하게 합니다. 코딩에 비해 보존도가 낮은 조절/비코딩 영역에서도 후성유전/조절 주석을 더 적극적으로 활용해 신호를 포착합니다.

 

점수 분포·상관·특징 계수, varCADD는  보존도 의존↓ ,  조절/서열/변이밀도 의존↑  경향

 


🧩 실전 적용 팁 — 분석 파이프라인에서 이렇게 쓰면 좋다

  • 코딩 변이 1차 스크리닝: CADD와 동급 성능, 유형별 미세차가 있어 다중 스코어 앙상블 권장(예: CADD + varCADD-hfs).
  • 비코딩 후보 우선순위화: hfs·fr 조합이 정밀도 측면에서 유리. MPRA 후보 선정 전단 필터로 적합.
  • 학습 데이터 주의: 싱글톤 전량 그대로는 PR 저하 위험 → 균형 샘플링·치환/인델 분포 매칭 필수.

⚠️ 한계와 해석 주의

  • 레이블 노이즈: 희귀/싱글톤=유해성은 확률적 대리. 대규모 데이터·규제화로 상쇄되지만, 임상 해석 시 보조지표와 병행 권장.
  • 집단 편향: gnomAD의 유럽계 과대표집으로 집단별 빈도 차가 라벨에 섞일 수 있음 → ancestry-aware 빈도 통합이 개선책.

한줄평

“시뮬레이션 없이, 인간 집단 변이의 ‘빈도’만으로도 전장유전체 병원성 예측은 가능하며—특정 영역에서는 더 강력해진다.”

 

참고문헌 : DOI: 10.1186/s13073-025-01517-6

varCADD : https://zenodo.org/records/13832126

반응형