PaperReviews/Omics

EHR 기반 PheRS와 PRS의 상보성: 임상 현장에서 ‘두 개의 렌즈’로 질병 위험을 본다

bioinfohub 2025. 8. 30. 11:10
728x90

전자건강기록(EHR)에서 파생한 Phenotype Risk Score(PheRS)Polygenic Risk Score(PRS)서로 다른 신호를 포착하며, 함께 쓸 때 예측력이 유의하게 향상된다는 대규모 코호트 연구가 보고되었습니다. 연구진은 핀란드 FinnGen, UK Biobank, 에스토니아 Biobank의 84만 5,929명을 대상으로, 13개 흔한 질환에 대해 PheRS와 PRS를 직접 비교하고 교차-바이오뱅크 일반화 성능까지 평가하였습니다. 결과적으로 두 점수의 상관은 낮고(중등도), 두 점수를 결합하면 13개 중 8개 질환에서 발병 예측이 개선되었습니다.


🔎 왜 중요한가: 임상 데이터와 유전 데이터의 ‘분업’

PheRS는 과거 진단 이력의 패턴을, PRS는 유전적 소인을 포착합니다. 이번 비교 연구는 두 축이 ‘직교적(orthogonal)’ 정보를 담고 있음을 보여주며, 결합 시 예측 성능의 실질적 이득을 제시합니다. 이는 스크리닝·예방 중재·치료 자원 배분을 더 정밀화할 실용적 근거입니다.


🧭 연구 설계 한눈에: 관찰–세척–예측의 3단 구조

  • 대상: 84만 5,929명, 만 32–70세(2011년 1월 1일 기준)
  • 질환: 심혈관·정신건강·호흡기·근골격계·암 포함 13개 질환
  • 기간: 관찰기(1999–2009)세척기(2년)예측기(2011–2018)
  • 데이터: phecode 234개 중 유병률 ≥1%를 사용, 질환과 지나치게 근접한 코드 제외
  • 모델: Elastic net 기반 PheRS, 각 코호트에서 50% 학습/50% 검증, Cox-PH로 발병 예측 평가
  • PRS: 공개 GWAS 요약통계로 계산한 점수 사용(MegaPRS)

연구 설계 개요  — 관찰·세척·예측 구간, 13개 질환, 학습/검증 및 평가지표


📈 핵심 결과 1: PheRS 단독의 예측력과 독립성

  • 13개 전 질환에서 PheRS 유의(Cox-PH, P<0.05). 대사성·통풍·폐암에서 효과가 특히 큼
    • 통풍 HR=1.59, 제2형당뇨 HR=1.49, 폐암 HR=1.46(표준편차 1 증가당)
  • 연령·성별 제거 후 평가했으며, 기저모형(연령+성별) 대비 C-index 개선이 3개 코호트 합산 7개 질환에서 관측
    • 메타분석에서는 MDD·통풍·간질·천식의 개선이 통계적으로 견고

PheRS 성능  — 질환별 HR·C-index 개선(연령·성별 대비)


🔁 핵심 결과 2: ‘다른 나라 EHR’로도 통한다 — 일반화 성능

코호트 간 질환 코드 체계·의료체계 차이에도 불구하고, 대부분의 PheRS가 재학습 없이도 외부 코호트에서 성능을 유지했습니다. 외부 검증에서 내부 학습 대비 HR과 상관이 높게 일치하는 패턴이 관찰되었습니다.

외부 검증  — 내부·외부 학습 PheRS의 상관과 HR 비교


🧩 핵심 결과 3: PheRS와 PRS의 상보성 — 결합이 답이다

  • 두 점수의 상관은 낮고(중등도), 결합 모델13개 중 8개 질환에서 PGS 단독 대비 예측력(C-index) 향상
  • 상위 10% 고위험자 식별에서도 PheRS가 8/13 질환에서 PGS보다 더 큰 HR을 보였으며, 이는 임상 이력 기반 위험 신호를 더 잘 포착함을 시사합니다.

PGS vs PheRS  — 상위 10% HR 비교, 상관, 결합 시 C-index 향상


🏥 데이터 차이의 현실: phecode 분포와 계수의 이질성

EHR 구성의 차이(예: 기초의료 포함 여부)로 공통 phecode는 48개에 불과했고, 질환별·코호트별 중요도와 계수도 상이했습니다. 그럼에도 공통 코드만으로 학습한 PheRS가 일부 전이 성능을 높이는 전략으로 작동했습니다.

phecode 분포·계수  — 코호트별 유병률 차이와 모델 계수


🧠 실무 적용을 위한 체크리스트

  • 데이터 창을 길게 보십시오: 관찰기 신호를 세척기(2년)로 오염 제거 후 예측에 투입하는 전향적 설계는 임상 적용에서 정보 누출을 줄입니다.
  • 간단한 모델도 강력합니다: Elastic net + phecode 234개만으로도 일관된 예측력을 보였습니다. 더 복잡한 시계열·멀티모달 확장은 추가 이득 여지를 시사합니다.
  • 코호트·진료체계 이질성을 고려해 코드 매핑·공통 피처 집합을 확보하십시오. 이는 외부 일반화를 돕습니다.
  • 결합 전략이 핵심입니다: PheRS와 PRS의 결합은 다양한 질환에서 실질적 C-index 향상을 제공합니다. 특히 고위험자 선별에서 PheRS의 기여가 두드러집니다.

🧩 데이터 특성과 한계, 해석의 주의점

  • 질환 유병률·코딩 관행의 차이가 큽니다. 예를 들어 무릎 골관절염 유병률은 Estonian Biobank가 상대적으로 높고, T2D는 FinnGen에서 높음(예측기 동안). 해석 시 코호트별 맥락을 반영해야 합니다.
  • 인구집단 구성(주로 유럽계) 제한으로, 다양한 유전적 배경에서의 일반화는 후속 검증이 필요합니다.

✅ 한줄평

EHR의 ‘시간축’과 유전의 ‘체질’이 만날 때, 임상 예측은 한 단계 더 똑똑해집니다.

 

참고문헌 : DOI: 10.1038/s41588-025-02298-9

반응형