DeepMVP × PTMAtlas: 변이가 ‘단백질 수식(PTM)’을 어떻게 바꾸는지 예측하는 딥러닝 플랫폼

PaperReviews/Omics

DeepMVP × PTMAtlas: 변이가 ‘단백질 수식(PTM)’을 어떻게 바꾸는지 예측하는 딥러닝 플랫폼

bioinfohub 2025. 8. 28. 14:58

728x90

핵심 한 줄 요약: 대규모 MS 데이터 재분석으로 구축한 PTMAtlas(397,524개 사이트)와 딥러닝 모델 DeepMVP가 6종 PTM 자리 예측과 변이로 인한 PTM 변화(증가/감소, 직접/인접)를 높은 정확도로 판별합니다.

🧭 왜 중요한가?

포스트번역 후 수식(PTM)은 단백질 기능을 켜고 끄는 스위치입니다. 미스센스 변이가 PTM을 없애거나 새로 만들면 신호전달·안정성·상호작용이 바뀌며 질병으로 이어질 수 있습니다. 본 연구는 공개 MS/MS PTM 데이터 241세트(20,675 RAW) 를 통합 품질관리로 재분석해 PTMAtlas(총 397,524 PTM 사이트) 를 만들고, 이를 학습한 DeepMVP로 인산화·아세틸화·메틸화·수모화·유비퀴틴화·N-당화 6종 PTM을 자리 수준에서 예측합니다. 더 나아가 변이 전·후 서열의 PTM 확률 차(Δ) 로 변이의 PTM 영향까지 정량화합니다.

🧪 PTMAtlas를 어떻게 만들었나

재분석 대상: 6종 PTM이 강화된 241개 MS/MS 데이터셋(총 20,675 RAW)을 통일 파이프라인(MaxQuant, PSM·사이트 수준 FDR 1%, 위치 로컬라이제이션 기준 포함)으로 재처리
결과 규모: 397,524 고신뢰 PTM 사이트(인산화 194,903; 유비퀴틴화 106,777; 수모화 39,071; 아세틸화 33,010; 메틸화 15,843; N-당화 7,920)
품질·커버리지: 기존 DB(PSP, UniProt, PLMD, N-GlycositeAtlas) 대비 더 넓은 커버리지와 높은 누적 증거를 제시합니다.

🤖 DeepMVP의 핵심 아이디어

입력: 표적 잔기를 중심으로 한 서열 윈도우(길이 31–61) 만으로 PTM 확률을 예측
구조: CNN + 양방향 GRU 조합을 유전 알고리즘으로 최적화하고 상위 10개 모델 앙상블로 최종 점수를 산출
변이 영향: 참조 vs 변이 서열의 PTM 확률 차(Δ) 로 증가/감소와 직접(동일 위치)/인접(근접 위치) 효과를 판정합니다.

📈 성능: 6개 PTM 전반에서 SOTA 상회

벤치마크: 6개 PTM 모두에서 AUROC ≥ 0.85, 특히 N-당화 0.98, S/T 인산화 ~0.95 등 전반적 우위
일반화: 서열 유사성 엄격 통제(≤70–90%) 평가에서도 성능 안정
바이러스 단백질 적용: SARS-CoV-2 단백질에 적용 시, 실험 검출 인산화 사이트의 80%·87.5% 회수(배경 대비 7배+ 풍부화) 로 정확도를 독립적으로 확인했습니다.

🧬 변이의 PTM 영향: 문헌·프로테오게놈스·세포실험 검증

문헌 큐레이션(235쌍): PTM 자리 적중 81%, 방향성 일치 97%, 직접효과 방향성 100% 일치
CPTAC(UCEC·LSCC) 검증: 예측된 증가/감소 이벤트의 대다수가 동시 MS 데이터로 지지, 충돌 비율 2% 수준
결론: 변이-PTM 영향 예측의 민감도·특이도를 균형 있게 달성합니다.

🔎 사례로 보는 해석가능성(ClinVar)과 기전 가설

ClinVar 병원성 변이 24,237개 중 32%(7,713개) 가 PTM 변화 유발 후보
대표 사례:
- FBN1 I1048T → N-당화 신규 생성(NXS/T 모티프 형성) → 마판증 기전 가설 강화
- LRRK2 R1441C → S1443 인산화 감소(PKA 모티프 붕괴) → 파킨슨병 관련 경로
- SCNN1B P616L → T615 인산화 손실(CDK 인식 모티프 소실) → ENaC 내재화 저하 가설
- FUS R524S → Y526 인산화 증가(Src 연계) → ALS 기전·표적 가설
설명가능성: Shapley 값으로 주변 서열의 공헌도를 시각화해 상위 효소(키나아제 등) 단서까지 제시합니다.

🧫 암 전장(33개 암종)에서의 통찰

TCGA 9,079 샘플·79만+ 미스센스 중 약 31%(230,092개) 가 PTM 변화 유발 후보
핫스팟 기전 가설:
- AKT1 E17K → K20 아세틸화 감소(활성 억제 표지 소실) → AKT1 활성화 연결
- TP53 G266R → S269 인산화 증가(PKA 모티프 생성) → p53 기능 억제와 연결
- VHL L169P → S168 인산화 증가(CDK 모티프 생성) → 유비퀴틴화·분해 촉진
세포실험: TP53-G266R의 pS269, VHL-L169P의 pS168을 변이 도입 세포에서 선별적으로 검출해 예측을 지지합니다.

🧰 연구·임상 활용 체크리스트

변이 해석 보강: 보존도·구조·PPV 같은 정적 지표에 PTM 변화(증가/감소·직접/인접) 를 추가해 기능 가설의 신뢰도를 높입니다.
표적 효소 가설화: Shapley/모티프 단서로 가능한 상위 효소(키나아제·효소군)를 좁히고, 저해제/활성제 스크리닝으로 연결합니다.
프로테오믹스-유전체 통합: 샘플별 변이 DB + PTM-샷건/타깃 MS로 예측→검증 루프를 설계해 전임상 가설을 빠르게 검증합니다.

⚠️ 한계와 주의

데이터 편향: PTM 유형·시료·실험법에 따른 탐지 편향 존재
임계값 의존성: Δ 임계값(예: 0.5) 설정에 따라 민감도/특이도가 달라질 수 있음
효소 비특이 모델: 상위 효소 식별은 추가 분석/실험이 필요합니다.

✅ 정리

PTMAtlas(대규모·고품질 학습 데이터) 와 DeepMVP(CNN+BiGRU 앙상블) 의 결합으로 6종 PTM 자리 예측 성능을 전반적으로 끌어올렸고, 변이의 PTM 영향을 정량·방향성까지 해석했습니다. 문헌·CPTAC·세포실험 검증으로 신뢰성을 확보했으며, ClinVar·TCGA 전장 적용으로 새로운 병리 기전·표적 효소 가설을 제시합니다. 연구·임상 변이 해석 파이프라인을 PTM 관점에서 한 단계 확장하는 기반 자원입니다.

✍️ 한줄평

고품질 대규모 데이터와 딥러닝으로 ‘변이–PTM–질병’ 연결을 정밀하게 조명한 연구입니다.

참고문헌 : DOI: 10.1038/s41592-025-02797-x

'PaperReviews > Omics' 카테고리의 다른 글

아프리카계 미국인 여성에서 본 삼중음성 유방암 유전체 지도 (0)	2025.08.28
Microcolony-seq로 단일 세포의 ‘기억’을 읽다: 감염균의 공존 표현형과 치료 표적을 한눈에 (2)	2025.08.28
인간 NPIP 유전자군의 대확장 지도: 판게놈·롱리드로 본 구조변이–선택–발현의 연결 (1)	2025.08.26
전장유전체(WGS)로 밝힌 건선의 새로운 유전 축: IFNLR1 조절 결실과 CERCAM 위험유전자 (0)	2025.08.25
AI 기반 다중 모달 머신러닝으로 신장암 치료 반응 예측 (0)	2025.08.24

현재글DeepMVP × PTMAtlas: 변이가 ‘단백질 수식(PTM)’을 어떻게 바꾸는지 예측하는 딥러닝 플랫폼

bioinfohub

bioinfohub 님의 블로그 입니다.

치매예방, 알츠하이머, 파킨슨병, 바이오마커, 액체생검, 멀티오믹스, 종양미세환경, GWAS, 장내미생물, FDA승인, 신약개발, 유전체분석, 정밀의료, 정밀의학, 면역항암제, 항생제내성, 비만치료제, DNA메틸화, 단일세포분석, fda,

Today :
Yesterday :

bioinfohub