구글 딥마인드(Google DeepMind)가 유전체 변이 효과 예측을 혁신할 새로운 AI 도구인 '알파게놈(AlphaGenome)'을 공개했습니다. 알파게놈은 최대 1백만(Mb) 개의 DNA 염기쌍을 입력으로 받아 수천 가지의 기능 유전체 특성을 단일 염기쌍 해상도로 예측하며, 유전체 변이가 광범위한 생물학적 과정에 미치는 영향을 훨씬 더 정확하고 포괄적으로 파악할 수 있게 해줍니다. 이 획기적인 모델은 비상업적 연구를 위해 알파게놈 API를 통해 미리 사용 가능하며, 향후 전체 모델도 공개될 예정입니다.
알파게놈, 어떻게 작동하는가?
알파게놈은 DNA 서열을 입력받아 유전자 조절 활동을 나타내는 수천 개의 분자 특성을 예측합니다. 돌연변이 시퀀스와 변이 없는 시퀀스의 예측을 비교하여 유전체 변이 또는 돌연변이가 미치는 영향을 평가할 수 있습니다.
이 모델은 DNA 서열 내의 짧은 패턴을 감지하는 컨볼루션 레이어(convolutional layers), 서열 내 모든 위치에서 정보를 주고받는 트랜스포머(transformers), 그리고 다양한 양식(modality)에 대한 예측을 생성하는 최종 레이어로 구성된 아키텍처를 사용합니다. 특히, 인코더(encoder)와 디코더(decoder)를 통합한 U-Net 스타일의 프레임워크를 통해 복잡한 유전체 데이터를 효율적으로 처리하며, 최대 1Mb 길이의 DNA 서열을 단일 염기쌍 해상도로 분석할 수 있습니다. 이는 기존 모델들이 서열 길이와 예측 해상도 사이에서 상충 관계를 겪었던 한계를 극복한 것입니다.
학습 데이터는 ENCODE, GTEx, 4D Nucleome, FANTOM5와 같은 대규모 공공 컨소시엄에서 얻은 인간 및 생쥐 유전체의 실험 데이터가 사용되었습니다. 이를 통해 유전자 발현, 전사 개시, 염색질 접근성, 히스톤 변형, 전사 인자 결합, 염색질 접촉 지도, 스플라이스 부위 사용 및 스플라이스 접합부 좌표 및 강도 등 다양한 유전자 조절 양식을 포괄적으로 예측할 수 있습니다.
알파게놈의 독보적인 특징
- 고해상도 장거리 서열 분석: 알파게놈은 최대 1Mb의 DNA 서열을 단일 염기쌍 해상도로 분석합니다. 이는 원거리 유전자 조절 영역의 영향과 미세한 생물학적 세부 사항을 동시에 포착하는 데 중요합니다. 기존 모델의 한계를 넘어섰다는 점에서 큰 의미가 있습니다.
- 포괄적인 다중 양식 예측: 이 모델은 유전자 발현, 스플라이싱 패턴, DNA 접근성, 히스톤 변형, 전사 인자 결합, 염색질 접촉 지도 등 11가지 이상의 다양한 유전체 양식을 동시에 예측할 수 있습니다. 이를 통해 유전자 조절의 복잡한 과정을 더욱 종합적으로 이해할 수 있습니다.
- 효율적인 변이 점수화: 알파게놈은 단일 추론 과정에서 돌연변이 서열과 변이 없는 서열의 예측을 대조하여, 유전체 변이가 모든 예측 특성에 미치는 영향을 효율적으로 점수화할 수 있습니다. 이는 복잡한 메커니즘을 가진 변이를 이해하는 데 필수적입니다.
- 새로운 스플라이스 접합부 모델링: 척수성 근위축증이나 낭포성 섬유증과 같은 희귀 유전 질환은 RNA 스플라이싱 오류로 인해 발생하기도 합니다. 알파게놈은 RNA 스플라이싱 과정에서 RNA 분자의 일부가 제거되고 나머지 부분이 재결합되는 접합부의 위치와 발현 수준을 서열로부터 직접 명시적으로 모델링하는 최초의 시스템입니다.
- 벤치마크에서 최첨단 성능 달성: 알파게놈은 24개 유전체 트랙 예측 평가 중 22개에서, 그리고 26개 변이 효과 예측 평가 중 24개에서 기존 최강 모델을 능가하거나 대등한 성능을 보였습니다. 특히, 유전자 발현량 예측에서 Borzoi 대비 17.4%의 상대적 개선을 보였고 , 염색질 접촉 지도 예측에서는 Orca 대비 6.3%의 Pearson 상관관계 개선 및 42.3%의 세포 유형별 차이 개선을 달성했습니다. 이러한 결과는 모델의 일반성과 강력한 예측 능력을 입증합니다.

통일된 모델의 이점
알파게놈의 가장 큰 장점은 과학자들이 단일 API 호출로 다양한 유전체 양식에 걸쳐 변이의 영향을 동시에 탐색할 수 있다는 점입니다. 이는 여러 모델을 사용해야 했던 기존 방식보다 훨씬 효율적이며, 가설 생성 및 검증 과정을 가속화할 수 있습니다. 또한, 모델의 확장 가능한 아키텍처는 향후 더 많은 학습 데이터를 통합하여 성능을 향상시키고, 더 많은 종과 추가 양식을 포괄할 수 있는 잠재력을 가집니다.
연구 도구로서의 잠재력
- 질병 이해: 유전적 교란을 더 정확하게 예측함으로써 질병의 잠재적 원인을 밝히고, 특정 형질과 관련된 변이의 기능적 영향을 해석하여 새로운 치료 표적을 발굴할 수 있습니다.
- 합성 생물학: 특정 조절 기능을 가진 합성 DNA를 설계하는 데 활용될 수 있습니다 (예: 특정 세포 유형에서만 유전자 활성화).
- 기초 연구: 유전체의 핵심 기능 요소를 매핑하고 역할을 정의하며, 특정 세포 유형의 기능을 조절하는 데 가장 필수적인 DNA 지침을 식별하여 유전체에 대한 이해를 심화할 수 있습니다.
실제로 알파게놈은 T-세포 급성 림프모구 백혈병(T-ALL) 환자의 TAL1 유전자 주변 돌연변이가 MYB DNA 결합 모티프를 도입하여 유전자 발현을 활성화하는 기존 질병 메커니즘을 성공적으로 재현했습니다. 이는 알파게놈이 비암호화 변이와 질병 유전자 사이의 연관성을 밝히는 데 유용함을 시사합니다.
현재의 한계점
알파게놈은 큰 진전을 이루었지만, 여전히 몇 가지 한계점을 가지고 있습니다. 10만 염기쌍 이상 떨어진 원거리 조절 요소의 영향을 정확히 포착하는 것은 여전히 어려운 과제입니다. 또한, 세포 및 조직 특이적 패턴을 정확히 재현하고 조건 특이적 변이 효과를 예측하는 데는 추가적인 개선이 필요합니다. 개인 유전체 예측에 대한 검증은 아직 이루어지지 않았으며, 모델은 분자적 결과를 예측하지만 복잡한 특성이나 질병으로 이어지는 생물학적 과정을 직접적으로 설명하지는 않습니다.
이러한 한계는 향후 연구를 위한 중요한 방향을 제시합니다. 즉, 변이 예측 정확도 향상, 더 광범위한 데이터 양식 통합 (DNA 메틸화, DNA/RNA 구조적 특징), 그리고 모델 개선 (DNA 언어 모델 활용, 다중 종 기능 확장) 등이 필요합니다.
중요한 의미: 알파게놈은 유전자 조절의 복잡성을 해독하고, 질병의 유전적 원인을 이해하며, 새로운 치료법 개발을 가속화하는 데 핵심적인 역할을 할 강력하고 통일된 플랫폼을 제공합니다.
참고자료: https://storage.googleapis.com/deepmind-media/papers/alphagenome.pdf
'Biostory' 카테고리의 다른 글
| 트라이아스기 익룡의 비행, 기후 변화가 이끌었다! (0) | 2025.06.29 |
|---|---|
| 말라위 시클리드: 뒤집힌 DNA가 밝혀낸 놀라운 진화의 비밀 (0) | 2025.06.29 |
| 산호초: 푸른 바다의 오아시스, 그 비밀이 밝혀지다 (0) | 2025.06.26 |
| 잃어버린 고대 인류의 퍼즐, '용인(龍人)' 드래곤 맨의 정체가 밝혀지다! (2) | 2025.06.26 |
| 암 치료의 미래: 인공지능이 바꾸는 정밀 의료의 패러다임 (0) | 2025.06.24 |