PaperReviews/Diagnostics(Dx)

폐암 저선량 CT에서 LLM, 어디까지 왔나

bioinfohub 2025. 11. 26. 21:28
728x90

– GPT-4, Claude 3, DeepSeek-R1를 비교한 다기관 벤치마킹 연구

 

🩺 왜 폐암 검진에서 LLM이 중요한가?

폐암은 전 세계 암 사망 원인 1위로, 진단 시점이 늦어지는 순간 생존율이 급격히 떨어지는 질환입니다. 저선량 CT(LDCT)를 이용한 폐암 검진이 사망률을 낮출 수 있다는 근거가 쌓이면서, 고위험군을 대상으로 한 LDCT 스크리닝이 표준 전략으로 자리 잡고 있습니다.

하지만 CT에서 결절이 보였을 때, “지금 바로 추가 검사를 할 것인가, 아니면 언제 다시 추적할 것인가?” 를 결정하는 것은 여전히 어렵고 의료진마다 판단이 달라질 수 있습니다. 이 지점이 바로 Large Language Model(LLM) 기반 임상 의사결정 지원(clinical decision support)이 개입할 수 있는 공간입니다.

이번 Cell Reports Medicine 논문은 실제 병원 3곳에서 수집한 LDCT 판독 보고서를 이용해, 여섯 가지 LLM이 폐암 검진 상황에서 얼마나 읽기 쉽고 얼마나 ‘가이드라인에 맞는’ 관리 권고를 내리는지 체계적으로 비교한 다기관 벤치마킹 연구입니다.


🏥 연구 디자인: 3개 병원, 148개 LDCT 보고서, 6개 LLM

연구팀은 중국의 3개 의료기관(상하이 중산병원, 샤먼 중산병원, 루안 인민병원)에서 첫 번째 폐암 LDCT 스크리닝에서 우연히 폐 결절이 발견된 148명의 보고서를 수집했습니다. 이때 포함 기준은 다음과 같습니다.

  • 50–80세
  • 20 pack-year 이상 흡연력, 현재 흡연 중이거나 최근 15년 내 금연
  • 첫 LDCT 검진에서 폐 결절이 발견된 경우

보고서는 모두 익명화하고, 두 명의 영상의학과 의사가 영어로 번역한 뒤 LLM에 입력했습니다.

비교 대상 LLM은 두 단계로 나뉩니다.

  1. 본 분석(다기관, n=148)
    • GPT-3.5
    • GPT-4
    • Claude 3 Sonnet
    • Claude 3 Opus
  2. 탐색적 분석(단일 기관, n=50)
    • GPT-4o (최신 OpenAI 모델)
    • DeepSeek-R1 (오픈소스 초거대 LLM)

각 모델에는 “경험 많은 흉부외과 전문의 역할을 하라” 라는 프롬프트와 함께, 환자 나이·흡연력·LDCT 판독 내용을 넣고 6문장 이내의 관리 권고(추적 시기·추가 검사·수술 등)를 작성하도록 했습니다. 모델은 모두 zero-shot, 비튜닝 상태에서, 매 케이스마다 새로운 세션으로 초기화해 평가했습니다.

이후 다음 두 축에서 성능을 평가했습니다.

  • 읽기 쉬운가?
    → Flesch Reading Ease Score로 가독성 평가
  • 가이드라인에 맞는가?
    → NCCN 폐암 스크리닝 가이드라인과의 일치도 및 핵심 정보 추출 여부를 기반으로, 흉부외과 전문의 2인이 5점 척도(5-Likert)로 점수 부여

📖 결과 1: 가장 읽기 쉬운 건 Claude 3 Opus

먼저 “일선의 일반의도 이해할 수 있는가?” 라는 관점에서 가독성(readability) 을 비교했습니다. Flesch Reading Ease Score는 숫자가 높을수록 문장이 짧고 쉬운 영어라는 뜻입니다.

  • Claude 3 Opus
    • 중앙값 44.58 (IQR 38.95–50.16)
    • 다른 모든 모델보다 유의하게 더 읽기 쉬운 텍스트 생성
  • GPT-3.5
    • 중앙값 26.51 → 문장 길고 단어가 어려운 편
  • GPT-4, Claude 3 Sonnet
    • GPT-4: 중앙값 30.32
    • Sonnet: 중앙값 32.60
    • 둘 다 Opus보다는 다소 어려운 영어 문장 경향

연구팀의 해석은 명확합니다.

“전반적으로 텍스트는 대학 수준 교육을 받은 일반의가 읽고 이해하기에는 충분하다.”

즉, 전문가 모드 프롬프트로 답변을 생성했음에도, Opus는 비교적 부드럽고 친절한 설명을 제공했고, 나머지 모델들도 ‘전문의용’ 보고서보다는 조금 더 쉽게 읽히는 수준의 문장을 내놨다는 의미입니다.

네 가지 LLM의 가독성 비교. Opus가 다른 모델 대비 일관되게 더 높은 점수를 기록해 가장 읽기 쉬운 권고문을 생성했다는 점이 시각적으로 드러납니다. 출처: Duan, Z. et al. (2025). Multi-center benchmarking of large language models for clinical decision support in lung cancer screening. Cell Reports Medicine, 6, 102465. Figure 1A.


🎯 결과 2: 가장 정확한 건 GPT-4, 그 뒤를 잇는 GPT-4o와 DeepSeek-R1

다음 질문은 “과연 가이드라인에 맞게 정확한 권고를 내리는가?” 입니다. 연구팀은 NCCN 폐암 스크리닝 가이드라인을 기준으로 다음을 평가했습니다.

  • 결절 크기, 모양 등 핵심 소견을 제대로 읽어냈는지
  • 흡연력·나이 등 위험도를 반영했는지
  • 추적 간격/추가 검사/수술 여부 등 권고가 가이드라인과 얼마나 일치하는지

2-1. 본 분석: GPT-4가 전반적인 정확도 1위

4개 모델을 5점 척도로 평가했을 때,

  • GPT-4
    • 정확도 중앙값 4.50 (IQR 4.00–4.75)
    • 전체 모델 중 가장 높은 점수
  • Claude 3 Opus
    • 중앙값 4.00 (IQR 3.75–4.50) → 높은 수준이지만 GPT-4보다 약간 낮음
  • Claude 3 Sonnet
    • 중앙값 3.75
  • GPT-3.5
    • 중앙값 2.88 → 가이드라인과의 불일치가 상대적으로 많음

또한 세 병원 간 보고서 템플릿이 서로 달랐음에도, 병원별 성능 차이는 통계적으로 유의하지 않았습니다.
→ 즉, LLM은 서로 다른 병원 양식의 LDCT 보고서에도 꽤 안정적으로 일관된 권고를 내릴 수 있다는 점을 보여줍니다.

폐암 스크리닝에서 LLM 정확도 및 다기관 일관성. (B) 각 모델의 정확도 점수가 어느 구간에 모이는지를 보여줍니다. GPT-4와 Opus가 상위 점수 구간에 집중되어 있음을 확인할 수 있습니다. (C) 모델 간 쌍대 비교에서 어떤 모델이 통계적으로 우세한지를 직관적으로 나타냅니다. GPT-4가 GPT-3.5와 Sonnet, Opus 대부분과 비교에서 우월한 성능을 기록합니다. (D) 세 병원(상하이·샤먼·루안)에서의 성능 분포를 보여주며, 병원 간 큰 편차 없이 안정적인 정확도를 보인다는 점을 시각화합니다. 출처: Duan, Z. et al. (2025). Multi-center benchmarking of large language models for clinical decision support in lung cancer screening. Cell Reports Medicine, 6, 102465. Figure 1.

2-2. 탐색 분석: GPT-4o와 DeepSeek-R1, GPT-4와 ‘비슷하게’ GPT-3.5를 넘어섰다

연구가 진행되는 동안, LLM 세대 교체가 빠르게 진행되면서 GPT-4o와 DeepSeek-R1이라는 새로운 모델이 등장했습니다. 연구팀은 상하이 중산병원 LDCT 보고서 50건을 사용해 추가 탐색 분석을 수행했습니다.

  • GPT-4o: 중앙값 4.75 (IQR 4.06–4.94)
  • GPT-4: 중앙값 4.50 (IQR 4.25–4.75)
  • DeepSeek-R1: 중앙값 4.50 (IQR 4.25–5.00)
  • GPT-3.5: 중앙값 2.75 (IQR 2.25–3.94)

통계적으로는,

  • GPT-4o, GPT-4, DeepSeek-R1 셋 사이에는 유의한 차이가 없고
  • 이 셋 모두가 GPT-3.5보다 유의하게 높은 정확도를 보였습니다.

또한 완벽하게 가이드라인과 일치하는 권고(5점 만점) 비율을 보면,

  • GPT-3.5: 0/50 (0%)
  • GPT-4: 6/50 (12%)
  • GPT-4o: 13/50 (26%)
  • DeepSeek-R1: 15/50 (30%)

규모가 작아 통계적 차이는 제한적이지만, 최신 모델일수록 ‘완벽한 권고’를 내리는 비율이 증가하는 트렌드가 뚜렷합니다.

GPT-4o와 DeepSeek-R1의 성능 분포. (A) 네 모델의 정확도 점수 분포를 겹쳐 보여주며, GPT-4o와 DeepSeek-R1이 상위 점수대에 치우쳐 있음을 강조합니다. (B) GPT-4o, GPT-4, DeepSeek-R1이 서로 비슷한 중앙값을 가지면서 모두 GPT-3.5보다 우월한 성능을 보인다는 점을 깔끔하게 요약합니다. 출처: Duan, Z. et al. (2025). Multi-center benchmarking of large language models for clinical decision support in lung cancer screening. Cell Reports Medicine, 6, 102465. Figure 2.


🤝 임상의 관점에서 본 의미: “지금은 보조도구, 그러나 곧 필수 레이어”

이 논문이 보여주는 핵심 메시지는 다음 세 가지로 정리할 수 있습니다.

  1. LLM은 폐암 LDCT 스크리닝에서 ‘가이드라인에 상당히 근접한’ 관리 권고를 생성할 수 있다.
    • 특히 GPT-4, GPT-4o, DeepSeek-R1은 상당수 케이스에서 임상 가이드라인과 거의 동일한 결정을 내렸습니다.
  2. 오픈소스 LLM(DeepSeek-R1)의 약진이 두드러진다.
    • 성능은 GPT-4 계열과 비슷하면서,
    • 데이터 프라이버시·온프레미스 배포·비용 측면에서 강점을 가진다는 점에서,
    • 향후 병원 내 독립 구축형 임상 의사결정 지원 시스템의 중요한 후보로 떠오르고 있습니다.
  3. 다기관·서로 다른 보고서 양식에서도 성능이 크게 흔들리지 않는다.
    • 이는 실제 의료현장에서 “병원마다 말투·양식이 달라 LLM이 못 알아듣는다”는 우려를 줄여주는 결과입니다.

연구팀은 이런 결과를 바탕으로, LLM을 “당장 완전 자동 의사결정 시스템이 아니라, 경험 많은 전문의 옆에서 ‘두 번째 의견’을 제공하는 보조 레이어” 로 보는 것이 현실적이라고 강조합니다.


⚠️ 여전한 리스크: 해석 불투명성과 ‘누락·할루시네이션’

논문은 장점만큼이나 위험요소도 분명하게 짚습니다.

  • 블랙박스 의사결정
    • 일부 답변은 결절 크기·흡연력을 언급하지만,
    • 전체적인 결정 과정은 여전히 불투명합니다 → 왜 특정 추적 간격을 선택했는지 명시되지 않는 경우가 많음.
  • 할루시네이션 & 중요한 정보 누락
    • 프롬프트에 없는 내용을 지어내는 경우(할루시네이션)와,
    • 보고서에 있는 핵심 정보를 언급하지 않는 경우(누락)가 관찰되었습니다.
    • 평가 척도는 이런 오류를 강하게 감점하도록 설계되었습니다.

연구팀의 결론은,

“현재 LLM은 ‘바로 임상에 투입’할 단계가 아니라,
엄격한 검증과 적절한 감시 체계를 전제로 한 의사결정 지원 도구로 보는 것이 타당하다.”

는 것입니다.


🔬 연구의 한계와 향후 과제

이 연구는 여러 면에서 신중하게 설계되었지만, 다음과 같은 한계를 인정합니다.

  1. 후향적·소규모 분석
    • 3개 센터, 148건·50건 수준의 데이터로는
    • 인구집단·보고서 스타일·케이스 난이도의 다양성을 모두 포착하기에는 부족합니다.
    • 향후 더 큰 규모의 전향적, 실사용(real-world) 연구가 필요합니다.
  2. 텍스트 기반 평가에 그쳤다
    • 실제 임상은 CT 원본 영상, 이전 검사, 임상 소견 등 복합 정보를 갖고 판단합니다.
    • 이번 연구는 LDCT 텍스트 보고서만 활용했기 때문에,
    • 향후에는 영상+텍스트+EMR을 통합한 멀티모달 LLM 평가가 중요 과제로 남습니다.
  3. zero-shot, 비튜닝 상태만 평가
    • 각 모델은 도메인 특화 튜닝 없이,
    • 한 가지 프롬프트 템플릿으로만 테스트됐습니다.
    • 의료용으로 최적화된 프롬프트 전략·파인튜닝을 적용하면,
    • 실제 성능은 논문에서 보고된 수치보다 더 높아질 가능성이 큽니다.

🧾 결론 정리

초록과 본문을 종합하면, 이 논문의 결론은 다음과 같이 요약할 수 있습니다.

  1. LLM은 폐암 LDCT 스크리닝에서 가이드라인과 상당히 일치하는 관리 권고를 생성할 수 있으며, 일반의도 이해할 수 있는 수준의 가독성을 가진다.
  2. GPT-4는 전체 모델 중 가장 높은 정확도를 보였고, Claude 3 Opus는 가장 읽기 쉬운 문장을 생성했다.
  3. 최신 모델인 GPT-4o와 오픈소스 DeepSeek-R1은 GPT-4와 유사한 정확도를 보여주며, 이전 세대인 GPT-3.5를 유의하게 상회했다.
  4. 병원 간 보고서 양식 차이에도 모델 성능이 크게 흔들리지 않아, 다양한 의료 환경에서 활용 가능한 잠재력을 보여준다.
  5. 다만 LLM은 아직 가끔 할루시네이션·정보 누락을 보이며, 의사결정 과정이 불투명하다는 한계가 있어, 즉각적인 단독 임상 사용보다는 철저한 검증과 감독 아래 ‘보조 도구’로 활용해야 한다.

💡 한줄평

다기관 LDCT 실제 보고서를 통해 LLM이 폐암 검진에서 가이드라인에 근접한 의사결정 지원 도구가 될 수 있음을 보여준 연구입니다.

 

참고문헌 : DOI: 10.1016/j.xcrm.2025.102465

반응형