Tıbbi Büyük Dil Modelleri: Med-PaLM 2'den GPT-4'e Yetenekler ve Sınırlar
Büyük dil modelleri (LLM) tıp sınavlarını geçiyor, hasta sorularını yanıtlıyor, hatta bazı çalışmalarda klinik akıl yürütmede hekimlere yaklaşıyor. Ama aynı modeller, ikna edici bir dille tamamen yanlış bilgi de üretebiliyor. Bu yazı; Med-PaLM 2, GPT-4 ve benzeri tıbbi LLM'lerin gerçek yeteneklerini ve onları klinikte sınırlayan riskleri kanıtlarla ele alıyor.
Büyük dil modeli (large language model, LLM), devasa metin verisiyle eğitilmiş, kendisinden sonra gelmesi en olası kelimeyi tahmin ederek dil üreten bir yapay zekâ türüdür. ChatGPT'nin 2022 sonunda yaygınlaşmasıyla birlikte, bu modellerin tıbbi bilgiyi ne ölçüde "anladığı" sorusu tıp dünyasının gündemine oturdu. Yanıt, hem heyecan verici hem de temkinli olmayı gerektiren bir tablodur.
Sınav Başarısı: Med-PaLM 2 ve Uzman Düzeyi
Google'ın tıbba özelleştirilmiş modeli Med-PaLM 2, Mart 2023'te tanıtıldığında bir eşik aşıldı. Model, ABD tıp lisans sınavı (USMLE) tarzı sorularda %86,5 doğruluk elde ederek, bu tür kıyaslamalarda "uzman düzeyine" ulaşan ilk model oldu — bir önceki sürüm Med-PaLM'a göre yaklaşık 19 puanlık bir sıçrama. Dahası, hekimlerden oluşan değerlendiriciler, Med-PaLM 2'nin uzun-form yanıtlarını dokuz değerlendirme ekseninin sekizinde insan hekim yanıtlarına tercih etti; çıktıların büyük çoğunluğunun bilimsel uzlaşıyla uyumlu olduğu bildirildi. Med-PaLM'ın ilk sürümü 2023'te Nature'da, Med-PaLM 2'nin kapsamlı değerlendirmesi ise Nature Medicine'de yayımlandı.
Sınav puanı, klinik yeterlilik değildir
USMLE'de yüksek puan, çoktan seçmeli kapalı sorularda bilgi geri çağırma yeteneğini ölçer. Gerçek klinik; eksik veriyle, belirsizlik altında, hastaya özgü karar vermeyi gerektirir. Sınav başarısı gerekli bir işaret, ama tek başına "güvenle kullanılabilir" anlamına gelmez.
Genel Modeller de Güçlü: GPT-4 ve Klinik Akıl Yürütme
Tıbba özel olmayan genel amaçlı modeller bile çarpıcı sonuçlar verdi. 2024'te JAMA Network Open'da yayımlanan, Goh ve arkadaşlarının randomize çalışması bu açıdan öğreticidir. Çalışmada hekimler, klinik vakalarda tanısal akıl yürütmelerini ya geleneksel kaynaklarla ya da geleneksel kaynaklar + LLM ile yaptı. Sonuç hem etkileyici hem düşündürücüydü: tek başına LLM, hekimlerden belirgin daha yüksek skor aldı (medyan yaklaşık %92'ye karşı hekimlerin yaklaşık %74'ü).
Ancak asıl ders şuydu: LLM'e erişen hekimler ile geleneksel kaynak kullanan hekimler arasında anlamlı fark çıkmadı (yaklaşık %76'ya %74). Yani modelin ham gücü, hekimlerin onu kullanma biçimine otomatik olarak yansımadı. Bu "insan-yapay zekâ iş birliği paradoksu", LLM'lerin klinik faydasının yalnızca model kalitesine değil, hekimlerin bu araçları nasıl, ne zaman ve ne kadar eleştirel kullandığına bağlı olduğunu gösterir. Modeli iyi yapmak yetmez; hekimi onu doğru kullanmaya hazırlamak da gerekir.
Asıl Risk: Halüsinasyon
LLM'lerin en tehlikeli özelliği, bilmedikleri şeyde dahi ikna edici ve akıcı bir dille yanlış bilgi üretebilmeleridir — buna "halüsinasyon" denir. Tıpta bu, akademik bir kusur değil, doğrudan bir hasta güvenliği sorunudur.
Kanıtlar, riskin bağlama göre büyük ölçüde değiştiğini gösteriyor. Kontrollü bir görevde — örneğin klinik not özetleme — bir çalışma GPT-4 için yaklaşık %1,47 halüsinasyon ve %3,45 atlama (omission) oranı bildirdi; düşük ama sıfır değil. Buna karşılık, modelin zayıf olduğu bir baskı altında risk fırlıyor: Communications Medicine'de yayımlanan bir çalışmada, klinik vinyetlere kasıtlı yerleştirilen sahte bir laboratuvar değeri ya da uydurma bir hastalık, modeller tarafından vakaların %83'üne varan oranda tekrarlandı veya üzerine inşa edildi. Basit bir uyarı istemi bu oranı yarıya indirdi ama tümüyle ortadan kaldırmadı. Ayrıca, literatür taraması bağlamında modellerin uydurma kaynak/atıf üretebildiği gösterilmiştir — tıbbi referans gerektiren işlerde özellikle tehlikeli bir kusurdur.
| Görev / Bağlam | Bildirilen risk | Çıkarım |
|---|---|---|
| Klinik not özetleme (GPT-4) | ~%1,47 halüsinasyon | Yapılandırılmış görevde düşük ama sıfır değil |
| Vinyete sahte veri yerleştirme | %83'e varan tekrar/elaborasyon | Yanlış girdiyi sorgulamadan benimseme |
| Literatür/atıf üretimi | Uydurma kaynaklar mümkün | Referans doğrulanmadan kullanılmamalı |
Diğer Sınırlar: Önyargı, Güncellik ve Kanıt Eksikliği
Halüsinasyonun ötesinde dikkat edilmesi gereken sınırlar vardır. Önyargı (bias): modeller eğitim verisindeki demografik ve coğrafi dengesizlikleri yansıtabilir; az temsil edilen gruplarda performans düşebilir. Güncellik: bir modelin bilgisi eğitim kesim tarihinde donar; en yeni kılavuz veya ilaç güvenlik uyarısını bilmeyebilir. Yetersiz prospektif kanıt: çoğu etkileyici sonuç, vinyet veya sınav ortamından gelir; gerçek hasta sonuçları (mortalite, hata oranı) üzerine randomize, prospektif kanıt hâlâ sınırlıdır. Bu nedenle düzenleyici kurumlar, serbest-üretimli (generative) LLM'leri otonom klinik karar için onaylamakta temkinlidir.
Doğru Kullanım Çerçevesi
Bütün bunlar LLM'lerin tıpta değersiz olduğu anlamına gelmez — tam tersine, doğru çerçevede güçlü bir verimlilik aracıdır. Mantıklı kullanım alanları: klinik notların taslağını çıkarma, hasta için anlaşılır bilgi metinleri üretme, idari yükü azaltma (ön yetkilendirme, kodlama desteği), karmaşık literatürü özetleme ve hekime ayırıcı tanı hatırlatıcısı sunma. Ortak payda nettir: her çıktı, alanında yetkin bir hekim tarafından doğrulanmalı; model "son sözü söyleyen" değil, "ilk taslağı hazırlayan" konumunda olmalıdır.
Sonuç
Tıbbi büyük dil modelleri gerçek ve hızlı bir ilerlemeyi temsil ediyor: Med-PaLM 2 uzman düzeyinde sınav başarısı, GPT-4 etkileyici klinik akıl yürütme. Ama aynı modeller, bağlama göre %1'den %80'leri aşan oranlarda ikna edici yanlışlar üretebiliyor ve ham güçleri otomatik olarak klinik faydaya dönüşmüyor. Doğru tutum ne reddetmek ne körü körüne benimsemektir; LLM'i, çıktısı daima hekimce doğrulanan güçlü ama gözetim gerektiren bir asistan olarak konumlandırmaktır.
Kaynaklar
- Singhal K, ve ark. Toward expert-level medical question answering with large language models (Med-PaLM 2). Nature Medicine 2025. nature.com
- Singhal K, ve ark. Large language models encode clinical knowledge (Med-PaLM). Nature 2023. nature.com
- Goh E, ve ark. Large Language Model Influence on Diagnostic Reasoning: A Randomized Clinical Trial. JAMA Network Open 2024;7(10):e2440969. jamanetwork.com
- A framework to assess clinical safety and hallucination rates of LLMs for medical text summarisation. npj Digital Medicine 2025. nature.com
- Multi-model assurance analysis: LLMs vulnerable to adversarial hallucination in clinical decision support. Communications Medicine 2025. nature.com
- Hallucination Rates and Reference Accuracy of ChatGPT and Bard. Journal of Medical Internet Research 2024. jmir.org