Tıpta Agentic AI: Otonom Yapay Zeka Ajanları Neyi Başardı, Neyi Başaramadı?
Araç kullanan, plan yapan ve eyleme geçen otonom yapay zeka ajanları tıpta hızla gündemde; benchmark başarıları etkileyici, ancak gerçek dünya kanıtı, maliyet ve güvenlik soruları henüz çözülmüş değil.
Son iki yılda yapay zekânın tıptaki gündemi, soru yanıtlayan sohbet botlarından bir adım öteye taşındı: artık kendi başına plan yapan, araç kullanan ve eyleme geçen sistemler konuşuluyor. Bu sistemlere "agentic AI" (ajan-temelli yapay zeka) deniyor. Pasif bir "öneri sun, onay bekle" yapısının aksine, agentic bir ajan bir soruyu adımlara böler, gerektiğinde web'de arama yapar, kod çalıştırır, bir laboratuvar veya kayıt sistemine erişir ve hatta başka ajanlarla koordineli çalışır. Lancet'te Zou ve Topol bunu "tıpta agentic AI takım arkadaşlarının yükselişi" olarak çerçeveliyor. Bu yazıda, 2025-2026 kanıtına dayanarak bu ajanların gerçekten neyi başardığını ve neyi henüz başaramadığını ölçülü biçimde ele alıyoruz.
Agentic AI nedir, sohbet botundan farkı ne?
Bir dil modeli (LLM) tek başına metin üretir; agentic bir sistem ise bu modeli bir "beyin" olarak kullanıp ona otonomi ve araçlar ekler: çok-adımlı planlama, harici araç çağırma (web, kod yürütme, hasta kayıt/laboratuvar erişimi) ve ajanlar arası iş bölümü. Tek bir model bir tanı sorusunu doğrudan yanıtlarken, agentic bir orkestratör "önce şu testi iste, sonucu gör, ayırıcı tanıyı daralt, sonra karara bağla" gibi bir döngü yürütür.
Burada dürüst olmak gerekir: alanda ortak bir tanım yok ve "agentic" sözcüğü kısmen pazarlama dilidir. 2024'te modellerin yapamadığı işler 2025'te "ajanlara", 2025'te ajanların yapamadığı işler 2026'da "agentic sistemlere" havale ediliyor; yani sınırlar sürekli geleceğe erteleniyor. Bir aracın "agentic" etiketi taşıması, onun klinikte güvenli veya onaylı olduğu anlamına gelmez.
Tanısal benchmark'larda etkileyici ama tuzaklı sonuçlar
2025'in en çok konuşulan sonucu Microsoft'un MAI-DxO sistemi oldu. Araştırmacılar 304 NEJM klinikopatolojik konferans vakasını adım-adım tanı senaryosuna (soru sor → test iste → daralt → karara bağla) dönüştürerek SDBench adlı bir değerlendirme kurdu. Bir orkestratör ajanın yönettiği MAI-DxO %85,5 doğruluka ulaşırken, kitap ve meslektaş erişimi olmayan deneyimli hekim kohortu yaklaşık %20da kaldı. Tek model olarak o3 %78,6, GPT-4o ise %49,3 doğruluk verdi. Çarpıcı bir fark; ancak iki uyarı şart: vakalar gerçek poliklinik değil yapay (seçilmiş, zor, "bilmece" tipi) NEJM vakalarıdır ve orkestrasyon, vaka başına yüksek simüle test maliyeti doğurur.
Bu "süperinsan" izlenimini dengeleyen en önemli bulgu, statik testlerin yanıltıcılığıdır. AgentClinic benchmark'ı, klasik çoktan-seçmeli MedQA sorularını sıralı (etkileşimli) karar formatına çevirdiğinde tüm modellerin doğruluğunun ciddi biçimde düştüğünü; bazı vakalarda orijinal skorun onda birinin altına indiğini gösterdi. Üstelik vakalara 24 bilişsel önyargı (örneğin yeni semptomu gözden kaçırma) gömüldüğünde tanı doğruluğu daha da geriledi. Yani bir modelin USMLE benzeri sınavları geçmesi, sıralı klinik akıl yürütmede başarılı olacağı anlamına gelmiyor.
Sınav başarısı ≠ klinik hazırlık
Statik çoktan-seçmeli sorularda yüksek skor, sıralı (soru sor–test iste–karar ver) gerçek klinik akışta korunmuyor. AgentClinic ve SDBench, formatı değiştirince doğruluğun nasıl düştüğünü açıkça gösteriyor. Bir benchmark zaferi, hasta başında güvenlik garantisi değildir.
Ajanlar baz modeli geçiyor — ama mimari ve göreve bağlı
Mount Sinai ekibinin medRxiv'de yayımladığı sistematik derleme (PROSPERO ön-kaydı ile) 2024-2025'ten 20 çalışmayı topladı. Sonuç tutarlıydı: her ajan sistemi, kendi temel aldığı LLM'i doğrulukta geçti. En büyük kazanım araç-çağıran tek-ajan kurgularda görüldü; medyan iyileşme +53 puan (IQR 36–56,9). Çok-ajanlı sistemlerde kazanım daha mütevazıydı (araçsız +%14, araçlı +%17) ve en iyi performans genellikle 4-5 ajanlı kurgularda elde edildi; bunun ötesinde performans ters-U biçiminde düşüyordu. En çok fayda, ilaç dozu hesaplama ve kanıt/literatür getirme gibi ayrık, denetlenebilir mikro-görevlerde ortaya çıktı.
Ancak aynı derleme kritik bir sınırı da koydu: çalışmaların %65'i yalnızca sentetik veriyle yapılmış, tamamı tek merkezli ve yalnızca biri randomize kontrollü çalışmaydı (RKÇ). Yani büyük etkiler çoğunlukla yapay test ortamlarında ölçüldü; hasta sonuçlarına (mortalite, komplikasyon) etki gösterilmedi.
Klinik RKÇ'ler: işbirliği tasarımı her şeyi belirliyor
"From Tool to Teammate" başlıklı RKÇ (70 ABD lisanslı hekim; Stanford, BIDMC, Vanderbilt ve diğerleri), tanısal akıl yürütmede insan-AI işbirliğini test etti ve önce medRxiv'de, ardından hakemli npj Digital Medicine'da (Mart 2026) yayımlandı. Bulgular hem umut verici hem de uyarıcıdır:
- Geleneksel kaynaklarla (UpToDate/PubMed/Google) doğruluk %75 iken, AI'ın ilk görüş verdiği kolda %85'e çıktı (+%9,9; %95 GA 4,7–15; p=0,0004). AI'ın ikinci görüş verdiği kolda %82 (+%6,8; p<0,001).
- Ne var ki AI-yalnız kol %87-90 doğruluk verdi ve hekim+AI kolları bunu istatistiksel olarak geçemedi (p=0,20). Yani "hekim + AI her zaman AI'ı yener" sloganı bu çalışmada doğrulanmadı; mesele tamamlayıcılık ve etkileşim tasarımıdır.
- Çapalama (anchoring) çift yönlü çalıştı: AI'ın ikinci görüş verdiği kolda model, talimata rağmen hekimin girdisine demir attı (tanılarda %48, sonraki adımlarda %52 tam örtüşme). Bu, LLM'lerin "yağcılık" (sycophancy) eğiliminin bağımsız ikinci görüşü bozabileceğini gösteriyor.
- Bir güvenlik sinyali: vakaların %8'inde AI etkileşiminden sonra eylenebilir karar skoru düştü — yani AI önerisi bazen en iyi performansı bozabiliyor.
Ambient dökümantasyon: agentic'in en olgun, ama en "dar" biçimi
Klinik AI'ın bugün RKÇ düzeyinde en sağlam kanıtı, otonom tanı değil ambient (ortam) dökümantasyon alanında. UCLA'nın pragmatik RKÇ'si (238 ayaktan hekim, 14 uzmanlık; DAX Copilot, Nabla ve olağan bakım kolları) not başına süreyi anlamlı biçimde azalttı; Nabla kolunda not süresi yaklaşık 41 saniye kısaldı. UW Health verileri sağlayıcı başına günde yaklaşık 30 dakikalık dökümantasyon azalması bildirdi. Bu sonuçlar NEJM AI ve medRxiv'de raporlandı.
Burada bilinçli bir sınır çizmek gerekir: ambient scribe dar, transkripsiyon-temelli ve insan-onaylı bir araçtır. Hekim konuşmasını nota dönüştürür; test istemez, doz ayarlamaz, kayıt sisteminde zincirleme eylem yürütmez. Dolayısıyla en olgun klinik faydayı sunsa da, "otonom planla-ve-eyle" anlamındaki gerçek agentic AI ile aynı şey değildir ve onunla karıştırılmamalıdır.
Araştırma ve laboratuvarda somut başarılar
Tanıdan uzaklaşıp araştırmaya bakıldığında kanıt daha güçlü. Stanford'un Biomni ajanı 25 biyomedikal alanda araç ve protokol madenciliği yaparak nedensel gen önceliklendirme ve nadir hastalık analizi gibi görevlerde göreve-özel eğitim olmadan güçlü genelleme gösterdi. CRISPR-GPT ise (Nature Biomedical Engineering, 2025) gen-düzenleme deneylerini otonom planladı ve önerileri gerçek hücre hatlarında ıslak-laboratuvar deneyleriyle doğrulandı (dört gen nakavt, iki gen epigenetik aktivasyon). Bu örnekler, ajanların "ko-pilot" olarak yüksek değer üretebildiği, denetlenebilir alanları temsil ediyor.
Maliyet, halüsinasyon ve dürüst bir karşılaştırma
Pozitif benchmark başlıklarına bir "soğuk duş" da var. OpenManus ve Manus gibi gelişmiş ajan sistemlerini değerlendiren bir çalışma (npj Digital Medicine, 2026), gelişmiş araç erişimine rağmen baz-LLM'e kıyasla yalnızca mütevazı kazanımlar buldu. Aynı çalışmada token kullanımı 10 kattan fazla, gecikme 2 kattan fazla arttı; halüsinasyonların %89,9'u ajan-içi korumalarla filtrelense de kalıntı halüsinasyon klinikte kabul edilemez sıklıkta kaldı. Bir başka değerlendirme taksonomisi (Vatsal ve ark., 2026), ajan sistemlerinin yaklaşık %98'inde dağılım-kayması (drift) tespitinin, %92'sinde olay-tetikli aktivasyonun bulunmadığını gösterdi — yani gerçek dünyada izleme ve güvenlik altyapısı henüz çok zayıf.
| Yaklaşım / Çalışma | Doğruluk | Kanıt türü ve uyarı |
|---|---|---|
| MAI-DxO orkestratör (SDBench) | %85,5 (hekim ~%20) | Benchmark; yapay NEJM vakaları, yüksek maliyet |
| Tek model o3 / GPT-4o (SDBench) | %78,6 / %49,3 | Benchmark; sıralı format |
| Araç-çağıran tek-ajan (sistematik derleme) | medyan +53 puan | %65 sentetik veri, tek merkez, 1 RKÇ |
| AI ilk görüş vs geleneksel (RKÇ) | %85 vs %75 (+%9,9) | RKÇ; AI-yalnız %87-90'ı geçemedi |
| Ambient scribe (UCLA RKÇ) | not başına ~41 sn azalma | RKÇ; dar, insan-onaylı, otonom değil |
| OpenManus/Manus (npj, 2026) | mütevazı kazanım | Token >10×, gecikme >2×, halüsinasyon |
Düzenleyici çerçeve ve sorumluluk boşluğu
DSÖ'nün (WHO) Ocak 2024'te yayımladığı büyük çok-modlu modeller (LMM) kılavuzu 40'tan fazla öneriyle özerklik koruma, hesap verebilirlik, şeffaflık ve insan-döngüde denetimi vurguluyor; geliştiricileri tasarım kusurlarından sorumlu tutuyor. ABD'de FDA'nın onayladığı AI cihazlarının sayısı 1.300'ü aştı, ancak bunların ezici çoğunluğu dar tanısal görüntüleme araçları; otonom klinik karar ajanları için ayrı bir onay kategorisi henüz yok ve bu tür sistemler en katı yolda değerlendiriliyor. Avrupa'da MDR ve AI Yasası yüksek-riskli sistemlerde insan denetimini zorunlu kılıyor. Branş dergileri (Lancet Rheumatology, Radiology) giderek katmanlı (tiered) yönetişimi öneriyor: ajanları denetleyen ajanlardan oluşan hiyerarşik güvenlik mimarileri.
En çözülmemiş sorun ise hesap verebilirliktir. Otonom bir zincir zarar verdiğinde sorumlu tarafın kim olduğu belirsizdir; "agentic" terimi, karar-destek ile gerçek otonomi arasındaki çizgiyi bulanıklaştırma riski taşır. Ayrıca otomasyona en uygun temel görevlerin (doz hesabı, kanıt getirme), asistan hekimlerin klinik uzmanlık geliştirdiği görevlerle aynı olması, bir eğitim erozyonu endişesi de doğuruyor.
Sonuç
Tıpta agentic AI, 2025-2026 itibarıyla gerçek bir paradigma kayması başlattı: araç-çağıran ajanlar baz dil modellerini tutarlı biçimde geçiyor, özellikle ilaç dozu ve kanıt getirme gibi ayrık görevlerde büyük kazanımlar sağlıyor; ambient dökümantasyon RKÇ düzeyinde dökümantasyon süresini ve tükenmişliği azaltıyor; iyi tasarlanmış klinisyen-AI işbirliği tanısal doğruluğu yükseltebiliyor. Bunlar küçümsenecek başarılar değil.
Ne var ki kanıtın diğer yarısı net bir biçimde uyarıcıdır: gerçek-dünya, çok-merkezli, prospektif hasta-sonuç verisi henüz yok; çalışmaların çoğu sentetik ve tek merkezli. Benchmark zaferleri sıralı klinik akışa ve farklı popülasyonlara taşınmıyor; çapalama, yağcılık ve halüsinasyon bağımsız yargıyı bozabiliyor; hesaplama maliyeti yüksek; izleme altyapısı ve sorumluluk çerçevesi olgunlaşmamış. Dengeli yorum şudur: agentic AI bugün klinikte denetimli bir ko-pilot olarak değer üretebilir, ancak otonom klinik karar veren bir "takım arkadaşı" iddiası için gereken prospektif güvenlik ve sonuç kanıtı henüz birikmiş değildir. Heyecanı, bu kanıt boşluğunu kapatacak titiz çalışmalarla — abartısız — dengelemek gerekir.
Kaynaklar
- Zou J, Topol EJ. The rise of agentic AI teammates in medicine. The Lancet. 2025. DOI
- Nori H, ve ark. Sequential Diagnosis with Language Models (MAI-DxO / SDBench). Microsoft AI, arXiv. 2025. arXiv
- Gorenshtein A, ve ark. AI Agents in Clinical Medicine: A Systematic Review. medRxiv. 2025. DOI
- From Tool to Teammate: A Randomized Controlled Trial of Clinician-AI Collaborative Workflows for Diagnosis. npj Digital Medicine. 2026. DOI
- Liu X, ve ark. Benchmarking large language model-based agent systems for clinical decision tasks. npj Digital Medicine. 2026. DOI
- Ambient AI scribe pragmatic RCT (UCLA; DAX/Nabla). NEJM AI / medRxiv. 2025. DOI
- Schmidgall S, ve ark. AgentClinic: a multimodal agent benchmark to evaluate AI in simulated clinical environments. arXiv. 2024-2025. arXiv
- Agentic AI in rheumatology: tiered governance and risks. The Lancet Rheumatology. 2026. DOI
- CRISPR-GPT for agentic automation of gene-editing experiments. Nature Biomedical Engineering. 2025. DOI
- World Health Organization. Ethics and Governance of Artificial Intelligence for Health: Guidance on Large Multi-Modal Models. WHO. 2024. who.int
- Vatsal S, ve ark. Agentic AI in Healthcare and Medicine: A Seven-Dimensional Taxonomy for Empirical Evaluation. arXiv. 2026. arXiv
- Huang K, ve ark. Biomni: A General-Purpose Biomedical AI Agent. bioRxiv. 2025. DOI