Medikal Yapay Zeka Araçları Hızla Gelişiyor, Peki Düzgünce Test Ediliyorlar mı?

- Çeviri
- Uygulamalı Yapay Zeka
Yapay zeka algoritmaları, her geçen günle birlikte sağlık sektörünün her alanına girmeye devam ediyor. Meme kanseri görüntülemelerinde, klinik notlar alınmasında, sağlık sigortalarının yönetiminde ve hatta "sanal hemşireler" yaratmakta veya doktor-hasta diyalogları oluşturmakta kullanılıyorlar. Bazı şirketler bu araçların tıp sektörünü daha verimli hale getireceğini, doktorlar ve diğer sağlık çalışanlarının yüklerini hafifleteceğini iddia ediyor.[1] Ancak bazı uzmanlar bu araçların şirketlerin iddia ettiği kadar düzgün çalıştığından şüpheli.
İnsanlara benzer şekilde metin üretebilmek üzere muazzam büyüklükte veriyle eğitilen büyük dil modelleri (LLM'ler) gibi yapay zeka araçları, ancak aldıkları eğitim kadar kaliteli sonuçlar verebilirler. Oysa tıbbi alanda LLM'lerin yetkinliğini ölçmek için kullanılan metrikler tıp fakültelerinin sınavlarına dayanmaktadır. Hatta sağlık sektöründe kullanılan yapay zeka araçlarını değerlendiren bir çalışma, bu modellerin sadece %5'inin gerçek hastalardan elde edilen verilerle eğitildiğini göstermektedir.[2] Dahası, birçok çalışma dil modellerini test etmek için tıbbi bilgilerle ilgili sorular sormakla yetinmiştir. Çok az çalışma modellerin gerçek hayatta şimdiden üstlendiği reçete yazma, konuşma özetleme veya hastalarla konuşma gibi görevlerin ne kadar iyi yapıldığını incelemiştir.
New England Journal of Medicine AI dergisinin şubat baskısında, bilgisayar bilimci Deborah Raji ve meslektaşları mevcut ölçüm metriklerinin gerekli şeylere odaklanmadığını yazıyor.[3] Bu testler gerçekten klinik yeterliliği ölçmüyor ve gerçek dünyanın karmaşıklığının gerektirdiği incelikli kararlar alma yeteneğini dikkate almıyor. Ayrıca esnek bir skalada uygulanmaları mümkün değil ve farklı klinik görevleri değerlendirmekte kullanılamıyorlar. Ek olarak bu testler sadece doktorların bilgisine dayandığından hemşirelerin veya diğer sağlık personelinin bilgilerini yansıtmıyor. California Üniversitesi'nde yapay zeka denetimi ve değerlendirmesi üzerine çalışan Raji şunları söylüyor:
İnsanların bu sistemlere dair beklentileri ve iyimserliği bu ölçüm metriklerine dayanıyor. Hatta bu iyimserlik şimdiden sistemlerin gerçek dünyaya entegrasyonuna başlanmasını sağladı. İnsanlar resmen bu sistemleri gerçek hastaların üstüne atabilmek için uğraşıyorlar!
Raji ve meslektaşları büyük dil modellerinin karmaşık ve birbirinden farklı klinik görevleri nasıl yürüttüğünü ölçebilecek uygun metrikler geliştirmemiz gerektiğini düşünüyor. Raji, Science News ile yaptığı röportajda yapay zeka testlerini, bu konudaki endişeleri ve daha gerçekçi değerlendirmeler yapabilmek için gerekenleri anlatıyor. Gelin bu röportajdan öğrendiklerimize bir bakalım.
Mevcut Ölçümler Neden Yetersiz?
Raji, bu testlerin yetersiz olduğunu çünkü insanların modellere yaptırmak istediği görevleri değil başka şeyleri ölçtüklerini söylüyor. Bu nedenle bu alan şu anda olduğu gibi heves ve heyecanla değil ayakları yere basarak ilerletilmeli.
Bu, yeni bir problem olmadığı gibi sağlık alanına özgü de değil. Makine öğrenmesinin ortaya çıkışından beri, bazı ölçümleri bir araya getirerek bunların zeka dediğimiz şeyi veya ilgili bir alandaki yeterliliği temsil edebileceğini umuyoruz. Ama test adını verdiğimiz bu veri setleri üstünden iddialarda bulunurken çok dikkatli olmak gerekiyor.
Sistemleri gerçekte olduklarından ne kadar farklı (bu durumda muhtemelen olduklarından ne kadar iyi) zannediyorsak, hatalarını anlamamız o kadar zor olacaktır. Bu sistemler mükemmellikten uzaktır. Belirli popülasyonlarda hata verebildikleri gibi bazen de bir görevin karmaşıklığını anlayamadıklarından ciddi hatalara yol açarlar. Bu gibi ölçüm önyargıları, yani bu sistemin gerçek hayata geçirilmeye hazır olup olmadığını göstermeyen testlerden yaptığımız çıkarımlar, muazzam bir gözünde büyütme durumuna yol açıyor.
Sağlık Sisteminde Kullanılacak Yapay Zekalar İçin Daha Uygun Testleri Nasıl Yaratacağız?
İzlenebilecek bir yol, bu sektörde iş akışının nasıl olduğunu anlatacak uzmanlarla çalışmak ve gerçekçi, doğal verilerden oluşan veri setleriyle modelin ön denemelerini yaparak modelin farklı tipte ve geniş alandaki girdilere vereceği farklı çıktıları gözlemlemektir. Başka bir yol ise makalenin ortak yazarı Roxana Daneshjou'nun önceki çalışmalarında uyguladığı, siber güvenlik alanından duymuş olabileceğiniz "kırmızı takım" (İng: "red-teaming") tekniğidir. Bu teknikte bir grup insan modelin açıklarını bulmak için agresif bir test süreci uygular. İnsanların gerçek hayatta sistemlerle nasıl etkileşime girdiğini yansıtan gerçekçi girdileri test edebilmek için farklı yaklaşımlar kullanılır.
Bir başka yöntem de gerçek hastanelerden bilgi toplamaktır. Mesela ellerindeki verileri nasıl kullandıklarını veya sistemi iş akışlarına nasıl entegre ettiklerini öğrenebiliriz. Ayrıca hasta bilgilerini anonim olacak şekilde alabilir veya bu modellere anonim girdiler vererek yeni testler veya değerlendirme ölçümlerinde kullanılabilecek bilgiler edinebiliriz.
Ölçümlerimizden yola çıkan yorumların bir şeyi gerçekten ölçmesi için nasıl bir değerlendirme yapılacağına dair psikoloji gibi farklı alanlardan ödünç alınan başka yaklaşımlar da mevcuttur. Elimizdeki testlerin ne kadarının insan gözlemlerinin gerçekçiliğine ve ne kadarının bu sistemler gerçekten kurulduğunda yaşanacak zorluk veya kolaylıklarına dayandığı önemli bir konudur.
Testler Ne Kadar Özelleşmiş Olmalı?
Bir modelin cevaplama veya bilgileri hatırlama yeteneğini ölçen bir testle doktor notlarını özetleme veya yüklenen verileri inceleyip bunlara göre cevap verme yeteneğin ölçen bir test birbirinden çok farklı olmalıdır. Raji de şu anda görev tanımındaki böylesi bir inceliği yansıtabilmek için çalışıyor. Elbette herkesin kendine özel bir test sistemi olması gerekmiyor ama belirli bir göreve dair testlerimiz de dört beş şıktan birini seçmeye dayalı bir test kadar basit olmamalı. Neticede, gerçek doktorlar için bile bu çoktan seçmeli sorular meslekteki gerçek performansı ölçmekte o kadar da iyi değil.
Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.
KreosusKreosus'ta her 50₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.
Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.
PatreonPatreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.
Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.
YouTubeYouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.
Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.
Diğer PlatformlarBu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.
Giriş yapmayı unutmayın!Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.
Uygun Testleri Oluşturabilmek İçin Neler Yapılabilir?
Raji, ilk olarak araştırmacılara bir çağrıda bulunuyor: Sadece test sistemleri oluşturmaya değil, aynı zamanda geniş ölçekte gerçek dünyaya dayanan ve bu sistemler hayata geçtiğinde neler yapabileceklerini gerçek hatlarıyla tanımlayan değerlendirmelerde bulunmaya kafa yorulmalı. Şu anda bu ciddi değerlendirmeler geri plana atılıyor veya çok sonradan akla geliyor. Raji ve ekibi ise bu alandaki test ve değerlendirme ölçümlerinin metodolojisine daha çok dikkat edilmesi gerektiğini düşünüyor.
İkinci sırada kurumlardan bu konuda şeffaflık talep etmek var. Örneğin hastanelerin klinik çalışmalarda kullandıkları tüm yapay zeka araçlarını açıkça belirtmesi talep edilebilir. Böylece kurum düzeyinde bakarak insanların yapay zeka sistemlerini tam olarak ne için kullandığını daha iyi anlayabiliriz. Hastaneler ve diğer kurumlar yapay zeka araçlarını entegre ettikleri iş akışları hakkında bilgi vermeyi kabul ederse bu daha sağlıklı değerlendirmeler yapabilmemize yardımcı olacaktır.
Ticari düzeyde ise şirketlerin modellerini nasıl değerlendirdiklerini, testlerinin neleri ölçtüğünü ve nelere dayandığını açıkça belirtmesi ellerindeki modelin tam olarak ne yapabileceğini gerçekçi bir şekilde anlamamız için çok önemlidir.
Raji'nin Yapay Zeka Alanında Çalışan İnsanlara Tavsiyeleri Neler?
Yapay zeka alanında çalışan insanlar olarak odaklandığımız veya performansımızı ölçtüğüne güvendiğimiz değerlendirme ve testleri derinden sorgulamalıyız. En kolay ulaşabileceğimiz test metriğini kullanmak elbette çekici gelebilir, tıbbi bir model için eldeki en geniş veri seti elbette tıp sınavları olacaktır. Hatta bu set modelin yapmasını umduğumuz görevlere dair hiçbir şeyi ölçmese bile rahatlıkla indirebilir, testlerimizi kolaylıkla uygulayabiliriz!
Buna karşın Raji, meslektaşlarını modellerin becerilerini, yapabileceklerini umduğumuz görevleri ve aslında yapabildiklerini gerçekçi şekilde yansıtabilecek geçerli değerlendirmeler yapmaya çaba göstermeye davet ediyor.
Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...
O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...
O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.
Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.
Soru & Cevap Platformuna Git- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Çeviri Kaynağı: Science News | Arşiv Bağlantısı
- ^ Science News. Ai Could Transform Health Care, But Will It Live Up To The Hype?. (10 Ocak 2025). Alındığı Tarih: 13 Mart 2025. Alındığı Yer: Science News | Arşiv Bağlantısı
- ^ S. Bedi, et al. (2024). Testing And Evaluation Of Health Care Applications Of Large Language Models. American Medical Association (AMA), sf: 319. doi: 10.1001/jama.2024.21700. | Arşiv Bağlantısı
- ^ I. D. Raji, et al. (2025). It’s Time To Bench The Medical Exam Benchmark. Massachusetts Medical Society. doi: 10.1056/AIe2401235. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 28/03/2025 01:37:41 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/20055
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.
This work is an exact translation of the article originally published in Science News. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.