Beyin Sinyalleri, Yapay Zeka Kullanılarak Konuşmaya Dönüştürüldü!
Konuşamayan İnsanlar Gelecekte Beyin Sinyalleri Yoluyla Konuşabilir!
Bu haber 5 yıl öncesine aittir. Haber güncelliğini yitirmiş olabilir; ancak arşivsel değeri ve bilimsel gelişme/ilerleme anlamındaki önemi dolayısıyla yayında tutulmaktadır. Ayrıca konuyla ilgili gelişmeler yaşandıkça bu içerik de güncellenebilir.
- İndir
- Dış Sitelerde Paylaş
Nörobilimciler, konuşamayan insanların ses üretebilmesini sağlamak için beyin sinyallerini konuşmaya dönüştürebilen bir cihaz geliştirdiler.
Bu teknoloji, henüz laboratuvar dışında kullanılmak için yeterince hassas olmamasına karşın, çoğu anlaşılabilir olan cümleler sentezleyebilmekte. Yeni teknolojiyi geliştiren uzmanlar, konuşmayı deşifre etme cihazlarının detaylarını Nature dergisinde yayınladılar.
Atlanta, Georgia’da bulunan Emory Üniversitesi'nde bir nöromühendis olarak çalışan, makale yazarlarından Chethan Pandarinath şöyle diyor:
Bilim insanları, yakın zamanda çoğunlukla tek heceden oluşan, kimi zaman 2 veya 3 heceden oluşabilen kelimeleri, beyin etkinliği kullanılarak sese dönüştürmek için yapay zekayı kullandılar. Ayrı ayrı kelimelerden, tam cümlelere geçiş için yapılan sıçrayış teknik açıdan oldukça zorluydu. Bu çalışmayı böylesine etkileyici kılan nedenlerden birisi de bu.
Hareketleri Haritalamak...
San Francisco’daki California Üniversitesi'nde bir beyin cerrahı ve çalışmanın öncüsü olan Edward Chang şöyle diyor:
Konuşma yeteneğini kaybeden birçok insan, iletişim kurmak için farklı teknolojilerden faydalanıyor. Şu anda yaygın olan teknolojide, bir imleç kullanarak, harfleri ve bazı kelimeleri gösteren bir ekrandan tek tek seçim yapmak gerekiyor. Bu imleci kullanabilmek için çok küçük hareketler gerekiyor. Motor nöron hastalığı bulunan Stephen Hawking, bunu kullanan ünlü örneklerden biri. Kendisi, yanağındaki bir kas sayesinde hareket ettirilen bir imleç kullanmaktaydı. Bu tip cihazları kullanan insanlar kelimeleri harf harf yazarlar. Dolayısıyla bu cihazlar dakikada on adete kadar kelime üretilebilir ve çok yavaştır. Doğal konuşma ise dakikada ortalama 150 kelime içeriyor. Bunu, ses kutumuzun verimliliği sayesinde başarabiliyoruz.
Bu temelden yola çıkan Chang ve ekibi, kendi şifre çözücülerini oluştururken insanların ses kutusunu ve vokal yolağını modellemeye karar verdiler.
Araştırmacılar, epilepsi tedavisinin bir parçası olarak beyinlerine elektrotlar yerleştirilmiş beş birey ile çalıştılar. Ekip ilk olarak, katılımcılar yüzlerce cümleyi yüksek sesle okudukları sırada oluşan beyin etkinliklerini kaydetti. Sonrasında Chang ve arkadaşları, bu kayıtları; dil, dudak, çene ve gırtlak hareketlerinin nasıl ses oluşturduğunu belirleyen ve önceki çalışmalardan gelen veriler ile birleştirdiler.
Ekip, bu verileri kullanarak bir derin öğrenme algoritması üzerine çalıştı ve sonrasında programı kendi deşifre cihazlarına dahil etti. Cihaz, beyin sinyallerini vokal bölgenin tahmin edilen hareketlerine dönüştürmekte ve bu hareketleri sentezlenmiş konuşma haline getirmekte. Chang şöyle diyor:
Sentezlenen 101 cümleyi dinleyen kişiler, ortalama olarak kelimelerin %70’ini anlayabildiler.
Siz de buradaki MP3 kaydını dinleyerek sesleri anlayıp anlayamadığınızı test edebilirsiniz. Ses kaydında ilk olarak üretilmek istenen cümle söyleniyor: "Ship building is a most fascinating process.", yani: "Gemi inşaatı baş döndürücü bir süreçtir". Sonrasında ise aynı cümle, düşünceler aracılığıyla üretiliyor ve ses dönüştürülüyor. Ses kaydının ikinci kısmında ise, bir diğer cümle söyleniyor: "The proof that you are seeking is not available in the books.", yani: "Aradığın kanıt, kitaplarda bulunmuyor.". Sonrasında bu cümle de, düşüncelerden üretiliyor.
Başka bir deneyde araştırmacılar, bir katılımcıdan cümleleri yüksek sesle okumasını ve ardından aynı cümleleri ağzını ses çıkarmadan hareket ettirerek taklit etmesini istedi. Chang, bu deneye ait şu yorumu yapıyor:
Bu testte oluşturulan cümlelerin kalitesi, sesli konuşma ile elde edilenlere göre daha düşüktü; ancak sonuçlar yine de umut verici.
Yukarıdaki videoda, vokal bölge hareketlerinin sesli okuma ve sessiz taklit ile nasıl şifrelendiği ve bu şifrelerin nasıl çözüldüğü anlatılıyor. Chang’in de ifade ettiği gibi, sessiz taklit sonrası yapılan deşifreden elde edilen kelimelerin anlaşılırlığının daha az olduğu görülüyor.
Anlaşılabilir Gelecek
California’daki Diego Eyalet Üniversitesinde bir nörobilimci olan Stephanie Riès şöyle diyor:
Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.
KreosusKreosus'ta her 10₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.
Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.
PatreonPatreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.
Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.
YouTubeYouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.
Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.
Diğer PlatformlarBu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.
Giriş yapmayı unutmayın!Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.
Beyin faaliyetinin ses kutusundaki hareketlere göre haritalandırılıp, sonrasında bunları sese dönüştürerek elde edilen cümleler; beyin faaliyetlerini doğrudan sese dönüştürerek elde edilen cümlelere göre çok daha anlaşılır.
Seattle’daki Washington Üniversitesinde bir sinir mühendisi olan Amy Orsbon, çalışmaya dair düşüncelerini şöyle açıklamakta:
Yeni konuşma deşifre cihazının, bireylerin sadece düşündükleri kelimelerle çalışıp çalışmayacağı net değil. Çalışma, konuşma taklidi yapıldığında çalıştığını gerçekten güzel bir şekilde göstermekte. Ancak biri ağzını hareket ettirmediği zaman bu sistem nasıl işleyecek?
Chicago, Illinois’deki Northwestern Üniversitesi'nde bir nörolog olan Marc Slutzky de aynı fikirde ve deşifre cihazının performansının gelişmeye açık kapı bıraktığını ifade etmekte. Slutzky şöyle söylüyor:
Dinleyiciler, sentezlenen cümleleri anladıklarını göstermek için, onlara sunulan bir dizi kelime içinden sözcükler seçtiler. Ama onlara sunulan sözcük sayısı arttıkça, sentezlenen cümledeki kelimeleri tespit etme başarısı da düştü. Çalışma gerçekten çok önemli bir adım; ancak sentezlenen konuşmanın kolaylıkla anlaşılabilir olmasının önünde hala uzun bir yol bulunmakta.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
İçerikle İlgili Sorular
Soru & Cevap Platformuna Git- 15
- 14
- 6
- 5
- 5
- 5
- 2
- 1
- 0
- 0
- 0
- 0
- Türev İçerik Kaynağı: Nature | Arşiv Bağlantısı
- G. K. Anumanchipalli, et al. (2019). Speech Synthesis From Neural Decoding Of Spoken Sentences. Nature, sf: 493-498. | Arşiv Bağlantısı
- H. Akbari, et al. (2019). Towards Reconstructing Intelligible Speech From The Human Auditory Cortex. Nature Scientific Reports. | Arşiv Bağlantısı
- M. Angrick, et al. (2019). Speech Synthesis From Ecog Using Densely Connected 3D Convolutional Neural Networks. Journal of Neural Engineering. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 10/10/2024 08:17:22 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/7775
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.