Az Bilinen Diller İçin Süperbilgisayar Yardımı

Yazdır Az Bilinen Diller İçin Süperbilgisayar Yardımı

Şöyle bir düşündüğünüzde aklınızdan kaç tane dili sayabilirsiniz? On? Yirmi? Belki de otuz?

Ethnologue sitesine göre günümüzde dünya çapında konuşulan 7.099 dil bulunmakta ve bu dillerin sayısı gün geçtikçe değişmekte. Afet yardım çalışmalarında görev alan ekipler için bu sayının büyüklüğü özellikle de düşük kaynak ulaşılabilirliği olan yerlerde çalıştıklarında ezici olabiliyor.

Ohio Eyalet Üniversitesi’ndeki bir dilbilim profesörü olan William Schuler, DARPA’nın (Defense Advanced Research Projects Agency – Savunma Bakanlığı İleri Araştırma Projeleri Dairesi) başlattığı LORELEI (Low Resource Language for Emergent Incidents – Ani Afetler için Düşük Kaynaklı Diller) adında bir projenin parçası. LORELEI programının amacı ise dilbilimciler ve tercümanların haklarında hiçbir şey bilmediği diller için bir teknoloji geliştirmek.

LORELEI projesinin bir parçası olan Schuler ve ekibi, afet yardım ekiplerinin hızlı yanıt vermelerini sağlamak için, Ohio Süperbilgisayar Merkezi’nde (OSC) bulunan Owens adlı süperbilgisayarı kullanarak az bilinen dillerin gramer yapısını ve kurallarını gözetim olmadan, Bayesyen istatistik metodları kullanarak öğrenebilecek bir gramer edinim algoritması tasarlamaya çalışıyor. Schuler konu hakkında şunları söylüyor:

Afet yardım çalışmalarını yönetmek için kaynaklara ulaşmamız gerek; bu kaynakların bir parçası da haber çevirileri, şehir isimlerinin bilinmesi ve oralarda neler olup bittiğini öğrenmeyi içeriyor. Yaşananları hızlıca anlamak, afet bölgesinde kullanılan dilin otomatik olarak işlenmesinden geçiyor.

Bu çözümleme modelinin bir dilin yapısını öğrenip onu sözdizimsel açıdan kullanışlı hâle getirebileceği öngörülüyor. Schuler’in söylediğine göre istatistiksel metoda dayalı gramer öğrenimi oldukça büyük miktarda hesaplama işlemi gerektiriyor. Bu yüzden de ekip, süperbilgisayarların yardımına ihtiyaç duymakta. 

Projenin bilişim kısmını yöneten doktora öğrencisi Lifeng Jin’e göre Schuler’ın ekibi tek bir güçlü sunucuyu kullanarak 10 ila 15 gramer kategorisini inceleyebiliyorlar. Bununla beraber Jin, Owens sisteminin grafik işlemcilerini kullanarak bu sayıyı büyük miktarda yükseltebiliyor. 

Bu grafik, mümkün gramer uzayını temsil ediyor ve anlaşılabilir cümle üretme potansiyeline sahip alanları haritalıyor. Kredi: Ohio Supercomputer Center

Grafik işlemciler, merkezî işlemcilere göre çok daha güçlü ve düşük maliyetlidir. Bilgisayarların beyni olarak kabul edilen merkezî işlemciler birkaç çekirdek ve bol miktarda önbelleğe sahip iken merkezî işlemcilerin tamamlayıcı işlem ünitesi olan grafik işlemciler yüzlerce çekirdek içeriyor. Bu da grafik işlemcilerinin aynı anda binlerce işlem yapmasına olanak sağlıyor. Böylece grafik işlemciler, mühendislik analizleri ve simülasyonları için gereken hesaplamaları oldukça hızlı bir şekilde yapabiliyorlar. Jin konu hakkında şunları söylüyor:

“Modelin karmaşıklığını katbekat arttırabilir, 45 ila 50 kategori arasına çıkabilir ve sonuçları çok daha kısa sürede elde edebiliriz. Bu vakit tasarrufu, insanların böyle bir durumda ne yapacaklarını gerçekçi bir şekilde simüle etmemizi ve saptamamızı sağlayabilir. Kullanılan modeller gerçekten devasa, bu yüzden de eldeki hafıza miktarı kilit rol oynuyor.

İstatistiksel model de oldukça karmaşık. Modeli geliştirmek için bilgisayarda birçok hesaplama yapmamız gerekiyor. Diyelim ki elimizde bir dilden 20.000 cümle olsun, bu sayıyı grameri geliştirmek için kullanıyoruz. İşte bu noktada da OSC devreye giriyor. İlk aşamalarda grameri geliştirmek için merkezî işlemcileri kullanmaya çalıştık ama bu iş için çok yavaş oldukları ortaya çıktı. Daha sonra kodlarımızı grafik işlemcilerimizi kullanacak şekilde yeniden düzenledik ve bu, süreci ciddi anlamda hızlandırdı.”

LORELEI’in amacı afet yardım operasyonlarına kısa sürede yanıt vermek olduğundan hız, proje için büyük önem taşıyor. Bu da yüksek performanslı işlemlerin kritik önem taşıdığı anlamına geliyor. Ağustos 2017’de DARPA, Afrika’daki iki gerçek felaketi simüle etmek için bir deneme çalışması yaptı. Schuler ve ekibi Owens Kümesi’nin 60 grafik işlemcisi sayesinde yedi gün içerisinde iki dilin dört gramerini inceleyerek OSC kaynaklarının proje için oluşturduğu önemi gösterdiler.

Jin’in söylediklerine göre gramerler için daha gerçekçi yapılandırmalar kullandıkça gramerlerin boyutu ve onları keşfetmek için gerekli olan işlem sayısı da artacak. Bundan dolayı da OSC’ye projenin gelecekteki evrimsel sürecinde çok daha büyük bir iş düşüyor. Schuler ise konu hakkında verdiği bilgileri şu sözleriyle bitiriyor:

“Geçen her dakikanın önemli olduğu durumlarda, hızlı gramer edinimi için bütün kaynaklara çok kısa bir süre içerisinde ulaşmanız gerekiyor."


Yazan: Ross Bishoff (Ohio Süperbilgisayar Merkezi)

Teşekkür: Bu yazıyı çeviren Ahmet Kaan Türk'e teşekkür ederiz.

Düzenleyen: Şule Ölez

Kaynak: Phys.org

0 Yorum