Makineler Öğrenirken Çok Fazla Güç Tüketiyor! Yapay Zekayı Enerji Açısından Bu Kadar Obur Yapan Ne?
Aralık 2020'de Google, şirketin önde gelen Yapay Zeka etiği araştırmacılarından biri olan Timnit Gebru'yu yayınlama aşamasında olduğu bir araştırma makalesini yayından kaldırmaya zorladı ve süreç, Gebru'nun işten çıkmasıyla sonuçlandı.[1] Gebru'yu işinden eden ve Google'ı bu kadar endişelendiren makale, Google arama motorunun ve diğer metin analiz ürünlerinde kullanılan dil işleme yapay zekasının risklerine dikkat çekiyordu.
Riskler arasında, bu tür bir Yapay Zeka teknolojisi geliştirmenin yol açacağı büyük karbon ayak izi de var. Bazı tahminlere göre bir Yapay Zeka modelini eğitmek, neredeyse 5 arabanın üretimi ve hurdaya çıkana kadar kullanımı sonucu ortaya çıkan miktarda karbon salınımına yol açıyor.[2]
Yapay zeka modellerini inceleyen ve geliştiren araştırmacılar, yapay zeka araştırmalarının hızla artan enerji ve finansal maliyetlerine dikkat çekmeye başladılar. Yapay zeka modelleri neden bu kadar enerjiye aç hale geldi ve geleneksel veri merkezi hesaplamalarından farkları ne?
Günümüzdeki Yapay Zeka Teknolojisi Verimsiz!
Veri merkezlerinde yapılan geleneksel veri işlem işleri arasında video yayını, e-posta ve sosyal medya bulunmaktadır. Yapay zekanın anlamayı öğrenene kadar çok sayıda veriyi okuması gerekir, bu yüzden hesaplama açısından daha yoğun bir iş yüküne sahiptir.
Bu eğitim, insanların öğrenme şekline kıyasla çok verimsizdir. Modern yapay zekada, insan beynindeki nöronları taklit eden matematiksel hesaplamalar, yani yapay sinir ağları kullanılır. Her nöronun komşusuna bağlanma gücü, "ağırlık" adı verilen bir ağ parametresidir. Ağ, dili nasıl anlayacağını öğrenmek için rastgele ağırlıklarla başlar ve ağın verdiği çıktı ile doğru cevap uyuşana kadar, bu ağırlıkları düzenlemeyi sürdürür.
Bir dil ağını eğitmenin yaygın yollarından biri, ağı Wikipedia ve haber kaynakları gibi web sitelerinden çok sayıda metinle beslemek, kullanılan metinlerdeki bazı kelimeleri çıkarmak ve ağa eksik kelimeleri tahmin etme komutu vermektir. Bu komuta örnek olarak, "Benim köpeğim tatlıdır." cümlesini, "tatlıdır" kelimesini maskeleyerek kullanmayı verebiliriz. Başlangıçta model, cümleyi "yanlış" olarak algılar. Ancak birçok ayarlamadan sonra, bağlantı ağırlıkları değişmeye başlar ve verideki kalıplar algılanır. Ağ, sonunda doğru hale gelir.
Transformatörlerden Çift Yönlü Kodlayıcı Temsilleri (İng: "Bidirectional Encoder Representations from Transformers" veya kısaca "BERT") olarak adlandırılan yeni bir modelde, İngilizce kitaplardan ve Wikipedia makalelerinden 3.3 milyar kelime kullanıldı.[3] Dahası, eğitim sırasında BERT, bu veri setini 1 kez değil, 40 kez okudu. Karşılaştırma yapmak gerekirse, konuşmayı öğrenen bir çocuk 5 yaşına kadar 45 milyon kelime duyabilir ve bu, BERT'in okuduğundan 3000 kat daha azdır!
Doğru Yapıyı Aramak...
Dil modellerinin daha da pahalı olmasının sebeplerinden biri de, bu eğitim sürecinin, gelişim sürecinde birçok kez gerçekleşmesidir. Bunun nedeni, araştırmacıların sinir ağı için en iyi yapıyı bulmak istemeleridir. Kaç nöron kullanılmalı, nöronlar arasında kaç bağlantı olmalı, parametreler öğrenme sırasında ne kadar hızlı değişmeli vb. Denenen her kombinasyonla, ağın yüksek doğruluk oranlarına ulaşmasına bir adım daha yaklaşılır. Yapay zekanın aksine, insan beyninin uygun bir yapı bulmasına gerek yoktur. İnsan beyninde, evrimsel süreçte bilenmiş, önceden oluşturulmuş bir yapı bulunur.
Şirketler ve akademisyenler yapay zeka alanında rekabet ettikçe, en güncel sistemi geliştirme baskısı gitgide artıyor. Makine çevirisi gibi zor görevlerde, doğrulukta %1'lik bir iyileşme elde etmek dahi önemli kabul edilir ve daha iyi reklam ve ürünlerle taçlanır. Ancak bu %1'lik iyileşmeyi elde etmek için araştırmacı, en iyisi bulunana kadar, modeli her seferinde farklı yapılarla, binlerce kez eğitebilir.
Massachusetts Amherst Üniversitesi'ndeki araştırmacılar, eğitim sırasında kullanılan ortak donanımın güç tüketimini ölçerek, yapay zeka dil modelleri geliştirmenin enerji maliyetini tahmin ettiler.[4] BERT'in eğitiminin karbon ayak izinin, bir zamanlar New York ve San Francisco arasında gidiş-dönüş uçan bir yolcununkiyle aynı olduğunu buldular. Bununla birlikte, farklı yapılar kullanarak araştırmak, diğer bir deyişle algoritmayı veriler üzerinde farklı sayılarda nöron, bağlantı ve diğer parametreleri kullanarak birden çok kez eğitmek sonucunda oluşan maliyet, 315 yolcunun veya 747 jetinin tamamının maliyetiyle eş değer hale geldi.
Daha Büyük ve Daha Sıcak...
Yapay zeka modelleri aynı zamanda olması gerekenden çok daha büyüktür ve her yıl daha da büyüyor. BERT'e benzeyen, görece daha yani bir dil modeli olan GPT-2'nin ağı içerisinde 1.5 milyar ağırlık bulunur. Yüksek doğruluk oranları nedeniyle heyecan yaratan GPT-3'ün ise ağ içinde 175 milyar ağırlığı vardır.
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.
Araştırmacılar, daha büyük ağların, yalnızca küçük bir kısmı yararlı olsa bile daha yüksek oranda doğruluk demek olduğunu keşfetti. Nöronal bağlantılar ilk eklendiğinde ve daha sonra azaldığında, çocuk beyninde yaşanana benzer olaylar olur; ancak biyolojik beyin, enerji verimliliği bakımından bilgisayarlardan çok daha iyidir.[5]
Yapay zeka modelleri, geleneksel CPU'lardan daha fazla güç çeken grafik işlemci birimleri gibi özel donanımlarla eğitilirler. Bir oyun bilgisayarınız varsa, muhtemelen gelişmiş grafikleri olan Minecraft RTX gibi oyunları oynamak için kullanılan grafik işlemci birimlerinden birine sahipsiniz demektir. Aynı zamanda bilgisayarınızın, normal dizüstü bilgisayarlardan çok daha fazla ısındığını da fark edebilirsiniz.
Tüm bunlar, gelişmiş yapay zeka modellerinin, büyük bir karbon ayak izine yol açtığı anlamına gelir. %100 yenilenebilir enerji kaynaklarına geçmedikçe; yapay zekayı geliştirme hedeflerimiz, sera gazı salınımlarını azaltma ve iklim değişikliğini yavaşlatma hedefleriyle çelişebilir. Gelişimin finansal maliyeti o kadar yüksek ki, sadece birkaç seçkin laboratuvar bunu karşılayabiliyor. Bu da ne tür yapay zeka modellerinin geliştirildiğine dair gündemi onların belirleyeceği anlamına geliyor.
Daha Azıyla, Daha Çoğu Başarmak...
Bu, yapay zeka araştırmalarının gelecği için ne anlama geliyor? İşler göründüğü kadar kasvetli olmayabilir. Daha verimli eğitim yöntemleri icat edildikçe, eğitim maliyeti de düşebilir. Benzer şekilde veri merkezi verimliliğindeki gelişmeler, daha verimli donanım ve soğutma nedeniyle, son yıllarda yaşanması beklenen veri merkezi enerji kullanımı patlaması henüz gerçekleşmedi.
Modelleri eğitmenin ve kullanmanın maliyeti arasında da bir denge vardır; bu nedenle, eğitim için geçmesini göze aldığımız zaman içerisinde eğitimi tamamlayabilecek daha küçük bir model bulmak için, daha fazla enerji harcamak, yapay zeka kullanmayı daha ucuz hale getirebilir. Çünkü bir model ömrü boyunca birçok kez kullanılacaktır; bu da uzun vadede büyük miktarda enerji tasarrufu anlamına gelebilir.
Bir araştırma laboratuvarı, yapay zeka modellerini, ağırlıkları paylaştırarak veya ağın birden fazla bölümünde aynı ağırlıkları kullanarak daha küçük hale getirmenin yolları inceliyor. Bunlara "şekil değiştiren ağlar" adını veriyorlar.[6] Çünkü küçük bir ağırlık kümesi, herhangi bir şekil veya yapının daha büyük bir ağına yeniden yapılandırılabiliyor. Diğer araştırmacılar, ağırlık paylaşımının aynı eğitim süresinde daha iyi performansla sonuçlandığını göstermiştir.[7]
Geleceğe dönük düşünecek olursak, yapay zeka araştırmaları cemiyeti, enerji verimliliği yüksek eğitim programları geliştirmeye daha fazla yatırım yapmalıdır. Aksi takdirde, ne tür modellerin geliştirildiği, bunları eğitmek için ne tür verilerin kullanıldığı ve modellerin niçin kullanıldığı da dahil olmak üzere, gündemi belirlemeye gücü yeten birkaç kişinin, yapay zekaya hâkim olması riskiyle karşı karşıya kalırız.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 13
- 6
- 2
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- 0
- 0
- Çeviri Kaynağı: The Conversation | Arşiv Bağlantısı
- ^ K. Hao. We Read The Paper That Forced Timnit Gebru Out Of Google. Here’s What It Says.. (4 Aralık 2020). Alındığı Tarih: 2 Nisan 2021. Alındığı Yer: MIT Technology Review | Arşiv Bağlantısı
- ^ K. Hao. Training A Single Ai Model Can Emit As Much Carbon As Five Cars In Their Lifetimes. (6 Haziran 2019). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: MIT Technology Review | Arşiv Bağlantısı
- ^ J. Devlin, et al. Bert: Pre-Training Of Deep Bidirectional Transformers For Language Understanding. (11 Ekim 2018). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: arXiv.org | Arşiv Bağlantısı
- ^ E. Strubell, et al. Energy And Policy Considerations For Deep Learning In Nlp. (5 Haziran 2019). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: arXiv.org | Arşiv Bağlantısı
- ^ Center on the Developing Child at Harvard University. Brain Architecture. (20 Ağustos 2019). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: Center on the Developing Child at Harvard University | Arşiv Bağlantısı
- ^ B. A. Plummer, et al. Shapeshifter Networks: Decoupling Layers From Parameters For Scalable And Effective Deep Learning. (18 Haziran 2020). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: arXiv.org | Arşiv Bağlantısı
- ^ Z. Lan, et al. Albert: A Lite Bert For Self-Supervised Learning Of Language Representations. (26 Eylül 2019). Alındığı Tarih: 3 Nisan 2021. Alındığı Yer: arXiv.org | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/11/2024 11:30:54 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/10317
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.
This work is an exact translation of the article originally published in The Conversation. Evrim Ağacı is a popular science organization which seeks to increase scientific awareness and knowledge in Turkey, and this translation is a part of those efforts. If you are the author/owner of this article and if you choose it to be taken down, please contact us and we will immediately remove your content. Thank you for your cooperation and understanding.