Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?
Bu içerik tıp ve sağlık ile ilişkilidir. Sadece bilgi amaçlı olarak hazırlanmıştır. Bireysel bir tıbbi tavsiye olarak görülmemelidir. Evrim Ağacı'ndaki hiçbir içerik; profesyonel bir hekim tarafından verilen tıbbi tavsiyelerin, konulan bir teşhisin veya önerilen bir tedavinin yerini alacak biçimde kullanılmamalıdır.
Biyolojik bir dizilim ya da sekans, belirli nükleotit ya da amino asit yapılarının ardı ardına gelecek şekilde dizilmesiyle oluşur. Nükleotitler birer kimyasal bileşiklerdir ve nükleik asitlerinin temel yapısını oluştururlar. Lisede öğrendiğimiz kadarıyla en yaygın bilinen nükleotitler Adenin (A), Guanin (G), Timin (T), Sitozin (C) ve Urasil (U)'dir. Proteinler ise amino asit dizilimlerinden oluşurlar. Biyolojik dizilimleri içerisinde barındıran ve üzerinde en çok çalışılan makro moleküller arasında Deoksiribonükleik asit (DNA), Ribonükleik asit (RNA) ve proteinler bulunur. Canlı hücrelerde, bu makro moleküller dışında mikro RNA gibi küçük yapılı moleküller de bulunmaktadır.
Bir diğer bilinmesi gereken temel konu ise gen ekspresyonu ya da diğer adıyla gen ifadesidir. Gen ekspresyonu, DNA'ların işlevsel olan protein yapılarına dönüşmesine kadar olan süreçtir. DNA'dan RNA üretilme sürecine transkripsiyon, RNA' dan protein üretilme sürecine ise translasyon denir. Gen ekspresyonunun daha akılda kalması açısından YouTube üzerinde birçok animasyonlu video bulunmaktadır. McGraw-Hill'in bu harika animasyonu bunlardan birisi:
Örnek olması bakımından, bazı dizilim örneklerini şöyle sıralayabiliriz:
- 10 nükleotitten oluşan örnek bir DNA sekansı: ATCCAGACAC
- 10 nükleotitten oluşan örnek bir RNA sekansı: UAGGUCAGAA
- 10 aminoasitten oluşan örnek bir protein sekansı: ALYHWTSGDE
Derin Öğrenme Nedir?
Makine Öğrenmesi kapsamında "Yapay Sinir Ağları" kavramı ortaya atılmıştır. Bu kavram, insan beyninin sahip olduğu öğrenme mekanizmasının çok basit düzeyde simüle edilmiş halidir. Bu kavram, temel olarak aynı insan beyni gibi öğrenme süreci için gereken; girdiler, yapılan işlemler ve çıktılardan oluşur. İnsan beynindeki nöronlardaki dendritler, diğer nöronlardan bilgiyi girdi olarak alarak bilginin işlenme sürecine aracılık ederler. Bilgiler hücre gövdesinde işlenir ve aksonlar aracılığıyla sinapslara iletilir. Sinapslar ise diğer nöronlarla haberleşmek için bir çıktı görevi görürler.
Derin Öğrenme ise makine öğrenmesinin daha özelleşmiş bir halidir. Aslında, insan beyninin çalışma mekanizmasına biraz daha yakın bir yapıdadır denebilir. Ancak şunu da hatırlatmakta fayda var ki: Modern bilim halen insan beyninin öğrenme sürecini çok iyi açıklayabilmiş değildir ve bu konuyla ilgili halen çok fazla soru işareti bulunmaktadır. Derin öğrenmedeki yapay sinir ağları modelinde, makine öğrenmesindeki klasik yapay sinir ağları modelinden farklı olarak, girdi ve çıktılar arasında birden fazla gizli katman bulunmaktadır. Bu da derin sinir ağlarının daha karmaşık bir öğrenme sistemi olması sonucunu doğurmaktadır. Makine öğrenmesi ve derin öğrenme genel olarak sınıflandırma, kümeleme ve regresyon problemlerinde kullanılmaktadır.
Biyoenformatik ve Güncel Biyolojik Problemler
Biyoenformatik, yıllarca biriken karmaşık biyolojik bilgilerin anlamlandırılması, yorumlanması, görselleştirilmesi gibi süreçlere katkı sağlamak amacıyla bilgisayar bilimleri, istatistik, moleküler biyoloji, veri bilimi, genetik gibi alanları kullanarak oluşmuş disiplinler arası bir çalışma alanıdır. Bu kapsamda çeşitli biyolojik problemler vardır. Bunlardan bazıları şöyle sıralanabilir:
- DNA dizilimi araştırmaları ya da genomik.
- RNA dizilimi araştırmaları.
- Protein dizilim ve araştırmaları ya da proteomik.
- Makromoleküler yapıların (DNA, RNA, protein) 3 boyutlu modellenmesi.
- Mikromoleküllerin (mikro RNA) gibi hedef bölgeye bağlanma tahmini, etkileşim araştırmaları.
- Biyolojik veritabanlarının oluşturulması.
- Birbiriyle etkileşen genler için etkileşim ağlarının oluşturulması.
- Proteinlerin yapı ve fonksiyonlarının belirlenmesi.
- Kanser genomiği ile kanser sürecinin anlaşılması.
- Genetiğe dayalı ilaç geliştirme.
- Genetik hastalıklara yatkınlığın incelenmesi.
Hangi Derin Öğrenme Yöntemi Kullanılmalı?
Biyolojik problemlerden bir örnek seçip, derin öğrenme yöntemlerinin bu problemi çözmek için nasıl kullanılabileceğini inceleyeceğiz. Problem, "mikro RNAların hedef mesajcı RNA bölgelerine bağlanma tahmini". Bu problemin çözümünü, kendi tez çalışmam üzerinden genel hatlarıyla inceleyebiliriz.
Mikro RNAlar, DNA'nın kodlanmayan bölgesinden sentezlenen, ortalama ~21-23 baz uzunluğunda gen düzenleyici, hücre içerisindeki dokuların biyosentezi gibi rolleri belirlenmiş, proteine dönüşmeyen, birçok canlı organizmada bulunan, küçük yapılı RNA molekülleridir. Mesajcı RNAların tamamlayıcı kısımlarına bağlanarak, transkripsiyon sonrası süreci engelleme ya da mesajcı RNA yıkımına neden olurlar. Böylece protein üretimine engel olabilirler.
Mikro RNAların, kanserden birçok nöropsikiyatrik hastalığa kadar geniş bir yelpazede rol oynayabileceği gösterilmiştir. Birçok mikro RNA hedef bağlanma bölgesi, deneysel ve hesaplamalı olarak bulunmasına rağmen bunların çok azı deneysel olarak doğrulanmıştır. Dolayısıyla, bilgisayar bilimleri yöntemleri kullanarak bu bağlanma bölgelerinin doğrulanması ve gen ekspresyon sürecinin daha iyi anlaşılması, üzerinde detaylıca çalışılan bir konudur. Şu animasyon, mikro RNAların gen düzenleyici rolünü anlatmaktadır:
Bir öğrenmenin gerçekleşebilmesi için verilerin sayısal olarak ifade edilmesi, modellenmesi gerekmektedir. Bu tez çalışmasındaki veri seti; mikro RNAlar, deneysel olarak belirlenmiş hedef mesajcı RNAlar, hedef mesajcı RNAlar üzerindeki bağlanma bölgeleri gibi girdi parametrelerinden oluşmaktadır.
Öğrenme sürecinden önceki veri ön işleme süreci, öğrenme işleminin başarısı için çok önemli bir basamaktır. Burada, öncelikle her bir mikro RNA ve mesajcı RNA arasında tamamlayıcı hizalama algoritması kullanılmıştır. Bu algoritmanın sonucunda, her bir ikili mikro RNA ve mesajcı RNA için tek bir dupleks sekansı oluşmaktadır. Yani her birbirine karşılık gelen farklı baz çifti, tek bir harfle ifade edilmiştir. Bu aşamadan sonra oluşan her sekans, çeşitli veri ön işleme algoritmaları ile sayısal ifadelere dönüştürülmüştür.
Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.
KreosusKreosus'ta her 10₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.
Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.
PatreonPatreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.
Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.
YouTubeYouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.
Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.
Diğer PlatformlarBu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.
Giriş yapmayı unutmayın!Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.
Ardından bir derin öğrenme algoritması olan ve bir Tekrarlayan Sinir Ağları (RNN) yöntemi olan Uzun-Kısa Vadeli Bellek (LSTM) algoritması, çeşitli hiper-parametre optimizasyon yöntemleri de denenerek, verileri sınıflandırmak için kullanılmıştır. Son olarak problem, eldeki mesajcı RNA, ilgili mikro RNA için bir hedef bağlanma bölgesi midir yoksa değil midir şeklinde ikili bir sınıflandırma problemine dönüştürülmüştür.
Tez çalışmasında, 2 adet veri seti kullanılmıştır. İlk veri seti, diğerine nazaran daha az örneklem içermekte, dolayısıyla boyutu daha küçüktür. Klasik makine öğrenimi yöntemlerinden Destek Vektör Makineleri (Support Vector Machines), Karar Ağaçları (Decision Trees), k-En Yakın Komşuluk Algoritması (kNN), Rassal Orman (Random Forest) ve bu çalışmada kullanılan LSTM modeli, her iki veri seti için birer sınıflandırma yöntemi olarak kullanılmış ve çıkan sonuçlar çeşitli başarım metriklerine göre deneysel olarak birbirleriyle karşılaştırılmıştır.
Aşağıdaki tabloda DS1 olarak kastedilen: küçük boyutlu olan ilk veri setidir. M1, ... M34 ile kastedilen ise birbirinden farklı yöntemlerdir. Sırasıyla, DS1_M1: LSTM, DS1_M31: Support Vector Machines, DS1_M32: Decision Trees, DS1_M33: kNN, DS1_M34: Random Forest, Oğul et al. da ise stokastik bir yöntem olan Markov Zinciri yöntemi kullanılmıştır. Başarım metrikleri ise sırasıyla ACC: Doğruluk, TPR: Gerçek Pozitif Oranı, TNR: Gerçek Negatif Oranı, F1: F1 Skoru, AUC: ROC eğrisinin altında kalan alandır.
Tablodaki sonuçlara göre, tez çalışmasında önerilen model, klasik makine öğrenimi algoritmalarına göre bazı yönlerden iyi sonuçlar verirken bazı yönlerden zayıf sonuçlar vermiştir.
Aşağıdaki tabloda DS2 olarak kastedilen: büyük boyutlu ikinci veri setidir. Sırasıyla, DS2_M5: LSTM, DS1_M32: Support Vector Machines, DS1_M33: Decision Trees, DS1_M34: kNN, DS1_M35: Random Forest, DeepMirTar: Stacked de-noising Auto Encoder, TargetScan: Lineer Regresyon, TarPmiR: Rassal Orman algoritmaları kullanılmıştır.
Yukarıdaki tablodan çıkan sonuçlara göre, önerilen LSTM modeli, DeepMirTar yöntemi hariç, diğer yöntemlerden çoğu metrik açısından daha başarılı sonuçlar vermiştir. Buradan ise bir Derin Öğrenme yöntemi olan LSTM'in, klasik makine öğrenmesi yöntemlerine göre karmaşık biyolojik dizilimlerden oluşan ve büyük boyutlu veri setlerinde daha başarılı sonuçlar verdiği gözlemlenmiştir. DeepMirTar yönteminin daha başarılı olmasının sebepleri ise güçlü bir hiperparametre optimizasyon yöntemi kullanılması, daha karmaşık bir yapay sinir ağı modeli ve öğrenme algoritması için gereken girdi temsillerinin daha iyi ifade edilmiş olması sonuçları çıkarılmıştır.
Çalışma sonucunda, Derin Öğrenme tabanlı LSTM algoritması, makine öğrenimi yöntemlerine göre genel olarak daha iyi sonuçlar verdiği gözlemlenmiştir. LSTM modeli yapısı itibariyle sinir ağındaki bir önceki girdileri hatırlama, unutma gibi bir hafıza mekanizmasına kayderek öğrenme işlemini gerçekleştirilmesiyle bilinir. Tartışılan biyolojik problemdeki sekanslar birbirinden farklı harfler içermekte ve uzunlukları birbirinden farklı olduğu için LSTM modeli genel olarak anlamlı sonuçlar vermiştir.
İçeriklerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.
Soru & Cevap Platformuna Git- 6
- 5
- 3
- 3
- 2
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- A. Paker, et al. (2019). Mirlstm: A Deep Sequential Approach To Microrna Target Binding Site Prediction. Communications in Computer and Information Science book series (CCIS, volume 1062), sf: 38-44. | Arşiv Bağlantısı
- A. Dikmen. Bilgisayarlı Biyoloji: Biyoinformatik. (24 Mayıs 2020). Alındığı Tarih: 24 Mayıs 2020. Alındığı Yer: biomedya | Arşiv Bağlantısı
- Y. LeCun, et al. (2015). Deep Learning. Nature, sf: 436-444. | Arşiv Bağlantısı
- I. Goodfellow, et al. (2016). Deep Learning. ISBN: 9780262035613. Yayınevi: MIT Press.
- D. P. Bartel, et al. (2004). Micrornas: Genomics, Biogenesis, Mechanism And Function. Cell, sf: 281-297. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 21/11/2024 11:51:06 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/8766
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.