Evrim Ağacı
Reklamı Kapat

Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?

Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?
DNA sarmalı, insan ve bilgisayarın ikili sayma sistemi
Clinical Omics
Tavsiye Makale
Reklamı Kapat

Bu yazı, Evrim Ağacı'na ait, özgün bir içeriktir. Konu akışı, anlatım ve detaylar, Evrim Ağacı yazarı/yazarları tarafından hazırlanmış ve/veya derlenmiştir. Bu içerik için kullanılan kaynaklar, yazının sonunda gösterilmiştir. Bu içerik, diğer tüm içeriklerimiz gibi, İçerik Kullanım İzinleri'ne tabidir.

Bu içerik tıp ve sağlık ile ilişkilidir. Sadece bilgi amaçlı olarak hazırlanmıştır. Bireysel bir tıbbi tavsiye olarak görülmemelidir. Evrim Ağacı'ndaki hiçbir içerik, profesyonel bir hekim tarafından verilen tıbbi tavsiyelerin, konulan bir teşhisin veya önerilen bir tedavinin yerini alacak biçimde kullanılmamalıdır. Daha fazla bilgi için buraya tıklayınız.

Biyolojik bir dizilim ya da sekans, belirli nükleotit ya da amino asit yapılarının ardı ardına gelecek şekilde dizilmesiyle oluşur. Nükleotitler birer kimyasal bileşiklerdir ve nükleik asitlerinin temel yapısını oluştururlar. Lisede öğrendiğimiz kadarıyla en yaygın bilinen nükleotitler Adenin (A), Guanin (G), Timin (T), Sitozin (C) ve Urasil (U)'dir. Proteinler ise amino asit dizilimlerinden oluşurlar. Biyolojik dizilimleri içerisinde barındıran ve üzerinde en çok çalışılan makro moleküller arasında Deoksiribonükleik asit (DNA), Ribonükleik asit (RNA) ve proteinler bulunur. Canlı hücrelerde, bu makro moleküller dışında mikro RNA gibi küçük yapılı moleküller de bulunmaktadır.

Bir diğer bilinmesi gereken temel konu ise gen ekspresyonu ya da diğer adıyla gen ifadesidir. Gen ekspresyonu, DNA'ların işlevsel olan protein yapılarına dönüşmesine kadar olan süreçtir. DNA'dan RNA üretilme sürecine transkripsiyon, RNA' dan protein üretilme sürecine ise translasyon denir. Gen ekspresyonunun daha akılda kalması açısından YouTube üzerinde birçok animasyonlu video bulunmaktadır. McGraw-Hill'in bu harika animasyonu bunlardan birisi:

Örnek olması bakımından, bazı dizilim örneklerini şöyle sıralayabiliriz:

  • 10 nükleotitten oluşan örnek bir DNA sekansı: ATCCAGACAC
  • 10 nükleotitten oluşan örnek bir RNA sekansı: UAGGUCAGAA
  • 10 aminoasitten oluşan örnek bir protein sekansı: ALYHWTSGDE
Gen ekspresyon süreci
Gen ekspresyon süreci
researchgate

Derin Öğrenme Nedir?

Makine Öğrenmesi kapsamında "Yapay Sinir Ağları" kavramı ortaya atılmıştır. Bu kavram, insan beyninin sahip olduğu öğrenme mekanizmasının çok basit düzeyde simüle edilmiş halidir. Bu kavram, temel olarak aynı insan beyni gibi öğrenme süreci için gereken; girdiler, yapılan işlemler ve çıktılardan oluşur. İnsan beynindeki nöronlardaki dendritler, diğer nöronlardan bilgiyi girdi olarak alarak bilginin işlenme sürecine aracılık ederler. Bilgiler hücre gövdesinde işlenir ve aksonlar aracılığıyla sinapslara iletilir. Sinapslar ise diğer nöronlarla haberleşmek için bir çıktı görevi görürler.

İnsan Beynindeki Nöronlar ve Yapay Sinir Ağları
İnsan Beynindeki Nöronlar ve Yapay Sinir Ağları
MPLSVPN

Derin Öğrenme ise makine öğrenmesinin daha özelleşmiş bir halidir. Aslında, insan beyninin çalışma mekanizmasına biraz daha yakın bir yapıdadır denebilir. Ancak şunu da hatırlatmakta fayda var ki: Modern bilim halen insan beyninin öğrenme sürecini çok iyi açıklayabilmiş değildir ve bu konuyla ilgili halen çok fazla soru işareti bulunmaktadır. Derin öğrenmedeki yapay sinir ağları modelinde, makine öğrenmesindeki klasik yapay sinir ağları modelinden farklı olarak, girdi ve çıktılar arasında birden fazla gizli katman bulunmaktadır. Bu da derin sinir ağlarının daha karmaşık bir öğrenme sistemi olması sonucunu doğurmaktadır. Makine öğrenmesi ve derin öğrenme genel olarak sınıflandırma, kümeleme ve regresyon problemlerinde kullanılmaktadır.

Klasik Yapay Sinir Ağları - Derin Yapay Sinir Ağları
Klasik Yapay Sinir Ağları - Derin Yapay Sinir Ağları
towardsdatascience

Biyoenformatik ve Güncel Biyolojik Problemler

Biyoenformatik, yıllarca biriken karmaşık biyolojik bilgilerin anlamlandırılması, yorumlanması, görselleştirilmesi gibi süreçlere katkı sağlamak amacıyla bilgisayar bilimleri, istatistik, moleküler biyoloji, veri bilimi, genetik gibi alanları kullanarak oluşmuş disiplinler arası bir çalışma alanıdır. Bu kapsamda çeşitli biyolojik problemler vardır. Bunlardan bazıları şöyle sıralanabilir:

  • DNA dizilimi araştırmaları ya da genomik.
  • RNA dizilimi araştırmaları.
  • Protein dizilim ve araştırmaları ya da proteomik.
  • Makromoleküler yapıların (DNA, RNA, protein) 3 boyutlu modellenmesi.
  • Mikromoleküllerin (mikro RNA) gibi hedef bölgeye bağlanma tahmini, etkileşim araştırmaları.
  • Biyolojik veritabanlarının oluşturulması.
  • Birbiriyle etkileşen genler için etkileşim ağlarının oluşturulması.
  • Proteinlerin yapı ve fonksiyonlarının belirlenmesi.
  • Kanser genomiği ile kanser sürecinin anlaşılması.
  • Genetiğe dayalı ilaç geliştirme.
  • Genetik hastalıklara yatkınlığın incelenmesi.

Hangi Derin Öğrenme Yöntemi Kullanılmalı?

Biyolojik problemlerden bir örnek seçip, derin öğrenme yöntemlerinin bu problemi çözmek için nasıl kullanılabileceğini inceleyeceğiz. Problem, "mikro RNAların hedef mesajcı RNA bölgelerine bağlanma tahmini". Bu problemin çözümünü, kendi tez çalışmam üzerinden genel hatlarıyla inceleyebiliriz.

Mikro RNAlar, DNA'nın kodlanmayan bölgesinden sentezlenen, ortalama ~21-23 baz uzunluğunda gen düzenleyici, hücre içerisindeki dokuların biyosentezi gibi rolleri belirlenmiş, proteine dönüşmeyen, birçok canlı organizmada bulunan, küçük yapılı RNA molekülleridir. Mesajcı RNAların tamamlayıcı kısımlarına bağlanarak, transkripsiyon sonrası süreci engelleme ya da mesajcı RNA yıkımına neden olurlar. Böylece protein üretimine engel olabilirler.

Mikro RNAların, kanserden birçok nöropsikiyatrik hastalığa kadar geniş bir yelpazede rol oynayabileceği gösterilmiştir. Birçok mikro RNA hedef bağlanma bölgesi, deneysel ve hesaplamalı olarak bulunmasına rağmen bunların çok azı deneysel olarak doğrulanmıştır. Dolayısıyla, bilgisayar bilimleri yöntemleri kullanarak bu bağlanma bölgelerinin doğrulanması ve gen ekspresyon sürecinin daha iyi anlaşılması, üzerinde detaylıca çalışılan bir konudur. Şu animasyon, mikro RNAların gen düzenleyici rolünü anlatmaktadır:

Bir öğrenmenin gerçekleşebilmesi için verilerin sayısal olarak ifade edilmesi, modellenmesi gerekmektedir. Bu tez çalışmasındaki veri seti; mikro RNAlar, deneysel olarak belirlenmiş hedef mesajcı RNAlar, hedef mesajcı RNAlar üzerindeki bağlanma bölgeleri gibi girdi parametrelerinden oluşmaktadır.

Öğrenme sürecinden önceki veri ön işleme süreci, öğrenme işleminin başarısı için çok önemli bir basamaktır. Burada, öncelikle her bir mikro RNA ve mesajcı RNA arasında tamamlayıcı hizalama algoritması kullanılmıştır. Bu algoritmanın sonucunda, her bir ikili mikro RNA ve mesajcı RNA için tek bir dupleks sekansı oluşmaktadır. Yani her birbirine karşılık gelen farklı baz çifti, tek bir harfle ifade edilmiştir. Bu aşamadan sonra oluşan her sekans, çeşitli veri ön işleme algoritmaları ile sayısal ifadelere dönüştürülmüştür.

Örnek bir Tamamlayıcı Hizalama Algoritması (Sequence Alignment Algorithm) ve Temsili Bir Dubleks Sekansı
Örnek bir Tamamlayıcı Hizalama Algoritması (Sequence Alignment Algorithm) ve Temsili Bir Dubleks Sekansı
Başkent Üniversitesi

Ardından bir derin öğrenme algoritması olan ve bir Tekrarlayan Sinir Ağları (RNN) yöntemi olan Uzun-Kısa Vadeli Bellek (LSTM) algoritması, çeşitli hiper-parametre optimizasyon yöntemleri de denenerek, verileri sınıflandırmak için kullanılmıştır. Son olarak problem, eldeki mesajcı RNA, ilgili mikro RNA için bir hedef bağlanma bölgesi midir yoksa değil midir şeklinde ikili bir sınıflandırma problemine dönüştürülmüştür.

Tez çalışmasında, 2 adet veri seti kullanılmıştır. İlk veri seti, diğerine nazaran daha az örneklem içermekte, dolayısıyla boyutu daha küçüktür. Klasik makine öğrenimi yöntemlerinden Destek Vektör Makineleri (Support Vector Machines), Karar Ağaçları (Decision Trees), k-En Yakın Komşuluk Algoritması (kNN), Rassal Orman (Random Forest) ve bu çalışmada kullanılan LSTM modeli, her iki veri seti için birer sınıflandırma yöntemi olarak kullanılmış ve çıkan sonuçlar çeşitli başarım metriklerine göre deneysel olarak birbirleriyle karşılaştırılmıştır.

Aşağıdaki tabloda DS1 olarak kastedilen: küçük boyutlu olan ilk veri setidir. M1, ... M34 ile kastedilen ise birbirinden farklı yöntemlerdir. Sırasıyla, DS1_M1: LSTM, DS1_M31: Support Vector Machines, DS1_M32: Decision Trees, DS1_M33: kNN, DS1_M34: Random Forest, Oğul et al. da ise stokastik bir yöntem olan Markov Zinciri yöntemi kullanılmıştır. Başarım metrikleri ise sırasıyla ACC: Doğruluk, TPR: Gerçek Pozitif Oranı, TNR: Gerçek Negatif Oranı, F1: F1 Skoru, AUC: ROC eğrisinin altında kalan alandır.

Küçük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri ve Derin Öğrenme Tabanlı LSTM Yönteminin,  Bazı Başarım Metriklerine Göre Karşılaştırılması
Küçük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri ve Derin Öğrenme Tabanlı LSTM Yönteminin, Bazı Başarım Metriklerine Göre Karşılaştırılması
acikerisim.baskent

Tablodaki sonuçlara göre, tez çalışmasında önerilen model, klasik makine öğrenimi algoritmalarına göre bazı yönlerden iyi sonuçlar verirken bazı yönlerden zayıf sonuçlar vermiştir.

Aşağıdaki tabloda DS2 olarak kastedilen: büyük boyutlu ikinci veri setidir. Sırasıyla, DS2_M5: LSTM, DS1_M32: Support Vector Machines, DS1_M33: Decision Trees, DS1_M34: kNN, DS1_M35: Random Forest, DeepMirTar: Stacked de-noising Auto Encoder, TargetScan: Lineer Regresyon, TarPmiR: Rassal Orman algoritmaları kullanılmıştır.

Büyük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri, Derin Öğrenme Tabanlı LSTM Yöntemi, ve Literatürdeki Aynı Veriseti Üzerindeki Diğer Çalışmaların Bazı Başarım Metriklerine Göre Karşılaştırılması
Büyük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri, Derin Öğrenme Tabanlı LSTM Yöntemi, ve Literatürdeki Aynı Veriseti Üzerindeki Diğer Çalışmaların Bazı Başarım Metriklerine Göre Karşılaştırılması
acikerisim.baskent

Yukarıdaki tablodan çıkan sonuçlara göre, önerilen LSTM modeli, DeepMirTar yöntemi hariç, diğer yöntemlerden çoğu metrik açısından daha başarılı sonuçlar vermiştir. Buradan ise bir Derin Öğrenme yöntemi olan LSTM'in, klasik makine öğrenmesi yöntemlerine göre karmaşık biyolojik dizilimlerden oluşan ve büyük boyutlu veri setlerinde daha başarılı sonuçlar verdiği gözlemlenmiştir. DeepMirTar yönteminin daha başarılı olmasının sebepleri ise güçlü bir hiperparametre optimizasyon yöntemi kullanılması, daha karmaşık bir yapay sinir ağı modeli ve öğrenme algoritması için gereken girdi temsillerinin daha iyi ifade edilmiş olması sonuçları çıkarılmıştır.

Çalışma sonucunda, Derin Öğrenme tabanlı LSTM algoritması, makine öğrenimi yöntemlerine göre genel olarak daha iyi sonuçlar verdiği gözlemlenmiştir. LSTM modeli yapısı itibariyle sinir ağındaki bir önceki girdileri hatırlama, unutma gibi bir hafıza mekanizmasına kayderek öğrenme işlemini gerçekleştirilmesiyle bilinir. Tartışılan biyolojik problemdeki sekanslar birbirinden farklı harfler içermekte ve uzunlukları birbirinden farklı olduğu için LSTM modeli genel olarak anlamlı sonuçlar vermiştir.

Bu içeriğimizle ilgili bir sorunuz mu var? Buraya tıklayarak sorabilirsiniz.

İlginizi Çekebilecek Sorular
Soru & Cevap Platformuna Git
Bu İçerik Size Ne Hissettirdi?
  • Tebrikler! 4
  • Muhteşem! 2
  • Mmm... Çok sapyoseksüel! 1
  • Merak Uyandırıcı! 1
  • Bilim Budur! 0
  • Güldürdü 0
  • İnanılmaz 0
  • Umut Verici! 0
  • Üzücü! 0
  • Grrr... *@$# 0
  • İğrenç! 0
  • Korkutucu! 0
Kaynaklar ve İleri Okuma

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 28/09/2020 09:46:39 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/8766

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Reklamı Kapat
Güncel
Karma
Agora
Savunma
Zihin
Lipit
Türleşme
Dağılım
Endokrin Sistemi
İhtiyoloji
Psikiyatri
Hafıza
Covıd-19
Köpekler
Mitler
Diş
Kalıtım
Yaşam
Moleküler Biyoloji Ve Genetik
Kadın
Abd
Tehlike
Gelişim
Bitki
Nöron
Ornitoloji
Bilim İnsanı
Fare
Daha Fazla İçerik Göster
Daha Fazla İçerik Göster
Reklamı Kapat
Reklamsız Deneyim

Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, Evrim Ağacı'nda çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, daha temiz bir site deneyimi sunmaktadır.

Kreosus

Kreosus'ta her 10₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.

Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.

Patreon

Patreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.

Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.

YouTube

YouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.

Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.

Diğer Platformlar

Bu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.

Giriş yapmayı unutmayın!

Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.

Destek Ol
Türkiye'deki bilimseverlerin buluşma noktasına hoşgeldiniz!

Göster

Şifrenizi mi unuttunuz? Lütfen e-posta adresinizi giriniz. E-posta adresinize şifrenizi sıfırlamak için bir bağlantı gönderilecektir.

Geri dön

Eğer aktivasyon kodunu almadıysanız lütfen e-posta adresinizi giriniz. Üyeliğinizi aktive etmek için e-posta adresinize bir bağlantı gönderilecektir.

Geri dön

Close
“İnsanlar, anlamadıkları şeyleri sevmemeye hazırdırlar. Anlaşılmaz olan, insanlara her zaman iğrenç gelmiştir.”
Letitia E. Landon
Geri Bildirim Gönder