Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?

- Özgün
- Biyoenformatik
- Derin Öğrenme
Bu içerik tıp ve sağlık ile ilişkilidir. Sadece bilgi amaçlı olarak hazırlanmıştır. Bireysel bir tıbbi tavsiye olarak görülmemelidir. Evrim Ağacı'ndaki hiçbir içerik; profesyonel bir hekim tarafından verilen tıbbi tavsiyelerin, konulan bir teşhisin veya önerilen bir tedavinin yerini alacak biçimde kullanılmamalıdır.
Biyolojik bir dizilim ya da sekans, belirli nükleotit ya da amino asit yapılarının ardı ardına gelecek şekilde dizilmesiyle oluşur. Nükleotitler birer kimyasal bileşiklerdir ve nükleik asitlerinin temel yapısını oluştururlar. Lisede öğrendiğimiz kadarıyla en yaygın bilinen nükleotitler Adenin (A), Guanin (G), Timin (T), Sitozin (C) ve Urasil (U)'dir. Proteinler ise amino asit dizilimlerinden oluşurlar. Biyolojik dizilimleri içerisinde barındıran ve üzerinde en çok çalışılan makro moleküller arasında Deoksiribonükleik asit (DNA), Ribonükleik asit (RNA) ve proteinler bulunur. Canlı hücrelerde, bu makro moleküller dışında mikro RNA gibi küçük yapılı moleküller de bulunmaktadır.
Bir diğer bilinmesi gereken temel konu ise gen ekspresyonu ya da diğer adıyla gen ifadesidir. Gen ekspresyonu, DNA'ların işlevsel olan protein yapılarına dönüşmesine kadar olan süreçtir. DNA'dan RNA üretilme sürecine transkripsiyon, RNA' dan protein üretilme sürecine ise translasyon denir. Gen ekspresyonunun daha akılda kalması açısından YouTube üzerinde birçok animasyonlu video bulunmaktadır. McGraw-Hill'in bu harika animasyonu bunlardan birisi:
Örnek olması bakımından, bazı dizilim örneklerini şöyle sıralayabiliriz:
- 10 nükleotitten oluşan örnek bir DNA sekansı: ATCCAGACAC
- 10 nükleotitten oluşan örnek bir RNA sekansı: UAGGUCAGAA
- 10 aminoasitten oluşan örnek bir protein sekansı: ALYHWTSGDE

Derin Öğrenme Nedir?
Makine Öğrenmesi kapsamında "Yapay Sinir Ağları" kavramı ortaya atılmıştır. Bu kavram, insan beyninin sahip olduğu öğrenme mekanizmasının çok basit düzeyde simüle edilmiş halidir. Bu kavram, temel olarak aynı insan beyni gibi öğrenme süreci için gereken; girdiler, yapılan işlemler ve çıktılardan oluşur. İnsan beynindeki nöronlardaki dendritler, diğer nöronlardan bilgiyi girdi olarak alarak bilginin işlenme sürecine aracılık ederler. Bilgiler hücre gövdesinde işlenir ve aksonlar aracılığıyla sinapslara iletilir. Sinapslar ise diğer nöronlarla haberleşmek için bir çıktı görevi görürler.

Derin Öğrenme ise makine öğrenmesinin daha özelleşmiş bir halidir. Aslında, insan beyninin çalışma mekanizmasına biraz daha yakın bir yapıdadır denebilir. Ancak şunu da hatırlatmakta fayda var ki: Modern bilim halen insan beyninin öğrenme sürecini çok iyi açıklayabilmiş değildir ve bu konuyla ilgili halen çok fazla soru işareti bulunmaktadır. Derin öğrenmedeki yapay sinir ağları modelinde, makine öğrenmesindeki klasik yapay sinir ağları modelinden farklı olarak, girdi ve çıktılar arasında birden fazla gizli katman bulunmaktadır. Bu da derin sinir ağlarının daha karmaşık bir öğrenme sistemi olması sonucunu doğurmaktadır. Makine öğrenmesi ve derin öğrenme genel olarak sınıflandırma, kümeleme ve regresyon problemlerinde kullanılmaktadır.

Biyoenformatik ve Güncel Biyolojik Problemler
Biyoenformatik, yıllarca biriken karmaşık biyolojik bilgilerin anlamlandırılması, yorumlanması, görselleştirilmesi gibi süreçlere katkı sağlamak amacıyla bilgisayar bilimleri, istatistik, moleküler biyoloji, veri bilimi, genetik gibi alanları kullanarak oluşmuş disiplinler arası bir çalışma alanıdır. Bu kapsamda çeşitli biyolojik problemler vardır. Bunlardan bazıları şöyle sıralanabilir:
- DNA dizilimi araştırmaları ya da genomik.
- RNA dizilimi araştırmaları.
- Protein dizilim ve araştırmaları ya da proteomik.
- Makromoleküler yapıların (DNA, RNA, protein) 3 boyutlu modellenmesi.
- Mikromoleküllerin (mikro RNA) gibi hedef bölgeye bağlanma tahmini, etkileşim araştırmaları.
- Biyolojik veritabanlarının oluşturulması.
- Birbiriyle etkileşen genler için etkileşim ağlarının oluşturulması.
- Proteinlerin yapı ve fonksiyonlarının belirlenmesi.
- Kanser genomiği ile kanser sürecinin anlaşılması.
- Genetiğe dayalı ilaç geliştirme.
- Genetik hastalıklara yatkınlığın incelenmesi.
Hangi Derin Öğrenme Yöntemi Kullanılmalı?
Biyolojik problemlerden bir örnek seçip, derin öğrenme yöntemlerinin bu problemi çözmek için nasıl kullanılabileceğini inceleyeceğiz. Problem, "mikro RNAların hedef mesajcı RNA bölgelerine bağlanma tahmini". Bu problemin çözümünü, kendi tez çalışmam üzerinden genel hatlarıyla inceleyebiliriz.
Mikro RNAlar, DNA'nın kodlanmayan bölgesinden sentezlenen, ortalama ~21-23 baz uzunluğunda gen düzenleyici, hücre içerisindeki dokuların biyosentezi gibi rolleri belirlenmiş, proteine dönüşmeyen, birçok canlı organizmada bulunan, küçük yapılı RNA molekülleridir. Mesajcı RNAların tamamlayıcı kısımlarına bağlanarak, transkripsiyon sonrası süreci engelleme ya da mesajcı RNA yıkımına neden olurlar. Böylece protein üretimine engel olabilirler.
Mikro RNAların, kanserden birçok nöropsikiyatrik hastalığa kadar geniş bir yelpazede rol oynayabileceği gösterilmiştir. Birçok mikro RNA hedef bağlanma bölgesi, deneysel ve hesaplamalı olarak bulunmasına rağmen bunların çok azı deneysel olarak doğrulanmıştır. Dolayısıyla, bilgisayar bilimleri yöntemleri kullanarak bu bağlanma bölgelerinin doğrulanması ve gen ekspresyon sürecinin daha iyi anlaşılması, üzerinde detaylıca çalışılan bir konudur. Şu animasyon, mikro RNAların gen düzenleyici rolünü anlatmaktadır:
Bir öğrenmenin gerçekleşebilmesi için verilerin sayısal olarak ifade edilmesi, modellenmesi gerekmektedir. Bu tez çalışmasındaki veri seti; mikro RNAlar, deneysel olarak belirlenmiş hedef mesajcı RNAlar, hedef mesajcı RNAlar üzerindeki bağlanma bölgeleri gibi girdi parametrelerinden oluşmaktadır.
Öğrenme sürecinden önceki veri ön işleme süreci, öğrenme işleminin başarısı için çok önemli bir basamaktır. Burada, öncelikle her bir mikro RNA ve mesajcı RNA arasında tamamlayıcı hizalama algoritması kullanılmıştır. Bu algoritmanın sonucunda, her bir ikili mikro RNA ve mesajcı RNA için tek bir dupleks sekansı oluşmaktadır. Yani her birbirine karşılık gelen farklı baz çifti, tek bir harfle ifade edilmiştir. Bu aşamadan sonra oluşan her sekans, çeşitli veri ön işleme algoritmaları ile sayısal ifadelere dönüştürülmüştür.
Aslında maddi destek istememizin nedeni çok basit: Çünkü Evrim Ağacı, bizim tek mesleğimiz, tek gelir kaynağımız. Birçoklarının aksine bizler, sosyal medyada gördüğünüz makale ve videolarımızı hobi olarak, mesleğimizden arta kalan zamanlarda yapmıyoruz. Dolayısıyla bu işi sürdürebilmek için gelir elde etmemiz gerekiyor.
Bunda elbette ki hiçbir sakınca yok; kimin, ne şartlar altında yayın yapmayı seçtiği büyük oranda bir tercih meselesi. Ne var ki biz, eğer ana mesleklerimizi icra edecek olursak (yani kendi mesleğimiz doğrultusunda bir iş sahibi olursak) Evrim Ağacı'na zaman ayıramayacağımızı, ayakta tutamayacağımızı biliyoruz. Çünkü az sonra detaylarını vereceğimiz üzere, Evrim Ağacı sosyal medyada denk geldiğiniz makale ve videolardan çok daha büyük, kapsamlı ve aşırı zaman alan bir bilim platformu projesi. Bu nedenle bizler, meslek olarak Evrim Ağacı'nı seçtik.
Eğer hem Evrim Ağacı'ndan hayatımızı idame ettirecek, mesleklerimizi bırakmayı en azından kısmen meşrulaştıracak ve mantıklı kılacak kadar bir gelir kaynağı elde edemezsek, mecburen Evrim Ağacı'nı bırakıp, kendi mesleklerimize döneceğiz. Ama bunu istemiyoruz ve bu nedenle didiniyoruz.

Ardından bir derin öğrenme algoritması olan ve bir Tekrarlayan Sinir Ağları (RNN) yöntemi olan Uzun-Kısa Vadeli Bellek (LSTM) algoritması, çeşitli hiper-parametre optimizasyon yöntemleri de denenerek, verileri sınıflandırmak için kullanılmıştır. Son olarak problem, eldeki mesajcı RNA, ilgili mikro RNA için bir hedef bağlanma bölgesi midir yoksa değil midir şeklinde ikili bir sınıflandırma problemine dönüştürülmüştür.
Tez çalışmasında, 2 adet veri seti kullanılmıştır. İlk veri seti, diğerine nazaran daha az örneklem içermekte, dolayısıyla boyutu daha küçüktür. Klasik makine öğrenimi yöntemlerinden Destek Vektör Makineleri (Support Vector Machines), Karar Ağaçları (Decision Trees), k-En Yakın Komşuluk Algoritması (kNN), Rassal Orman (Random Forest) ve bu çalışmada kullanılan LSTM modeli, her iki veri seti için birer sınıflandırma yöntemi olarak kullanılmış ve çıkan sonuçlar çeşitli başarım metriklerine göre deneysel olarak birbirleriyle karşılaştırılmıştır.
Aşağıdaki tabloda DS1 olarak kastedilen: küçük boyutlu olan ilk veri setidir. M1, ... M34 ile kastedilen ise birbirinden farklı yöntemlerdir. Sırasıyla, DS1_M1: LSTM, DS1_M31: Support Vector Machines, DS1_M32: Decision Trees, DS1_M33: kNN, DS1_M34: Random Forest, Oğul et al. da ise stokastik bir yöntem olan Markov Zinciri yöntemi kullanılmıştır. Başarım metrikleri ise sırasıyla ACC: Doğruluk, TPR: Gerçek Pozitif Oranı, TNR: Gerçek Negatif Oranı, F1: F1 Skoru, AUC: ROC eğrisinin altında kalan alandır.

Tablodaki sonuçlara göre, tez çalışmasında önerilen model, klasik makine öğrenimi algoritmalarına göre bazı yönlerden iyi sonuçlar verirken bazı yönlerden zayıf sonuçlar vermiştir.
Aşağıdaki tabloda DS2 olarak kastedilen: büyük boyutlu ikinci veri setidir. Sırasıyla, DS2_M5: LSTM, DS1_M32: Support Vector Machines, DS1_M33: Decision Trees, DS1_M34: kNN, DS1_M35: Random Forest, DeepMirTar: Stacked de-noising Auto Encoder, TargetScan: Lineer Regresyon, TarPmiR: Rassal Orman algoritmaları kullanılmıştır.

Yukarıdaki tablodan çıkan sonuçlara göre, önerilen LSTM modeli, DeepMirTar yöntemi hariç, diğer yöntemlerden çoğu metrik açısından daha başarılı sonuçlar vermiştir. Buradan ise bir Derin Öğrenme yöntemi olan LSTM'in, klasik makine öğrenmesi yöntemlerine göre karmaşık biyolojik dizilimlerden oluşan ve büyük boyutlu veri setlerinde daha başarılı sonuçlar verdiği gözlemlenmiştir. DeepMirTar yönteminin daha başarılı olmasının sebepleri ise güçlü bir hiperparametre optimizasyon yöntemi kullanılması, daha karmaşık bir yapay sinir ağı modeli ve öğrenme algoritması için gereken girdi temsillerinin daha iyi ifade edilmiş olması sonuçları çıkarılmıştır.
Çalışma sonucunda, Derin Öğrenme tabanlı LSTM algoritması, makine öğrenimi yöntemlerine göre genel olarak daha iyi sonuçlar verdiği gözlemlenmiştir. LSTM modeli yapısı itibariyle sinir ağındaki bir önceki girdileri hatırlama, unutma gibi bir hafıza mekanizmasına kayderek öğrenme işlemini gerçekleştirilmesiyle bilinir. Tartışılan biyolojik problemdeki sekanslar birbirinden farklı harfler içermekte ve uzunlukları birbirinden farklı olduğu için LSTM modeli genel olarak anlamlı sonuçlar vermiştir.
Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...
O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...
O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.
Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!
Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.
Soru & Cevap Platformuna Git- 6
- 5
- 3
- 3
- 2
- 1
- 1
- 0
- 0
- 0
- 0
- 0
- A. Paker, et al. (2019). Mirlstm: A Deep Sequential Approach To Microrna Target Binding Site Prediction. Communications in Computer and Information Science book series (CCIS, volume 1062), sf: 38-44. | Arşiv Bağlantısı
- A. Dikmen. Bilgisayarlı Biyoloji: Biyoinformatik. (24 Mayıs 2020). Alındığı Tarih: 24 Mayıs 2020. Alındığı Yer: biomedya | Arşiv Bağlantısı
- Y. LeCun, et al. (2015). Deep Learning. Nature, sf: 436-444. | Arşiv Bağlantısı
- I. Goodfellow, et al. (2016). Deep Learning. ISBN: 9780262035613. Yayınevi: MIT Press.
- D. P. Bartel, et al. (2004). Micrornas: Genomics, Biogenesis, Mechanism And Function. Cell, sf: 281-297. | Arşiv Bağlantısı
Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?
Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:
kreosus.com/evrimagaci | patreon.com/evrimagaci
Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 22/02/2025 11:49:44 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/8766
İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.