Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?

25 Mayıs 2020

7 dakika

2,154

Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır? — DNA sarmalı, insan ve bilgisayarın ikili sayma sistemi

Evrim Ağacı'ndan bir yeni mesajın var.

Bilimi Yaymamıza Yardım Edin! 😍

Her ay milyonlarca bilimsever Evrim Ağacı'na uğruyor ve karmaşık bilimsel konuları basit bir dille anlattığımız içeriklerimizden faydalanıyor. Ne yazık ki bu okurlarımızın %0.1'inden azı bize destek olmayı seçiyor. Halbuki okurlarımızın sadece %1'i bile Evrim Ağacı'na ayda 39₺ gibi erişilebilir bir miktarla destek olsaydı, bilimi Türkiye geneline yaymamız önünde hiçbir maddi engel kalmazdı! Siz de destekçilerimiz arasına şimdi katılarak, bilimin gücüne güç katın! Daha Fazla...

Ayrıca Maddi Destekçi rozetine sahip olacaksın!

Bilime Destek Ol!

Evrim Ağacı Akademi: Yapay Zeka Uygulamaları Yazı Dizisi

Bu yazı, Yapay Zeka Uygulamaları yazı dizisinin 19. yazısıdır. Bu yazı dizisini okumaya, serinin 1. yazısı olan " Hayatlarımıza Giren 5 Yapay Zeka Ürünü: Sizin Yapay Zekanız Ne Kadar Zeki?" başlıklı makalemizden başlamanızı öneririz.

Tıbbi İçerik Uyarısı

Bu içerik tıp ve sağlık ile ilişkilidir. Sadece bilgi amaçlı olarak hazırlanmıştır. Bireysel bir tıbbi tavsiye olarak görülmemelidir. Evrim Ağacı'ndaki hiçbir içerik; profesyonel bir hekim tarafından verilen tıbbi tavsiyelerin, konulan bir teşhisin veya önerilen bir tedavinin yerini alacak biçimde kullanılmamalıdır.

Daha Fazla Bilgi Al

Bu Makalede Neler Öğreneceksiniz?

Biyolojik dizilimler, nükleotit veya amino asitlerin ardışık sıralanmasıyla oluşur ve DNA, RNA ile proteinler bu dizilimlerin en çok çalışılan makro molekülleridir.
Gen ekspresyonu, DNA'dan RNA'ya (transkripsiyon) ve RNA'dan proteine (translasyon) dönüşüm sürecidir ve hücredeki protein üretimini kontrol eder.
Derin öğrenme yöntemlerinden LSTM, mikro RNA ve mesajcı RNA bağlanma tahmininde klasik makine öğrenimi yöntemlerine göre büyük veri setlerinde daha başarılı sonuçlar vermektedir.

Biyolojik bir dizilim ya da sekans, belirli nükleotit ya da amino asit yapılarının ardı ardına gelecek şekilde dizilmesiyle oluşur. Nükleotitler birer kimyasal bileşiklerdir ve nükleik asitlerinin temel yapısını oluştururlar. Lisede öğrendiğimiz kadarıyla en yaygın bilinen nükleotitler Adenin (A), Guanin (G), Timin (T), Sitozin (C) ve Urasil (U)'dir. Proteinler ise amino asit dizilimlerinden oluşurlar. Biyolojik dizilimleri içerisinde barındıran ve üzerinde en çok çalışılan makro moleküller arasında Deoksiribonükleik asit (DNA), Ribonükleik asit (RNA) ve proteinler bulunur. Canlı hücrelerde, bu makro moleküller dışında mikro RNA gibi küçük yapılı moleküller de bulunmaktadır.

Bir diğer bilinmesi gereken temel konu ise gen ekspresyonu ya da diğer adıyla gen ifadesidir. Gen ekspresyonu, DNA'ların işlevsel olan protein yapılarına dönüşmesine kadar olan süreçtir. DNA'dan RNA üretilme sürecine transkripsiyon, RNA' dan protein üretilme sürecine ise translasyon denir. Gen ekspresyonunun daha akılda kalması açısından YouTube üzerinde birçok animasyonlu video bulunmaktadır. McGraw-Hill'in bu harika animasyonu bunlardan birisi:

Örnek olması bakımından, bazı dizilim örneklerini şöyle sıralayabiliriz:

10 nükleotitten oluşan örnek bir DNA sekansı: ATCCAGACAC
10 nükleotitten oluşan örnek bir RNA sekansı: UAGGUCAGAA
10 aminoasitten oluşan örnek bir protein sekansı: ALYHWTSGDE

Derin Öğrenme Nedir?

Makine Öğrenmesi kapsamında "Yapay Sinir Ağları" kavramı ortaya atılmıştır. Bu kavram, insan beyninin sahip olduğu öğrenme mekanizmasının çok basit düzeyde simüle edilmiş halidir. Bu kavram, temel olarak aynı insan beyni gibi öğrenme süreci için gereken; girdiler, yapılan işlemler ve çıktılardan oluşur. İnsan beynindeki nöronlardaki dendritler, diğer nöronlardan bilgiyi girdi olarak alarak bilginin işlenme sürecine aracılık ederler. Bilgiler hücre gövdesinde işlenir ve aksonlar aracılığıyla sinapslara iletilir. Sinapslar ise diğer nöronlarla haberleşmek için bir çıktı görevi görürler.

İnsan Beynindeki Nöronlar ve Yapay Sinir Ağları

Derin Öğrenme ise makine öğrenmesinin daha özelleşmiş bir halidir. Aslında, insan beyninin çalışma mekanizmasına biraz daha yakın bir yapıdadır denebilir. Ancak şunu da hatırlatmakta fayda var ki: Modern bilim halen insan beyninin öğrenme sürecini çok iyi açıklayabilmiş değildir ve bu konuyla ilgili halen çok fazla soru işareti bulunmaktadır. Derin öğrenmedeki yapay sinir ağları modelinde, makine öğrenmesindeki klasik yapay sinir ağları modelinden farklı olarak, girdi ve çıktılar arasında birden fazla gizli katman bulunmaktadır. Bu da derin sinir ağlarının daha karmaşık bir öğrenme sistemi olması sonucunu doğurmaktadır. Makine öğrenmesi ve derin öğrenme genel olarak sınıflandırma, kümeleme ve regresyon problemlerinde kullanılmaktadır.

Klasik Yapay Sinir Ağları - Derin Yapay Sinir Ağları

Biyoenformatik ve Güncel Biyolojik Problemler

Biyoenformatik, yıllarca biriken karmaşık biyolojik bilgilerin anlamlandırılması, yorumlanması, görselleştirilmesi gibi süreçlere katkı sağlamak amacıyla bilgisayar bilimleri, istatistik, moleküler biyoloji, veri bilimi, genetik gibi alanları kullanarak oluşmuş disiplinler arası bir çalışma alanıdır. Bu kapsamda çeşitli biyolojik problemler vardır. Bunlardan bazıları şöyle sıralanabilir:

DNA dizilimi araştırmaları ya da genomik.
RNA dizilimi araştırmaları.
Protein dizilim ve araştırmaları ya da proteomik.
Makromoleküler yapıların (DNA, RNA, protein) 3 boyutlu modellenmesi.
Mikromoleküllerin (mikro RNA) gibi hedef bölgeye bağlanma tahmini, etkileşim araştırmaları.
Biyolojik veritabanlarının oluşturulması.
Birbiriyle etkileşen genler için etkileşim ağlarının oluşturulması.
Proteinlerin yapı ve fonksiyonlarının belirlenmesi.
Kanser genomiği ile kanser sürecinin anlaşılması.
Genetiğe dayalı ilaç geliştirme.
Genetik hastalıklara yatkınlığın incelenmesi.

Hangi Derin Öğrenme Yöntemi Kullanılmalı?

Biyolojik problemlerden bir örnek seçip, derin öğrenme yöntemlerinin bu problemi çözmek için nasıl kullanılabileceğini inceleyeceğiz. Problem, "mikro RNAların hedef mesajcı RNA bölgelerine bağlanma tahmini". Bu problemin çözümünü, kendi tez çalışmam üzerinden genel hatlarıyla inceleyebiliriz.

Mikro RNAlar, DNA'nın kodlanmayan bölgesinden sentezlenen, ortalama ~21-23 baz uzunluğunda gen düzenleyici, hücre içerisindeki dokuların biyosentezi gibi rolleri belirlenmiş, proteine dönüşmeyen, birçok canlı organizmada bulunan, küçük yapılı RNA molekülleridir. Mesajcı RNAların tamamlayıcı kısımlarına bağlanarak, transkripsiyon sonrası süreci engelleme ya da mesajcı RNA yıkımına neden olurlar. Böylece protein üretimine engel olabilirler.

Biyoenformatik ile ilgili diğer içerikler ›

Mikro RNAların, kanserden birçok nöropsikiyatrik hastalığa kadar geniş bir yelpazede rol oynayabileceği gösterilmiştir. Birçok mikro RNA hedef bağlanma bölgesi, deneysel ve hesaplamalı olarak bulunmasına rağmen bunların çok azı deneysel olarak doğrulanmıştır. Dolayısıyla, bilgisayar bilimleri yöntemleri kullanarak bu bağlanma bölgelerinin doğrulanması ve gen ekspresyon sürecinin daha iyi anlaşılması, üzerinde detaylıca çalışılan bir konudur. Şu animasyon, mikro RNAların gen düzenleyici rolünü anlatmaktadır:

Bir öğrenmenin gerçekleşebilmesi için verilerin sayısal olarak ifade edilmesi, modellenmesi gerekmektedir. Bu tez çalışmasındaki veri seti; mikro RNAlar, deneysel olarak belirlenmiş hedef mesajcı RNAlar, hedef mesajcı RNAlar üzerindeki bağlanma bölgeleri gibi girdi parametrelerinden oluşmaktadır.

Öğrenme sürecinden önceki veri ön işleme süreci, öğrenme işleminin başarısı için çok önemli bir basamaktır. Burada, öncelikle her bir mikro RNA ve mesajcı RNA arasında tamamlayıcı hizalama algoritması kullanılmıştır. Bu algoritmanın sonucunda, her bir ikili mikro RNA ve mesajcı RNA için tek bir dupleks sekansı oluşmaktadır. Yani her birbirine karşılık gelen farklı baz çifti, tek bir harfle ifade edilmiştir. Bu aşamadan sonra oluşan her sekans, çeşitli veri ön işleme algoritmaları ile sayısal ifadelere dönüştürülmüştür.

Evrim Ağacı'ndan Mesaj

Reklamsız Deneyim

Evrim Ağacı'nın çalışmalarına Kreosus, Patreon veya YouTube üzerinden maddi destekte bulunarak hem Türkiye'de bilim anlatıcılığının gelişmesine katkı sağlayabilirsiniz, hem de site ve uygulamamızı reklamsız olarak deneyimleyebilirsiniz. Reklamsız deneyim, sitemizin/uygulamamızın çeşitli kısımlarda gösterilen Google reklamlarını ve destek çağrılarını görmediğiniz, %100 reklamsız ve çok daha temiz bir site deneyimi sunmaktadır.

Kreosus

Kreosus'ta her 50₺'lik destek, 1 aylık reklamsız deneyime karşılık geliyor. Bu sayede, tek seferlik destekçilerimiz de, aylık destekçilerimiz de toplam destekleriyle doğru orantılı bir süre boyunca reklamsız deneyim elde edebiliyorlar.

Kreosus destekçilerimizin reklamsız deneyimi, destek olmaya başladıkları anda devreye girmektedir ve ek bir işleme gerek yoktur.

Patreon

Patreon destekçilerimiz, destek miktarından bağımsız olarak, Evrim Ağacı'na destek oldukları süre boyunca reklamsız deneyime erişmeyi sürdürebiliyorlar.

Patreon destekçilerimizin Patreon ile ilişkili e-posta hesapları, Evrim Ağacı'ndaki üyelik e-postaları ile birebir aynı olmalıdır. Patreon destekçilerimizin reklamsız deneyiminin devreye girmesi 24 saat alabilmektedir.

YouTube

YouTube destekçilerimizin hepsi otomatik olarak reklamsız deneyime şimdilik erişemiyorlar ve şu anda, YouTube üzerinden her destek seviyesine reklamsız deneyim ayrıcalığını sunamamaktayız. YouTube Destek Sistemi üzerinde sunulan farklı seviyelerin açıklamalarını okuyarak, hangi ayrıcalıklara erişebileceğinizi öğrenebilirsiniz.

Eğer seçtiğiniz seviye reklamsız deneyim ayrıcalığı sunuyorsa, destek olduktan sonra YouTube tarafından gösterilecek olan bağlantıdaki formu doldurarak reklamsız deneyime erişebilirsiniz. YouTube destekçilerimizin reklamsız deneyiminin devreye girmesi, formu doldurduktan sonra 24-72 saat alabilmektedir.

Diğer Platformlar

Bu 3 platform haricinde destek olan destekçilerimize ne yazık ki reklamsız deneyim ayrıcalığını sunamamaktayız. Destekleriniz sayesinde sistemlerimizi geliştirmeyi sürdürüyoruz ve umuyoruz bu ayrıcalıkları zamanla genişletebileceğiz.

Giriş yapmayı unutmayın!

Reklamsız deneyim için, maddi desteğiniz ile ilişkilendirilmiş olan Evrim Ağacı hesabınıza üye girişi yapmanız gerekmektedir. Giriş yapmadığınız takdirde reklamları görmeye devam edeceksinizdir.

Destek Ol

Örnek bir Tamamlayıcı Hizalama Algoritması (Sequence Alignment Algorithm) ve Temsili Bir Dubleks Sekansı

Ardından bir derin öğrenme algoritması olan ve bir Tekrarlayan Sinir Ağları (RNN) yöntemi olan Uzun-Kısa Vadeli Bellek (LSTM) algoritması, çeşitli hiper-parametre optimizasyon yöntemleri de denenerek, verileri sınıflandırmak için kullanılmıştır. Son olarak problem, eldeki mesajcı RNA, ilgili mikro RNA için bir hedef bağlanma bölgesi midir yoksa değil midir şeklinde ikili bir sınıflandırma problemine dönüştürülmüştür.

Tez çalışmasında, 2 adet veri seti kullanılmıştır. İlk veri seti, diğerine nazaran daha az örneklem içermekte, dolayısıyla boyutu daha küçüktür. Klasik makine öğrenimi yöntemlerinden Destek Vektör Makineleri (Support Vector Machines), Karar Ağaçları (Decision Trees), k-En Yakın Komşuluk Algoritması (kNN), Rassal Orman (Random Forest) ve bu çalışmada kullanılan LSTM modeli, her iki veri seti için birer sınıflandırma yöntemi olarak kullanılmış ve çıkan sonuçlar çeşitli başarım metriklerine göre deneysel olarak birbirleriyle karşılaştırılmıştır.

Aşağıdaki tabloda DS1 olarak kastedilen: küçük boyutlu olan ilk veri setidir. M1, ... M34 ile kastedilen ise birbirinden farklı yöntemlerdir. Sırasıyla, DS1_M1: LSTM, DS1_M31: Support Vector Machines, DS1_M32: Decision Trees, DS1_M33: kNN, DS1_M34: Random Forest, Oğul et al. da ise stokastik bir yöntem olan Markov Zinciri yöntemi kullanılmıştır. Başarım metrikleri ise sırasıyla ACC: Doğruluk, TPR: Gerçek Pozitif Oranı, TNR: Gerçek Negatif Oranı, F1: F1 Skoru, AUC: ROC eğrisinin altında kalan alandır.

Küçük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri ve Derin Öğrenme Tabanlı LSTM Yönteminin, Bazı Başarım Metriklerine Göre Karşılaştırılması

Tablodaki sonuçlara göre, tez çalışmasında önerilen model, klasik makine öğrenimi algoritmalarına göre bazı yönlerden iyi sonuçlar verirken bazı yönlerden zayıf sonuçlar vermiştir.

Aşağıdaki tabloda DS2 olarak kastedilen: büyük boyutlu ikinci veri setidir. Sırasıyla, DS2_M5: LSTM, DS1_M32: Support Vector Machines, DS1_M33: Decision Trees, DS1_M34: kNN, DS1_M35: Random Forest, DeepMirTar: Stacked de-noising Auto Encoder, TargetScan: Lineer Regresyon, TarPmiR: Rassal Orman algoritmaları kullanılmıştır.

Büyük Boyutlu Bir Veriseti Üzerinde Klasik Makine Öğrenimi Yöntemleri, Derin Öğrenme Tabanlı LSTM Yöntemi, ve Literatürdeki Aynı Veriseti Üzerindeki Diğer Çalışmaların Bazı Başarım Metriklerine Göre Karşılaştırılması

Yukarıdaki tablodan çıkan sonuçlara göre, önerilen LSTM modeli, DeepMirTar yöntemi hariç, diğer yöntemlerden çoğu metrik açısından daha başarılı sonuçlar vermiştir. Buradan ise bir Derin Öğrenme yöntemi olan LSTM'in, klasik makine öğrenmesi yöntemlerine göre karmaşık biyolojik dizilimlerden oluşan ve büyük boyutlu veri setlerinde daha başarılı sonuçlar verdiği gözlemlenmiştir. DeepMirTar yönteminin daha başarılı olmasının sebepleri ise güçlü bir hiperparametre optimizasyon yöntemi kullanılması, daha karmaşık bir yapay sinir ağı modeli ve öğrenme algoritması için gereken girdi temsillerinin daha iyi ifade edilmiş olması sonuçları çıkarılmıştır.

Çalışma sonucunda, Derin Öğrenme tabanlı LSTM algoritması, makine öğrenimi yöntemlerine göre genel olarak daha iyi sonuçlar verdiği gözlemlenmiştir. LSTM modeli yapısı itibariyle sinir ağındaki bir önceki girdileri hatırlama, unutma gibi bir hafıza mekanizmasına kayderek öğrenme işlemini gerçekleştirilmesiyle bilinir. Tartışılan biyolojik problemdeki sekanslar birbirinden farklı harfler içermekte ve uzunlukları birbirinden farklı olduğu için LSTM modeli genel olarak anlamlı sonuçlar vermiştir.

Evrim Ağacı, sizlerin sayesinde bağımsız bir bilim iletişim platformu olmaya devam edecek!

Evrim Ağacı'nda tek bir hedefimiz var: Bilimsel gerçekleri en doğru, tarafsız ve kolay anlaşılır şekilde Türkiye'ye ulaştırmak. Ancak tahmin edebileceğiniz gibi Türkiye'de bilim anlatmak hiç kolay bir iş değil; hele ki bir yandan ekonomik bir hayatta kalma mücadelesi verirken...

O nedenle sizin desteklerinize ihtiyacımız var. Eğer yazılarımızı okuyanların %1'i bize bütçesinin elverdiği kadar destek olmayı seçseydi, bir daha tek bir reklam göstermeden Evrim Ağacı'nın bütün bilim iletişimi faaliyetlerini sürdürebilirdik. Bir düşünün: sadece %1'i...

O %1'i inşa etmemize yardım eder misiniz? Evrim Ağacı Premium üyesi olarak, ekibimizin size ve Türkiye'ye bilimi daha etkili ve profesyonel bir şekilde ulaştırmamızı mümkün kılmış olacaksınız. Ayrıca size olan minnetimizin bir ifadesi olarak, çok sayıda ayrıcalığa erişim sağlayacaksınız.

Avantajlarımız

"Maddi Destekçi" Rozeti

Reklamsız Deneyim

%10 Daha Fazla UP Kazanımı

Özel İçeriklere Erişim

+5 Quiz Oluşturma Hakkı

Özel Profil Görünümü

+1 İçerik Boostlama Hakkı

ve Daha Fazlası İçin...

Aylık

Tek Sefer

₺50/Aylık

₺100/Aylık

₺150/Aylık

₺250/Aylık

₺500/Aylık

Destek Ol

₺50/Aylık

Bu Makaleyi Alıntıla

Okundu Olarak İşaretle

Paylaş

Sonra Oku

Notlarım

Yazdır / PDF Olarak Kaydet

Bize Ulaş

Yukarı Zıpla

Önceki Yazı Sonraki Yazı

Makalelerimizin bilimsel gerçekleri doğru bir şekilde yansıtması için en üst düzey çabayı gösteriyoruz. Gözünüze doğru gelmeyen bir şey varsa, mümkünse güvenilir kaynaklarınızla birlikte bize ulaşın!

Bu makalemizle ilgili merak ettiğin bir şey mi var? Buraya tıklayarak sorabilirsin.

Soru & Cevap Platformuna Git

Bu Makale Sana Ne Hissettirdi?

Kaynaklar ve İleri Okuma

A. Paker, et al. (2019). Mirlstm: A Deep Sequential Approach To Microrna Target Binding Site Prediction. Communications in Computer and Information Science book series (CCIS, volume 1062), sf: 38-44. | Arşiv Bağlantısı
A. Dikmen. Bilgisayarlı Biyoloji: Biyoinformatik. (24 Mayıs 2020). Alındığı Tarih: 24 Mayıs 2020. Alındığı Yer: biomedya | Arşiv Bağlantısı
Y. LeCun, et al. (2015). Deep Learning. Nature, sf: 436-444. | Arşiv Bağlantısı
I. Goodfellow, et al. (2016). Deep Learning. ISBN: 9780262035613. Yayınevi: MIT Press.
D. P. Bartel, et al. (2004). Micrornas: Genomics, Biogenesis, Mechanism And Function. Cell, sf: 281-297. | Arşiv Bağlantısı

Evrim Ağacı'na her ay sadece 1 kahve ısmarlayarak destek olmak ister misiniz?

Şu iki siteden birini kullanarak şimdi destek olabilirsiniz:

kreosus.com/evrimagaci | patreon.com/evrimagaci

Çıktı Bilgisi: Bu sayfa, Evrim Ağacı yazdırma aracı kullanılarak 26/07/2026 11:26:02 tarihinde oluşturulmuştur. Evrim Ağacı'ndaki içeriklerin tamamı, birden fazla editör tarafından, durmaksızın elden geçirilmekte, güncellenmekte ve geliştirilmektedir. Dolayısıyla bu çıktının alındığı tarihten sonra yapılan güncellemeleri görmek ve bu içeriğin en güncel halini okumak için lütfen şu adrese gidiniz: https://evrimagaci.org/s/8766

İçerik Kullanım İzinleri: Evrim Ağacı'ndaki yazılı içerikler orijinallerine hiçbir şekilde dokunulmadığı müddetçe izin alınmaksızın paylaşılabilir, kopyalanabilir, yapıştırılabilir, çoğaltılabilir, basılabilir, dağıtılabilir, yayılabilir, alıntılanabilir. Ancak bu içeriklerin hiçbiri izin alınmaksızın değiştirilemez ve değiştirilmiş halleri Evrim Ağacı'na aitmiş gibi sunulamaz. Benzer şekilde, içeriklerin hiçbiri, söz konusu içeriğin açıkça belirtilmiş yazarlarından ve Evrim Ağacı'ndan başkasına aitmiş gibi sunulamaz. Bu sayfa izin alınmaksızın düzenlenemez, Evrim Ağacı logosu, yazar/editör bilgileri ve içeriğin diğer kısımları izin alınmaksızın değiştirilemez veya kaldırılamaz.

Kategoriler ve Etiketler

Tümünü Göster

Biyolojik Dizilimler ve Derin Öğrenme: Biyolojik Veri Setleri, Yapay Zeka Araştırmalarında Nasıl Kullanılır?

Bu Makalede Neler Öğreneceksiniz?

Derin Öğrenme Nedir?

Biyoenformatik ve Güncel Biyolojik Problemler

Hangi Derin Öğrenme Yöntemi Kullanılmalı?

Bize Ulaşın