Merhaba,
Ses işleme alanının dışında kelime işleme alanını kullanarak yapmış olduğum tez(Static Malware Detection Using RNN on Portable Executables) ve makine öğrenimi alanındaki tecrübelerim ile bunu size özetlemeye çalışacağım.
Bir yapay zekanın istenileni bulabilmesi için önce onu tanıyor olması gerekir. Tam da bu noktada makine öğrenimi kavramı ortaya çıkar. İşte bu nedenle, bir makinenin önce istenileni öğrenmesi onu tanıması gerekir ancak bu tanıma işlemini bilgisayar sistemleri, bizdeki tanıma işlemlerini gerçekleştiren dokunma, görme, koklama vd. gibi fonksiyonlarımız yerine kendisinin duyu organları olan Binary (İkilik Sistem) ile yapar. Nasıl mı? Hemen örnek verelim;
Örnek verecek olursak arabaya bindiğinizi ve sesinizi tanıtmak istediğinizi düşünün. Tuşa bastınız ve size "Merhaba" kelimesini söylemenizi istedi. Merhaba dediğinizde bu sesin öncelikle frekansını, dalga boyunu ve var ise başka bir çok parametresini kelime işleme mimarilerinde olduğu gibi vektörler haline dönüştürür. Bunları 0 ve 1'ler halinde üzerinde bulunduğu bilgisayarda bir veri setine aktarır. Bu makine öğrenimi kısmıdır, bir kaç farklı kelime "Merhaba", "Günaydın", "Bu gün hava nasıl?" gibi birden çok kelime kullanılmasının temel nedeni, sapmaları ve gürültü oranını ortaya çıkarmaktır. Sapma ve Gürültü nedir bundan bahsedelim; Sapma ve Gürültü basit tabirle 20 kez "Günaydın" dediğinizde her birinin birbirinden farklı olması sapma, her birinin anlaşılabilirlik oranı ise Gürültü olarak adledilebilir. Bu oranın belirlenmesinin nedeni ise siz arabaya binerek "Merhaba" dediğinizde gürültü ve sapma değeri olmaz ise, yapay zeka ilk kayıttaki söylediğinizin %100 aynısını söylemenizi ve sesinizin aynı frekans ve dalga boyuna var ise diğer parametlere sahip olmasını bekleyecektir. İşte bu yüzden yapay zeka, sapma ve gürültü oranlarını da ekleyerek bir kaç farklı kelimeden sesinizin 0 ve 1'lerini oluşturur.
Sonrası mı? Sonrası çok basit. Bir sonraki arabaya binişinizde Merhaba dediğinizde yapay zeka, gelen sesin frekans, dalga boyu ve var ise diğer parametrelerine bakar ve mevcuttaki veri setinde bulunan 0 ve 1'ler ile uyuyor ve sapma ve gürültü oranları ile uyumlu ise "Geldi yine bizim homosapiens diyerek" sesinizi tanımış olur.
Umarım basit bir dille anlatabilmişimdir, detaylı metot, teknik ve yöntemlere ihtiyacınız olur ise;
Word2Vec, LSTM, RNN, Word Embedding; CBOW, Skip-Gram kelimelerini araştırabilirsiniz ya da iletişime geçerek yaptığım tezin detaylarını görebileceğiniz sunuma ulaşmanızı sağlayabilirim.
İyi çalışmalar dilerim.
Kaynaklar
- Kanishka Rao, Has¸im Sak, Rohit Prabhavalkar, et al. (2021). Exploring Architectures, Data And Units For Streaming End-To-End Speech Recognition With Rnn-Transducer. IEEE. | Arşiv Bağlantısı