Bir "spider" yani web tarayıcı yazılımına sahip olmanız gerekiyor. Spider, internet üzerindeki sayfaları otomatik olarak tarayarak ilgili verileri toplayan bir araçtır ve bu sayede geniş bir bilgi havuzunu kısa sürede analiz edebilir (işlemci gücünüze bağlı olarak). Ayrıca bu Spider'ı yazmanız ya da yazdırtmanız gerekiyor. İnternette ücretli ücretsiz versiyonlar var, hiçbirini tavsiye etmiyorum güvenilirlikleri yoktur. Ayrıca öyle çok derin bir taramayı yapması için çok büyük paralar harcamanız gerekir. Kimisi var PDF okuyamaz kimisi var font okuyamaz gibi gibi.
Ancak spider kullanımı teknik bilgi gerektiriyor ve hedef alınan web sitelerinin kullanım şartlarına uygun olması gerekiyor yani web scrapping yapmaya; aksi takdirde yasal sorunlarla karşılaşabilirsiniz. Tabii izinizi de iyi kapatan bir siber güvenlik uzmanıysanız ya da öyle bir tanıdığınız varsa orası ayrı 😅
Daha genel bir çözüm içinse bu tür verileri kategorize eden ve erişime sunan hazır platformları veya veri tabanlarını tercih edebilirsiniz. Onlar da Kaggle Datasets, Microsoft Lists, OpenStax, European Union Open Data Portal, Library of Congress Subject Headings, Universal Decimal Classification gibi gibi.[1] Tabii bunlar için de ingilizce gerekiyor, biliyorsanız istediğinizi eğer çok spesifik bir şey değilse bulabilirsiniz diye düşünüyorum.
Kaynaklar
- Kaggle. Find Open Datasets And Machine Learning Projects | Kaggle. Alındığı Tarih: 16 Kasım 2024. Alındığı Yer: Kaggle | Arşiv Bağlantısı