Veri ön işleme - Data pre-processing
Veri ön işleme , performansı sağlamak veya geliştirmek için kullanılmadan önce verilerin değiştirilmesi veya bırakılması anlamına gelebilir ve veri madenciliği sürecinde önemli bir adımdır . İfade "dışarı çöp, çöp" özellikle uygulanabilmektedir veri madenciliği ve makine öğrenme projelerine. Veri toplama yöntemleri genellikle gevşek bir şekilde kontrol edilir, bu da aralık dışı değerler (örneğin, Gelir: -100), imkansız veri kombinasyonları (örneğin, Cinsiyet: Erkek, Hamile: Evet) ve eksik değerler vb. ile sonuçlanır. Bu tür sorunlar için dikkatli bir şekilde taranmamışsa yanıltıcı sonuçlar doğurabilir. Bu nedenle, herhangi bir analiz yapmadan önce verilerin temsili ve kalitesi her şeyden önce gelir. Genellikle, veri ön işleme , özellikle hesaplamalı biyolojide , bir makine öğrenimi projesinin en önemli aşamasıdır .
Çok fazla alakasız ve gereksiz bilgi varsa veya gürültülü ve güvenilmez veriler varsa, eğitim aşamasında bilgi keşfi daha zordur. Veri hazırlama ve filtreleme adımları, önemli miktarda işlem süresi gerektirebilir. Veri ön işleme örnekleri arasında temizleme , örnek seçimi , normalleştirme , bir sıcak kodlama , dönüştürme , özellik çıkarma ve seçimi vb. bulunur. Veri ön işlemenin ürünü, son eğitim setidir .
Veri ön işleme, nihai veri işlemenin sonuçlarının yorumlanma şeklini etkileyebilir. Bu husus, kimyasal verilerin çok değişkenli işlenmesinde ( kemometri ) olduğu gibi, sonuçların yorumlanması kilit bir nokta olduğunda dikkatli bir şekilde düşünülmelidir .
Veri ön işleme görevleri
Örnek
Bu örnekte, veri setimizde Erkek veya Kadın Cinsiyeti olan ve hamile olup olmadıklarına dair 5 Yetişkin bulunmaktadır. Yetişkin 3 ve 5'in imkansız veri kombinasyonları olduğunu tespit edebiliriz.
|
|||||||||||||||||||||||
Bir Veri temizliği gerçekleştirebilir ve bu tür verileri tablomuzdan silmeyi seçebiliriz. Bu tür verileri kaldırıyoruz çünkü veri kümesinde bulunan bu tür verilerin kullanıcı giriş hatalarından veya veri bozulmasından kaynaklandığını belirleyebiliyoruz. Bu tür verilerin silinmesinin bir nedeni, imkansız verilerin veri madenciliği sürecinin sonraki adımlarında hesaplama veya veri işleme sürecini etkilemesidir.
|
|||||||||||||||||
Yetişkinin Hamile olduğunu bilerek bir Veri düzenlemesi yapabilir ve Yetişkinin Cinsiyetini değiştirebiliriz, Yetişkinin Kadın olduğu varsayımını yapabilir ve buna göre değişiklikler yapabiliriz. Veri madenciliği sürecinin sonraki adımlarında veri manipülasyonu gerçekleştirirken verilerin daha net bir analizine sahip olmak için veri setini düzenleriz.
|
|||||||||||||||||||||||
Bir Veri azaltma biçimi kullanabilir ve verileri Cinsiyete göre sıralayabiliriz ve bunu yaparak veri setimizi basitleştirebilir ve hangi Cinsiyete daha fazla odaklanmak istediğimizi seçebiliriz.
|
|||||||||||||||||||||||
Veri madenciliği
Veri ön işlemenin kökenleri veri madenciliğinde bulunur . Buradaki fikir, mevcut bilgileri toplamak ve içerikte arama yapmaktır. Daha sonra, makine öğrenimi ve sinir ağları için bir veri ön işleme adımına da ihtiyaç olduğu anlaşıldı. Böylece genel olarak hesaplamada kullanılan evrensel bir teknik haline geldi.
Veri ön işleme, veri temizleme kullanımı ile istenmeyen verilerin kaldırılmasına izin verir, bu, kullanıcının veri madenciliği sürecinde daha sonra veri işleme için ön işleme aşamasından sonra daha değerli bilgiler içerecek bir veri kümesine sahip olmasını sağlar. Bu tür veri kümesini veri bozulmasını veya insan hatasını düzeltmek için düzenlemek, tıbbi teşhis için yaygın olarak kullanılan bir Karmaşa matrisinde bulunan gerçek pozitifler, gerçek negatifler, Yanlış pozitifler ve yanlış negatifler gibi doğru niceleyicileri elde etmek için çok önemli bir adımdır . Kullanıcılar, veri dosyalarını bir araya getirebilir ve daha yüksek doğruluk sağlayan verilerdeki gereksiz gürültüleri filtrelemek için ön işlemeyi kullanabilir. Kullanıcılar, onlara virgülle ayrılmış değerlerden veri çerçevesi olarak veri alma yeteneği veren pandas kitaplığıyla birlikte Python programlama komut dosyaları kullanır . Veri çerçevesi daha sonra, aksi takdirde Excel'de yapılması zor olabilecek verileri işlemek için kullanılır. veri analizi ve manipülasyonuna izin veren güçlü bir araç olan pandalar (yazılım) ; bu da veri görselleştirmelerini, istatistiksel işlemleri ve çok daha fazlasını çok daha kolay hale getirir. Birçoğu da bu tür görevleri yapmak için R'yi (programlama dili) kullanır.
Bir kullanıcının mevcut dosyaları yenisine dönüştürmesinin nedeni birçok nedenden kaynaklanmaktadır. Veri ön işleme, eksik değerleri ekleme, bilgileri toplama, verileri kategorilerle etiketleme ( Veri gruplandırma ) ve bir yörüngeyi yumuşatma amacına sahiptir . Temel bileşen analizi ve özellik seçimi gibi daha gelişmiş teknikler , istatistiksel formüllerle çalışmakta ve GPS izleyicileri ve hareket yakalama cihazları tarafından kaydedilen karmaşık veri kümelerine uygulanmaktadır.
Semantik veri ön işleme
Karmaşık problemler, mevcut bilgilerin daha ayrıntılı analiz tekniklerini istiyor. Farklı sayısal değerleri tek bir değerde toplamak için basit bir komut dosyası oluşturmak yerine, anlamsal tabanlı veri ön işlemeye odaklanmak mantıklıdır. Sorunun ne hakkında olduğunu daha yüksek bir düzeyde açıklayan özel bir ontoloji oluşturma fikri burada . Protégé (yazılım) bu amaç için standart bir araçtır. Daha gelişmiş ikinci bir teknik ise Fuzzy ön işlemedir . İşte sayısal değerleri dilsel bilgilerle temellendirme fikri. Ham veriler doğal dile dönüştürülür .