Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Makine öğrenimi modelleri yalnızca kayan nokta değerleriyle eğitilebilir.
Ancak birçok veri kümesi özelliği doğal olarak kayan noktalı değerler değildir.
Bu nedenle, makine öğreniminin önemli bir parçası, kayan nokta olmayan özellikleri kayan nokta gösterimlerine dönüştürmektir.
Örneğin, street names bir özelliktir. Çoğu sokak adı, "Broadway" veya "Vilakazi" gibi bir dizedir.
Modeliniz "Broadway" üzerinde eğitilemez. Bu nedenle, "Broadway"yi kayan noktalı bir sayıya dönüştürmeniz gerekir. Kategorik Veriler modülünde bunun nasıl yapılacağı açıklanmaktadır.
Ayrıca, çoğu kayan nokta özelliğini de dönüştürmeniz gerekir.
Normalleştirme olarak adlandırılan bu dönüşüm işlemi, kayan noktalı sayıları model eğitimini iyileştiren sınırlı bir aralığa dönüştürür.
Sayısal Veriler modülünde bunun nasıl yapılacağı açıklanmaktadır.
Çok fazla veriniz olduğunda verileri örnekleme
Bazı kuruluşlar çok fazla veriye sahiptir.
Veri kümesi çok fazla örnek içeriyorsa eğitim için örneklerin bir alt kümesini seçmeniz gerekir. Mümkün olduğunda, modelinizin tahminleriyle en alakalı alt kümeyi seçin.
Kimliği tanımlayabilecek bilgiler içeren filtre örnekleri
İyi veri kümelerinde kimliği tanımlayabilecek bilgiler (PII) içeren örnekler atlanır. Bu politika, gizliliğin korunmasına yardımcı olur ancak modeli etkileyebilir.
Bu konular hakkında daha fazla bilgi için kursun ilerleyen bölümlerindeki Güvenlik ve Gizlilik modülüne göz atın.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],["Son güncelleme tarihi: 2024-11-14 UTC."],[[["Machine learning models require all data, including features like street names, to be transformed into numerical (floating-point) representations for training."],["Normalization is crucial for optimizing model training by converting existing floating-point features to a specific range."],["When dealing with large datasets, selecting a relevant subset of data for training is essential for model performance."],["Protecting user privacy by excluding Personally Identifiable Information (PII) from datasets is a critical consideration."]]],[]]