1. Adım: Veri Toplama
Koleksiyonlar ile düzeninizi koruyun
İçeriği tercihlerinize göre kaydedin ve kategorilere ayırın.
Gözetimli makine öğrenimi problemlerini çözmenin en önemli adımı veri toplamaktır. Metin sınıflandırıcınızın performansı, yalnızca oluşturulduğu veri kümesi kadar iyi olabilir.
Çözmek istediğiniz belirli bir sorununuz yoksa ve yalnızca genel olarak metin sınıflandırmasını incelemek istiyorsanız kullanabileceğiniz çok sayıda açık kaynak veri kümesi vardır. Bunlardan bazılarının bağlantılarını GitHub depomuzda bulabilirsiniz.
Öte yandan, belirli bir sorunla mücadele ediyorsanız
gerekli verileri toplamanız gerekir. Birçok kuruluş, verilerine erişmek için herkese açık API'ler sağlar. Örneğin, X API veya NY Times API. Çözmeye çalıştığınız sorun için bu
API'lerden yararlanabilirsiniz.
Veri toplarken unutulmaması gereken bazı önemli noktalar şunlardır:
- Herkese açık bir API kullanıyorsanız bunları kullanmadan önce API'nin sınırlamalarını öğrenin. Örneğin, bazı API'ler sorgu yapma hızınızı sınırlandırmıştır.
- Ne kadar fazla eğitim örneği (bu kılavuzun geri kalanında örnekler olarak anılır) o kadar iyi olur. Bu, modelinizin daha iyi genelleştirilmesine yardımcı olur.
- Her sınıf veya konu için örnek sayısının aşırı dengesiz olmadığından emin olun. Yani her sınıfta benzer sayıda örneklem olmalıdır.
- Örneklerinizin yalnızca yaygın durumları değil, olası girişler alanını yeterince kapsadığından emin olun.
Bu kılavuzda, iş akışını göstermek için İnternet Film Veritabanı (IMDb) film incelemeleri veri kümesini kullanacağız. Bu veri kümesinde, IMDb web sitesindeki kişilerin yayınladığı film yorumlarının yanı sıra yorumcunun filmi beğenip beğenmediğini belirten uygun etiketler ("olumlu" veya "olumsuz") yer alır. Bu, yaklaşım analizi problemlerinin
klasik bir örneğidir.
Aksi belirtilmediği sürece bu sayfanın içeriği Creative Commons Atıf 4.0 Lisansı altında ve kod örnekleri Apache 2.0 Lisansı altında lisanslanmıştır. Ayrıntılı bilgi için Google Developers Site Politikaları'na göz atın. Java, Oracle ve/veya satış ortaklarının tescilli ticari markasıdır.
Son güncelleme tarihi: 2024-06-25 UTC.
[[["Anlaması kolay","easyToUnderstand","thumb-up"],["Sorunumu çözdü","solvedMyProblem","thumb-up"],["Diğer","otherUp","thumb-up"]],[["İhtiyacım olan bilgiler yok","missingTheInformationINeed","thumb-down"],["Çok karmaşık / çok fazla adım var","tooComplicatedTooManySteps","thumb-down"],["Güncel değil","outOfDate","thumb-down"],["Çeviri sorunu","translationIssue","thumb-down"],["Örnek veya kod sorunu","samplesCodeIssue","thumb-down"],["Diğer","otherDown","thumb-down"]],["Son güncelleme tarihi: 2024-06-25 UTC."],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]