दूसरा चरण: अपने डेटा के बारे में जानना

मॉडल को बनाना और ट्रेनिंग देना, वर्कफ़्लो का सिर्फ़ एक हिस्सा है. अपने डेटा की विशेषताओं को पहले से ही समझने से, आप एक बेहतर मॉडल बना पाएंगे. इसका मतलब सिर्फ़ ज़्यादा सटीक नतीजे पाना हो सकता है. इसका मतलब यह हो सकता है कि ट्रेनिंग के लिए कम डेटा या कम कंप्यूटेशनल संसाधनों की ज़रूरत होती है.

डेटासेट लोड करना

सबसे पहले, डेटासेट को Python में लोड करते हैं.

def load_imdb_sentiment_analysis_dataset(data_path, seed=123):
    """Loads the IMDb movie reviews sentiment analysis dataset.

    # Arguments
        data_path: string, path to the data directory.
        seed: int, seed for randomizer.

    # Returns
        A tuple of training and validation data.
        Number of training samples: 25000
        Number of test samples: 25000
        Number of categories: 2 (0 - negative, 1 - positive)

    # References
        Mass et al., http://www.aclweb.org/anthology/P11-1015

        Download and uncompress archive from:
        http://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz
    """
    imdb_data_path = os.path.join(data_path, 'aclImdb')

    # Load the training data
    train_texts = []
    train_labels = []
    for category in ['pos', 'neg']:
        train_path = os.path.join(imdb_data_path, 'train', category)
        for fname in sorted(os.listdir(train_path)):
            if fname.endswith('.txt'):
                with open(os.path.join(train_path, fname)) as f:
                    train_texts.append(f.read())
                train_labels.append(0 if category == 'neg' else 1)

    # Load the validation data.
    test_texts = []
    test_labels = []
    for category in ['pos', 'neg']:
        test_path = os.path.join(imdb_data_path, 'test', category)
        for fname in sorted(os.listdir(test_path)):
            if fname.endswith('.txt'):
                with open(os.path.join(test_path, fname)) as f:
                    test_texts.append(f.read())
                test_labels.append(0 if category == 'neg' else 1)

    # Shuffle the training data and labels.
    random.seed(seed)
    random.shuffle(train_texts)
    random.seed(seed)
    random.shuffle(train_labels)

    return ((train_texts, np.array(train_labels)),
            (test_texts, np.array(test_labels)))

डेटा की जांच करें

डेटा लोड करने के बाद, इसकी कुछ जांच करना बेहतर होगा: कुछ नमूने चुनें और मैन्युअल रूप से देखें कि वे आपकी उम्मीदों के मुताबिक हैं या नहीं. उदाहरण के लिए, कुछ रैंडम सैंपल प्रिंट करें और देखें कि राय का लेबल, समीक्षा की भावना से मेल खाता है या नहीं. यहां एक समीक्षा दी गई है जिसे हमने IMDb डेटासेट से बिना किसी क्रम के चुना है: “दस मिनट की स्टोरी को दो घंटों तक बेहतर तरीके से दिखाया गया. जब हाफ़पॉइंट पर कोई खास असर नहीं हुआ था, तब मुझे उम्मीद थी कि भावना (नेगेटिव), सैंपल के लेबल से मेल खाएगी.

मुख्य मेट्रिक इकट्ठा करें

डेटा की पुष्टि करने के बाद, ये ज़रूरी मेट्रिक इकट्ठा करें. इनकी मदद से, टेक्स्ट की कैटगरी तय करने में समस्या आती है:

  1. सैंपल की संख्या: डेटा में आपके पास मौजूद उदाहरणों की कुल संख्या.

  2. कक्षाओं की संख्या: डेटा में विषयों या कैटगरी की कुल संख्या.

  3. हर क्लास के सैंपल की संख्या: हर क्लास के सैंपल की संख्या (विषय/कैटगरी). संतुलित डेटासेट में, सभी कक्षाओं के पास नमूनों की संख्या समान होगी; एक असंतुलित डेटासेट में, हर श्रेणी में नमूनों की संख्या व्यापक रूप से अलग होगी.

  4. हर सैंपल के लिए शब्दों की संख्या: एक सैंपल में शब्दों की मीडियन संख्या.

  5. शब्द का फ़्रीक्वेंसी डिस्ट्रिब्यूशन: डेटासेट में हर शब्द की फ़्रीक्वेंसी (बार-बार होने की संख्या) दिखाने वाला डिस्ट्रिब्यूशन.

  6. सैंपल लंबाई का डिस्ट्रिब्यूशन: डेटासेट में हर सैंपल से जुड़े शब्दों की संख्या दिखाने वाला डिस्ट्रिब्यूशन.

देखें कि IMDb के समीक्षा डेटासेट के लिए, इन मेट्रिक की वैल्यू क्या है (शब्द-फ़्रीक्वेंसी और सैंपल-लंबाई डिस्ट्रिब्यूशन के लिए प्लॉट 3 और 4 देखें).

मेट्रिक का नाम मीट्रिक मान
सैंपल की संख्या 25000
कक्षाओं की संख्या 2
हर कक्षा के सैंपल की संख्या 12500
प्रति नमूना शब्दों की संख्या 174

टेबल 1: IMDb समीक्षा डेटासेट मेट्रिक

explore_data.py इसमें इन मेट्रिक का हिसाब लगाने और उनका विश्लेषण करने के लिए फ़ंक्शन शामिल होते हैं. यहां कुछ उदाहरण दिए गए हैं:

import numpy as np
import matplotlib.pyplot as plt

def get_num_words_per_sample(sample_texts):
    """Returns the median number of words per sample given corpus.

    # Arguments
        sample_texts: list, sample texts.

    # Returns
        int, median number of words per sample.
    """
    num_words = [len(s.split()) for s in sample_texts]
    return np.median(num_words)

def plot_sample_length_distribution(sample_texts):
    """Plots the sample length distribution.

    # Arguments
        samples_texts: list, sample texts.
    """
    plt.hist([len(s) for s in sample_texts], 50)
    plt.xlabel('Length of a sample')
    plt.ylabel('Number of samples')
    plt.title('Sample length distribution')
    plt.show()

IMDb के लिए शब्दों की फ़्रीक्वेंसी का बंटवारा

तीसरा डायग्राम: IMDb के लिए, शब्दों का फ़्रीक्वेंसी डिस्ट्रिब्यूशन

IMDb के लिए नमूने की लंबाई का वितरण

चित्र 4: IMDb के लिए नमूने की लंबाई का वितरण