مرحله 1: جمع آوری داده ها
با مجموعهها، منظم بمانید
ذخیره و طبقهبندی محتوا براساس اولویتهای شما.
جمع آوری داده ها مهم ترین گام در حل هر مشکل یادگیری ماشینی تحت نظارت است. طبقه بندی کننده متن شما فقط می تواند به اندازه مجموعه داده ای باشد که از آن ساخته شده است.
اگر مشکل خاصی ندارید که می خواهید حل کنید و فقط به کاوش در طبقه بندی متن به طور کلی علاقه دارید، مجموعه داده های منبع باز زیادی در دسترس هستند. می توانید پیوندهای برخی از آنها را در مخزن GitHub ما بیابید. از سوی دیگر، اگر با مشکل خاصی مقابله می کنید، باید داده های لازم را جمع آوری کنید. بسیاری از سازمانها APIهای عمومی را برای دسترسی به دادههای خود ارائه میکنند - به عنوان مثال، X API یا NY Times API . ممکن است بتوانید از این APIها برای مشکلی که میخواهید حل کنید استفاده کنید.
در اینجا موارد مهمی وجود دارد که باید هنگام جمع آوری داده ها به خاطر بسپارید:
- اگر از یک API عمومی استفاده میکنید، قبل از استفاده از آنها، محدودیتهای API را درک کنید. به عنوان مثال، برخی از API ها محدودیتی را برای سرعتی که می توانید پرس و جو کنید تعیین می کنند.
- هرچه نمونه های آموزشی بیشتری داشته باشید (که در ادامه این راهنما به آن ها اشاره می شود) بهتر است. این به تعمیم بهتر مدل شما کمک می کند.
- مطمئن شوید که تعداد نمونه ها برای هر کلاس یا موضوع بیش از حد نامتعادل نباشد. یعنی باید تعداد نمونه های قابل مقایسه در هر کلاس داشته باشید.
- اطمینان حاصل کنید که نمونه های شما به اندازه کافی فضای ورودی های ممکن را پوشش می دهند، نه تنها موارد رایج.
در سراسر این راهنما، ما از مجموعه دادههای مرور فیلم پایگاه داده اینترنتی فیلم (IMDb) برای نشان دادن گردش کار استفاده خواهیم کرد. این مجموعه داده شامل نقدهای فیلم ارسال شده توسط افراد در وبسایت IMDb و همچنین برچسبهای مربوطه ("مثبت" یا "منفی") است که نشان میدهد منتقد فیلم را دوست داشته یا نه. این یک مثال کلاسیک از یک مشکل تحلیل احساسات است.
جز در مواردی که غیر از این ذکر شده باشد،محتوای این صفحه تحت مجوز Creative Commons Attribution 4.0 License است. نمونه کدها نیز دارای مجوز Apache 2.0 License است. برای اطلاع از جزئیات، به خطمشیهای سایت Google Developers مراجعه کنید. جاوا علامت تجاری ثبتشده Oracle و/یا شرکتهای وابسته به آن است.
تاریخ آخرین بهروزرسانی 2024-10-26 بهوقت ساعت هماهنگ جهانی.
[[["درک آسان","easyToUnderstand","thumb-up"],["مشکلم را برطرف کرد","solvedMyProblem","thumb-up"],["غیره","otherUp","thumb-up"]],[["اطلاعاتی که نیاز دارم وجود ندارد","missingTheInformationINeed","thumb-down"],["بیشازحد پیچیده/ مراحل بسیار زیاد","tooComplicatedTooManySteps","thumb-down"],["قدیمی","outOfDate","thumb-down"],["مشکل ترجمه","translationIssue","thumb-down"],["مشکل کد / نمونهها","samplesCodeIssue","thumb-down"],["غیره","otherDown","thumb-down"]],["تاریخ آخرین بهروزرسانی 2024-10-26 بهوقت ساعت هماهنگ جهانی."],[[["High-quality data is crucial for building effective supervised machine learning text classifiers, with more training samples generally leading to better performance."],["Public APIs and open-source datasets can be leveraged for data collection, but it's important to understand API limitations and ensure data balance across classes."],["Adequate data representation across all possible input variations is necessary, and the IMDb movie reviews dataset will be used to demonstrate text classification workflow for sentiment analysis."],["When collecting data, aim for a balanced dataset with a sufficient number of samples for each class to avoid imbalanced datasets and promote better model generalization."]]],[]]