หน้านี้ได้รับการแปลโดย Cloud Translation API

ขั้นตอนที่ 1: รวบรวมข้อมูล

การรวบรวมข้อมูลเป็นขั้นตอนที่สําคัญที่สุดในการแก้ปัญหาแมชชีนเลิร์นนิง ภายใต้การควบคุมดูแล ตัวแยกประเภทข้อความจะใช้ได้ดีเท่ากับชุดข้อมูลที่สร้างขึ้นเท่านั้น

หากคุณไม่มีปัญหาที่เจาะจงที่ต้องการแก้ไขและเพียงอยากลองใช้การสํารวจ การจัดประเภทข้อความโดยทั่วไป ก็จะมีชุดข้อมูลโอเพนซอร์สมากมาย คุณสามารถดูลิงก์ไปยังลิงก์บางส่วนได้ในที่เก็บของ GitHub ในทางกลับกัน หากคุณกําลังแก้ปัญหาบางอย่างอยู่ คุณจะต้องรวบรวมข้อมูลที่จําเป็น องค์กรจํานวนมากมี API สาธารณะสําหรับการเข้าถึงข้อมูล เช่น Twitter API หรือ NY Times API คุณอาจใช้ประโยชน์ของปัญหา ที่กําลังพยายามแก้ไขอยู่ได้

สิ่งสําคัญที่ควรทราบเมื่อรวบรวมข้อมูล

หากคุณกําลังใช้ API สาธารณะ โปรดทําความเข้าใจข้อจํากัดของ API ก่อนที่จะใช้งาน ตัวอย่างเช่น API บางรายการกําหนดขีดจํากัดอัตราที่ส่งคําขอได้
ยิ่งมีตัวอย่างการฝึกอบรม (หรือที่เรียกว่าตัวอย่างในส่วนที่เหลือของคู่มือนี้) มากเท่าไรก็ยิ่งดีเท่านั้น วิธีนี้จะช่วยให้โมเดลของคุณมีข้อมูลโดยรวมที่ดีขึ้น
ตรวจสอบว่าจํานวนตัวอย่างสําหรับทุกชั้นเรียนหรือหัวข้อไม่ไม่สมดุลมากเกินไป กล่าวคือ คุณควรมีตัวอย่างจํานวนเท่ากันในแต่ละคลาส
ตัวอย่างของคุณต้องครอบคลุมพื้นที่อินพุตที่เป็นไปได้อย่างเพียงพอ ไม่ใช่แค่กรณีทั่วไป

ในคู่มือนี้เราจะใช้ชุดข้อมูลรีวิวภาพยนตร์ของฐานข้อมูลภาพยนตร์อินเทอร์เน็ต (IMDb) เพื่อแสดงเวิร์กโฟลว์ ชุดข้อมูลนี้ประกอบด้วยรีวิวภาพยนตร์ที่ผู้ใช้โพสต์ในเว็บไซต์ IMDb รวมถึงป้ายกํากับที่เกี่ยวข้อง ("เชิงบวก" หรือ "เชิงลบ") ซึ่งบ่งชี้ว่าผู้รีวิวชอบภาพยนตร์หรือไม่ นี่คือตัวอย่างคลาสสิกของ การวิเคราะห์อารมณ์

แนะนำตัว

ขั้นตอนที่ 2: สํารวจข้อมูลของคุณ