ขั้นตอนที่ 1: รวบรวมข้อมูล

การรวบรวมข้อมูลเป็นขั้นตอนที่สําคัญที่สุดในการแก้ปัญหาแมชชีนเลิร์นนิง ภายใต้การควบคุมดูแล ตัวแยกประเภทข้อความจะใช้ได้ดีเท่ากับชุดข้อมูลที่สร้างขึ้นเท่านั้น

หากคุณไม่มีปัญหาที่เจาะจงที่ต้องการแก้ไขและเพียงอยากลองใช้การสํารวจ การจัดประเภทข้อความโดยทั่วไป ก็จะมีชุดข้อมูลโอเพนซอร์สมากมาย คุณสามารถดูลิงก์ไปยังลิงก์บางส่วนได้ในที่เก็บของ GitHub ในทางกลับกัน หากคุณกําลังแก้ปัญหาบางอย่างอยู่ คุณจะต้องรวบรวมข้อมูลที่จําเป็น องค์กรจํานวนมากมี API สาธารณะสําหรับการเข้าถึงข้อมูล เช่น Twitter API หรือ NY Times API คุณอาจใช้ประโยชน์ของปัญหา ที่กําลังพยายามแก้ไขอยู่ได้

สิ่งสําคัญที่ควรทราบเมื่อรวบรวมข้อมูล

  • หากคุณกําลังใช้ API สาธารณะ โปรดทําความเข้าใจข้อจํากัดของ API ก่อนที่จะใช้งาน ตัวอย่างเช่น API บางรายการกําหนดขีดจํากัดอัตราที่ส่งคําขอได้
  • ยิ่งมีตัวอย่างการฝึกอบรม (หรือที่เรียกว่าตัวอย่างในส่วนที่เหลือของคู่มือนี้) มากเท่าไรก็ยิ่งดีเท่านั้น วิธีนี้จะช่วยให้โมเดลของคุณมีข้อมูลโดยรวมที่ดีขึ้น
  • ตรวจสอบว่าจํานวนตัวอย่างสําหรับทุกชั้นเรียนหรือหัวข้อไม่ไม่สมดุลมากเกินไป กล่าวคือ คุณควรมีตัวอย่างจํานวนเท่ากันในแต่ละคลาส
  • ตัวอย่างของคุณต้องครอบคลุมพื้นที่อินพุตที่เป็นไปได้อย่างเพียงพอ ไม่ใช่แค่กรณีทั่วไป

ในคู่มือนี้เราจะใช้ชุดข้อมูลรีวิวภาพยนตร์ของฐานข้อมูลภาพยนตร์อินเทอร์เน็ต (IMDb) เพื่อแสดงเวิร์กโฟลว์ ชุดข้อมูลนี้ประกอบด้วยรีวิวภาพยนตร์ที่ผู้ใช้โพสต์ในเว็บไซต์ IMDb รวมถึงป้ายกํากับที่เกี่ยวข้อง ("เชิงบวก" หรือ "เชิงลบ") ซึ่งบ่งชี้ว่าผู้รีวิวชอบภาพยนตร์หรือไม่ นี่คือตัวอย่างคลาสสิกของ การวิเคราะห์อารมณ์