ขั้นตอนที่ 1: รวบรวมข้อมูล
จัดทุกอย่างให้เป็นระเบียบอยู่เสมอด้วยคอลเล็กชัน
บันทึกและจัดหมวดหมู่เนื้อหาตามค่ากำหนดของคุณ
การรวบรวมข้อมูลเป็นขั้นตอนที่สำคัญที่สุดในการแก้ปัญหาแมชชีนเลิร์นนิงที่มีการควบคุมดูแล ตัวแยกประเภทข้อความจะใช้ได้เฉพาะชุดข้อมูลที่สร้างมาเท่านั้น
หากคุณไม่พบปัญหาเฉพาะที่ต้องการแก้ไขและเพียงแค่สนใจที่จะสำรวจการจัดประเภทข้อความโดยทั่วไป ชุดข้อมูลโอเพนซอร์สก็มีมากมายให้เลือกใช้ คุณสามารถดูลิงก์ไปยังข้อมูลบางส่วนได้ในที่เก็บของ GitHub
ในทางกลับกัน หากคุณกำลังจัดการกับปัญหาเฉพาะ
คุณจะต้องรวบรวมข้อมูลที่จำเป็น องค์กรหลายแห่งมี API สาธารณะสำหรับเข้าถึงข้อมูล เช่น X API หรือ NY Times API คุณอาจใช้ประโยชน์จาก API เหล่านี้เพื่อแก้ปัญหาที่คุณพยายามแก้ไขได้
ต่อไปนี้คือสิ่งสำคัญบางอย่างที่ควรจดจำเมื่อรวบรวมข้อมูล:
- หากคุณใช้ API สาธารณะ โปรดทำความเข้าใจข้อจำกัดของ API ก่อนใช้งาน เช่น API บางรายการกำหนดขีดจำกัดอัตราที่ใช้ในการค้นหาได้
- ยิ่งคุณมีตัวอย่างการฝึกมาก (หรือเรียกว่าตัวอย่างในส่วนที่เหลือของคู่มือนี้) ก็ยิ่งดี วิธีนี้จะช่วยให้โมเดลของคุณ
เผยแพร่ข้อมูลทั่วไปได้ดียิ่งขึ้น
- ตรวจสอบว่าจำนวนตัวอย่างสำหรับชั้นเรียนหรือหัวข้อแต่ละรายการไม่ได้ไม่สมดุลกันมากเกินไป กล่าวคือ คุณควรมีจำนวนตัวอย่างที่คล้ายกันในแต่ละคลาส
- ตรวจสอบว่าตัวอย่างของคุณครอบคลุมพื้นที่ที่อาจอินพุตอย่างเพียงพอ ไม่ใช่แค่กรณีทั่วไป
ในคู่มือนี้ เราจะใช้ชุดข้อมูลรีวิวภาพยนตร์ของฐานข้อมูลภาพยนตร์อินเทอร์เน็ต (IMDb) เพื่ออธิบายขั้นตอนการทำงาน ชุดข้อมูลนี้มีรีวิวภาพยนตร์ที่โพสต์โดยผู้คนบนเว็บไซต์ IMDb รวมถึงป้ายกำกับที่เกี่ยวข้อง ("เชิงบวก" หรือ "เชิงลบ")
ซึ่งบ่งบอกว่าผู้รีวิวชอบภาพยนตร์ดังกล่าวหรือไม่ นี่คือตัวอย่างที่คลาสสิก
ของโจทย์การวิเคราะห์ความเห็น
เนื้อหาของหน้าเว็บนี้ได้รับอนุญาตภายใต้ใบอนุญาตที่ต้องระบุที่มาของครีเอทีฟคอมมอนส์ 4.0 และตัวอย่างโค้ดได้รับอนุญาตภายใต้ใบอนุญาต Apache 2.0 เว้นแต่จะระบุไว้เป็นอย่างอื่น โปรดดูรายละเอียดที่นโยบายเว็บไซต์ Google Developers Java เป็นเครื่องหมายการค้าจดทะเบียนของ Oracle และ/หรือบริษัทในเครือ
อัปเดตล่าสุด 2024-06-25 UTC
[{
"type": "thumb-down",
"id": "missingTheInformationINeed",
"label":"ไม่มีข้อมูลที่ฉันต้องการ"
},{
"type": "thumb-down",
"id": "tooComplicatedTooManySteps",
"label":"ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป"
},{
"type": "thumb-down",
"id": "outOfDate",
"label":"ล้าสมัย"
},{
"type": "thumb-down",
"id": "translationIssue",
"label":"ปัญหาเกี่ยวกับการแปล"
},{
"type": "thumb-down",
"id": "samplesCodeIssue",
"label":"ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด"
},{
"type": "thumb-down",
"id": "otherDown",
"label":"อื่นๆ"
}]
[{
"type": "thumb-up",
"id": "easyToUnderstand",
"label":"เข้าใจง่าย"
},{
"type": "thumb-up",
"id": "solvedMyProblem",
"label":"แก้ปัญหาของฉันได้"
},{
"type": "thumb-up",
"id": "otherUp",
"label":"อื่นๆ"
}]
{"lastModified": "\u0e2d\u0e31\u0e1b\u0e40\u0e14\u0e15\u0e25\u0e48\u0e32\u0e2a\u0e38\u0e14 2024-06-25 UTC"}
[[["เข้าใจง่าย","easyToUnderstand","thumb-up"],["แก้ปัญหาของฉันได้","solvedMyProblem","thumb-up"],["อื่นๆ","otherUp","thumb-up"]],[["ไม่มีข้อมูลที่ฉันต้องการ","missingTheInformationINeed","thumb-down"],["ซับซ้อนเกินไป/มีหลายขั้นตอนมากเกินไป","tooComplicatedTooManySteps","thumb-down"],["ล้าสมัย","outOfDate","thumb-down"],["ปัญหาเกี่ยวกับการแปล","translationIssue","thumb-down"],["ตัวอย่าง/ปัญหาเกี่ยวกับโค้ด","samplesCodeIssue","thumb-down"],["อื่นๆ","otherDown","thumb-down"]],["อัปเดตล่าสุด 2024-06-25 UTC"]]