ผู้สร้าง: Patrick Riley
ขอขอบคุณเป็นพิเศษ: Diane Tang, Rehan Khan, Elizabeth Tucker, Amir Najmi, Hilary Hutchinson, Joel Darnauer, Dale Neal, Aner Ben-Artzi, Sanders Kleinfeld, David Westbrook และ Barry Rosenberg
ประวัติ
- การอัปเดตสําคัญครั้งล่าสุด: มิ.ย. 2019
- เนื้อหาบางส่วนก่อนหน้านี้ได้ปรากฏในบล็อกวิทยาศาสตร์ข้อมูลแบบไม่เป็นทางการ: ต.ค. 2016
ภาพรวม
ความจริงและข้อมูลเชิงลึกและข้อมูลเชิงลึกจากกองข้อมูลเป็นงานที่มีประสิทธิภาพแต่มีแนวโน้มว่าจะเกิดข้อผิดพลาด นักวิเคราะห์ข้อมูลและวิศวกรที่สนใจข้อมูลที่ดีที่สุดจะช่วยสร้างชื่อเสียงจากการออกเสียงที่น่าเชื่อถือจากข้อมูล แต่พวกเขาจะทําอะไรที่มอบ ความน่าเชื่อถือให้พวกเขาได้ ฉันมักจะได้ยินคําคุณศัพท์ เช่น ระมัดระวังและมีวิธีการ แต่จริงๆ แล้วนักวิเคราะห์ที่ระมัดระวังและมีระเบียบมีวิธีทําอะไรมากที่สุด
ซึ่งไม่ใช่คําถามเล็กๆ โดยเฉพาะอย่างยิ่งข้อมูลประเภทที่เรารวบรวมกันที่ Google เป็นประจํา โดยทั่วไป วิธีนี้ไม่เพียงแต่ทํางานร่วมกับชุดข้อมูลที่ใหญ่มากเท่านั้น แต่ชุดข้อมูลยังมีประโยชน์อย่างมาก กล่าวคือข้อมูลแต่ละแถว มักมีแอตทริบิวต์จํานวนมาก เมื่อนําสิ่งนี้มาใช้กับลําดับเหตุการณ์ชั่วคราวของผู้ใช้รายหนึ่งๆ คุณจะดูข้อมูลได้หลากหลายวิธี ตรงกันข้ามกับการทดสอบทางจิตวิทยาทั่วไปในแวดวงการศึกษาที่นักวิจัยควรดูข้อมูลทุกอย่าง ปัญหาต่างๆ ที่เกิดจากชุดข้อมูลขนาดใหญ่ซึ่งมี มิติข้อมูลจํานวนมากนั้นแตกต่างจากปัญหาที่พบได้บ่อยที่สุดใน งานทางวิทยาศาสตร์ส่วนใหญ่
เอกสารนี้สรุปแนวคิดและเทคนิคที่นักวิเคราะห์ใช้วิธีการอย่างรอบคอบในชุดข้อมูลขนาดใหญ่และมิติข้อมูล แม้ว่าเอกสารนี้จะเน้นข้อมูลจากบันทึกและการวิเคราะห์การทดลอง แต่เทคนิคต่างๆ จํานวนมากก็ใช้อย่างกว้างขวางมากขึ้น
ส่วนที่เหลือของเอกสารประกอบด้วย 3 ส่วนซึ่งครอบคลุมแง่มุมต่างๆ ของการวิเคราะห์ข้อมูล
- ด้านเทคนิค: แนวคิดและเทคนิคเกี่ยวกับการบิดเบือนและตรวจสอบข้อมูลของคุณ
- การประมวลผล: คําแนะนําเกี่ยวกับวิธีจัดการข้อมูล คําถามที่ต้องถาม และสิ่งที่ต้องตรวจสอบ
- Mindset: วิธีทํางานร่วมกันกับผู้อื่นและสื่อสารข้อมูลเชิงลึก
ด้านเทคนิค
มาดูเทคนิคบางอย่างในการตรวจสอบข้อมูลของคุณกัน
ดูการจัดจําหน่าย
ผู้ประกอบวิชาชีพส่วนใหญ่ใช้เมตริกสรุป (เช่น ค่าเฉลี่ย ค่ามัธยฐาน ค่าเบี่ยงเบนมาตรฐาน ฯลฯ) เพื่อสื่อสารเกี่ยวกับการกระจาย อย่างไรก็ตาม คุณควรตรวจสอบการนําเสนอแบบกระจายที่สมบูรณ์ยิ่งขึ้นมากด้วยการสร้างฮิสโตแกรม ฟังก์ชันการกระจายสะสม (CDF), พล็อตควอนไทล์ (Q-Q) และอื่นๆ การนําเสนอที่สมบูรณ์ยิ่งขึ้นเหล่านี้จะช่วยให้คุณตรวจหาฟีเจอร์สําคัญของข้อมูลได้ เช่น พฤติกรรมในหลายโมดัลหรือค่าที่ผิดปกติ
พิจารณาค่าที่ผิดปกติ
พิจารณาค่าที่ผิดปกติอย่างระมัดระวัง เพราะอาจเป็นส่วนที่เป็นเหมืองถ่านหิน ซึ่งจะระบุข้อมูลพื้นฐานเกี่ยวกับการวิเคราะห์ของคุณมากขึ้น คุณจะยกเว้นค่าที่ผิดปกติจากข้อมูลของคุณ หรือรวมไว้ด้วยกันเป็นหมวดหมู่&ผิดปกติได้ แต่คุณควรรู้ว่าเหตุใดข้อมูลจึงรวมอยู่ในหมวดหมู่นั้น
ตัวอย่างเช่น การดูคําค้นหาที่มีจํานวนคลิกต่ําที่สุดอาจเผยให้เห็นคลิกขององค์ประกอบที่คุณไม่ได้นับ การดูข้อความค้นหาที่มีจํานวนคลิกสูงสุดอาจแสดงให้เห็นถึงการคลิกที่ไม่ควรนับ ในทางกลับกัน อาจมีค่าที่ผิดปกติบางอย่างซึ่งคุณไม่สามารถอธิบายได้ ดังนั้นคุณต้องระมัดระวังเกี่ยวกับเวลาที่ทุ่มเทให้กับงานนี้
พิจารณาเสียงรบกวน
โดยที่เราสุ่มเข้ามาและจะมาหลอกเรา บางคนคิดว่า "Google มีข้อมูลเยอะมาก เสียงรบกวนจึงหายไป" ซึ่งไม่ใช่เรื่องจริง ตัวเลขหรือสรุปทั้งหมดของข้อมูลที่คุณสร้างควรมีความมั่นใจประกอบกับความเชื่อมั่นของคุณในการประมาณนี้ (ผ่านมาตรการอย่างเช่น ช่วงความเชื่อมั่นและ p-values)
ดูตัวอย่าง
ทุกครั้งที่คุณสร้างโค้ดการวิเคราะห์ใหม่ คุณต้องดูตัวอย่างจากข้อมูลพื้นฐานและวิธีที่โค้ดตีความตัวอย่างเหล่านั้น การผลิตโค้ดที่ซับซ้อน โดยแทบไม่ต้องทําขั้นตอนนี้เลยนั้นแทบจะเป็นไปไม่ได้ การวิเคราะห์เป็นที่เก็บรายละเอียดจํานวนมาก จากข้อมูลที่เกี่ยวข้องเพื่อสร้างสรุปที่เป็นประโยชน์ เมื่อดูความซับซ้อนทั้งหมดของตัวอย่างแต่ละรายการ คุณจะมั่นใจได้เลยว่าข้อมูลสรุปดังกล่าวจะสมเหตุสมผล
การดูตัวอย่างเหล่านี้มีความสําคัญอย่างไร
- ถ้าคุณกําลังแยกประเภทข้อมูลพื้นฐาน ลองดูตัวอย่างจากแต่ละชั้นเรียน
- หากเป็นคลาสที่ใหญ่กว่า ให้ดูตัวอย่างเพิ่มเติม
- หากคุณคํานวณจํานวน (เช่น เวลาที่ใช้ในการโหลดหน้าเว็บ) ให้ตรวจสอบว่าคุณได้ดูตัวอย่างสุดโต่งแล้ว (อาจเร็วที่สุดและช้าที่สุดที่ 5% หรืออื่นๆ เช่น ทําให้รู้ได้ว่าการกระจายของคุณเป็นอย่างไร) รวมถึงจุดต่างๆ ในพื้นที่วัด
ส่วนแบ่งข้อมูล
การแบ่งส่วนหมายความว่าคุณจะแบ่งข้อมูลออกเป็นกลุ่มย่อยและดูค่าเมตริกของกลุ่มย่อยแต่ละกลุ่มแยกกัน เราแบ่งมิติข้อมูลตามส่วนต่างๆ เช่น เบราว์เซอร์ ภาษา โดเมน ประเภทอุปกรณ์ และอื่นๆ หากปรากฏการณ์สําคัญมีแนวโน้มที่จะทํางานแตกต่างกันไปในกลุ่มย่อย คุณต้องแบ่งข้อมูลเพื่อยืนยันว่าเป็นกรณีนี้หรือไม่ แม้ว่าคุณจะไม่ได้คิดว่าการแบ่งผลลัพธ์ออกมาอย่างไร การทําให้ส่วนต่างๆ สอดคล้องกันเพื่อความถูกต้องแม่นยําภายในก็จะช่วยให้ความมั่นใจมากขึ้นว่าคุณกําลังวัดผลที่ถูกต้อง ในบางกรณี ชิ้นส่วนบางอย่างอาจมี ข้อมูลที่ไม่ถูกต้อง การโต้ตอบของผู้ใช้ไม่สมบูรณ์ หรือโดยพื้นฐานแล้วอาจแตกต่างออกไป
เมื่อใดก็ตามที่คุณแบ่งข้อมูลเพื่อเปรียบเทียบระหว่าง 2 กลุ่ม (เช่น ระหว่างการทดสอบกับการควบคุม หรือแม้แต่ "เวลา A" กับ "เวลา B") คุณจําเป็นต้องทราบการเปลี่ยนแปลงที่มีการเปลี่ยนแปลง Shift แบบผสมคือเมื่อจํานวนข้อมูลในส่วนต่างๆ ของแต่ละกลุ่มแตกต่างกัน ความแตกต่างของ Simpson' และความสับสนอื่นๆ อาจทําให้เกิดผลลัพธ์ได้ โดยทั่วไปแล้ว หากจํานวนข้อมูลในชิ้นส่วนเดียวกัน แบบสัมพัทธ์ในทั้ง 2 กลุ่มทําการเปรียบเทียบกันได้อย่างปลอดภัย
พิจารณาความสําคัญในเชิงปฏิบัติ
ด้วยข้อมูลปริมาณมาก การเน้นที่ความสําคัญที่มีนัยสําคัญทางสถิติเพียงอย่างเดียวหรือเน้นรายละเอียดของข้อมูลทุกส่วน แต่คุณต้องถามตัวเองนะ " ถึงแม้ความจริงที่ว่าค่า X จะมากกว่าค่า Y 0.1% มันสําคัญหรือไม่ ขั้นตอนนี้สําคัญมาก โดยเฉพาะอย่างยิ่งหากคุณไม่เข้าใจ/จัดหมวดหมู่ข้อมูลบางส่วน หากคุณทําความเข้าใจสตริง User Agent บางรายการในบันทึกไม่ได้ ไม่ว่าจะเป็นข้อมูล 0.1% หรือ 10% ก็ตาม ก็ถือว่าแตกต่างกันอย่างมากว่าคุณควรตรวจสอบกรณีเหล่านั้นมากน้อยเพียงใด
แต่ในบางครั้ง ข้อมูลปริมาณน้อย การเปลี่ยนแปลงหลายอย่างดูไม่มีนัยสําคัญทางสถิติ แต่แตกต่างจากการเปลี่ยนแปลงที่เป็น "การเปลี่ยนแปลงที่เป็นกลาง" คุณจะต้องถามตัวเองว่า "มีความเป็นไปได้มากน้อยเพียงใดที่จะยังเกิดการเปลี่ยนแปลงที่สําคัญในทางปฏิบัติ"
ตรวจสอบความสอดคล้องเมื่อเวลาผ่านไป
คุณควรพยายามแบ่งข้อมูลตามหน่วยเวลาเสมอ เพราะสิ่งรบกวนหลายอย่างที่อยู่เบื้องหลังข้อมูลจะเกิดขึ้นเนื่องจากระบบของเรามีการพัฒนาเมื่อเวลาผ่านไป (เรามักจะใช้เวลาหลายวัน แต่หน่วยเวลาอื่นๆ อาจเป็นประโยชน์ด้วยเช่นกัน) ในช่วงการเปิดตัวฟีเจอร์หรือการรวบรวมข้อมูลใหม่ครั้งแรก ผู้ฝึกงานมักตรวจสอบอย่างละเอียดว่าทุกอย่างทํางานตามที่คาดไว้ อย่างไรก็ตาม ความเสียหายหลายรายการหรือการทํางานที่ไม่คาดคิดอาจเกิดขึ้นเมื่อเวลาผ่านไป
การที่วันหรือชุดวันหนึ่งๆ มีค่าผิดปกติไม่ได้หมายความว่าคุณควรทิ้งข้อมูลที่เกี่ยวข้องไป ใช้ข้อมูลเป็นตัวช่วยพิจารณาหาสาเหตุทั่วไปที่ทําให้วันนั้นหรือวันใหม่ต่างจากเดิม
การพิจารณาข้อมูลแบบวันต่อวันยังช่วยให้เห็นความแตกต่างของข้อมูลซึ่งจะนําไปสู่ช่วงความเชื่อมั่นหรือคํากล่าวอ้างที่มีนัยสําคัญทางสถิติในที่สุด ซึ่งโดยทั่วไปไม่ควรมาแทนที่การคํานวณช่วงความเชื่อมั่นที่เข้มงวด แต่บ่อยครั้งที่การเปลี่ยนแปลงมีขนาดใหญ่ๆ คุณจะพบว่าการเปลี่ยนแปลงเหล่านั้นมีนัยสําคัญทางสถิติเมื่อพิจารณาจากกราฟแบบวันต่อวัน
รับทราบและนับการกรอง
การวิเคราะห์ข้อมูลขนาดใหญ่เกือบทั้งหมดเริ่มต้นด้วยการกรองข้อมูลในขั้นตอนต่างๆ คุณอาจต้องการพิจารณาเฉพาะผู้ใช้ในสหรัฐฯ หรือการค้นหาบนเว็บ หรือการค้นหาด้วยโฆษณา ไม่ว่าในกรณีใดก็ตาม คุณต้องทําดังนี้
- รับทราบและระบุให้ชัดเจนว่าคุณกําลังกรองอะไร
- นับจํานวนข้อมูลที่จะกรองในแต่ละขั้นตอน
วิธีที่ดีที่สุดในภายหลังคือการคํานวณเมตริกทั้งหมด แม้แต่กับประชากรที่คุณกําลังยกเว้น แล้วดูข้อมูลนั้นในการตอบคําถามต่างๆ ได้ เช่น "ส่วนเล็กๆ ของการค้นหาที่นําสแปมออก (การวิเคราะห์ประเภทนี้อาจไม่ได้เกิดขึ้นเสมอไป ขึ้นอยู่กับเหตุผลที่คุณกรองอยู่)
อัตราส่วนควรมีตัวเลขและตัวส่วนที่ชัดเจน
เมตริกที่น่าสนใจที่สุดคืออัตราส่วนที่วัดจากปัจจัยพื้นฐาน บ่อยครั้งที่การกรองที่น่าสนใจหรือตัวเลือกข้อมูลอื่นๆ ซ่อนอยู่ในคําจํากัดความที่ชัดเจนของตัวเลขและตัวส่วน ตัวอย่างเช่น ข้อใดคือ "คําค้นหา / ผู้ใช้"
- การค้นหา / ผู้ใช้ที่มีข้อความค้นหา
- คําค้นหา / ผู้ใช้ที่เข้าชม Google วันนี้
- การค้นหา / ผู้ใช้ที่มีบัญชีที่ใช้งานอยู่ (ใช่ ฉันจะต้องระบุว่าใช้งานอยู่)
การมีความชัดเจนในที่นี่จะช่วยป้องกันไม่ให้ตัวคุณเองและคนอื่นๆ สับสน
กรณีพิเศษอีกกรณีหนึ่งคือเมตริกที่คํานวณได้เฉพาะในข้อมูลของคุณเท่านั้น เช่น "Time to Click" โดยปกติจะหมายถึง "เวลาที่ใช้คลิกเนื่องจากเกิดการคลิก &" ทุกครั้งที่คุณดูเมตริกเช่นนี้ คุณต้องทราบว่าการกรองนั้นมองหาการเปลี่ยนแปลงในกลุ่มการกรอง ที่กําลังเปรียบเทียบอยู่
กระบวนการ
ส่วนนี้ประกอบด้วยคําแนะนําเกี่ยวกับวิธีการจัดการข้อมูล คําถามที่ถามเกี่ยวกับข้อมูลของคุณ และสิ่งที่จะตรวจสอบ
การตรวจสอบความถูกต้อง คําอธิบาย และการประเมินที่แยกกัน
ผมคิดว่าการวิเคราะห์ข้อมูลมี 3 ขั้นตอน
- การตรวจสอบความถูกต้อง1: ฉันเชื่อว่าข้อมูลมีความสอดคล้องในตัวเอง ข้อมูลได้รับการรวบรวมอย่างถูกต้อง และแสดงข้อมูลที่ฉันคิดว่าถูกต้องหรือไม่
- คําอธิบาย: การตีความข้อมูลนี้มีวัตถุประสงค์อย่างไร เช่น &"ผู้ใช้ค้นหาข้อมูลจํานวนน้อยลงเป็น X," " ในกลุ่มการทดสอบ เวลาระหว่าง X ถึง Y จะใหญ่กว่า 1%
- การประเมิน: คําอธิบายไม่ได้บอกอะไรว่าข้อมูลบอกเราว่ามีสิ่งดีๆ เกิดขึ้นต่อผู้ใช้ สําหรับ Google หรือทั่วโลก
การแยกขั้นช่วยให้คุณเข้าถึงข้อตกลงกับผู้อื่นได้ง่ายขึ้น คําอธิบายควรเป็นข้อมูลที่ทุกคนตกลงกันได้ในข้อมูล การประเมินอาจกระตุ้นให้เกิดการอภิปรายมากขึ้น หากไม่ได้แยกคําอธิบายและการประเมิน คุณก็มีแนวโน้มที่จะเห็นเฉพาะการตีความข้อมูลที่คาดว่าจะเห็น ยิ่งไปกว่านั้น การประเมินอาจทําได้ยากกว่ามาก เนื่องจากการกําหนดค่าที่เป็นมาตรฐานให้กับเมตริก ซึ่งโดยปกติแล้วจะต้องทําผ่านการเปรียบเทียบอย่างเข้มงวดกับฟีเจอร์และเมตริกอื่นๆ จึงลงทุนมหาศาล
ขั้นตอนเหล่านี้ไม่ได้ดําเนินการในรูปแบบเชิงเส้น ขณะสํารวจข้อมูล คุณอาจข้ามไปมาระหว่างพื้นที่งานได้ แต่ควรชัดเจนว่าคุณอยู่ในระยะใดได้ทุกเมื่อ
ยืนยันการตั้งค่าการทดสอบและการรวบรวมข้อมูล
ก่อนที่จะดูข้อมูลใดๆ โปรดตรวจสอบว่าคุณเข้าใจบริบท ที่มีการรวบรวมข้อมูลแล้ว หากข้อมูลมาจากการทดสอบ ให้ดูการกําหนดค่าของการทดสอบ หากมาจากการวัดคุมลูกค้าใหม่ คุณต้องเข้าใจอย่างคร่าวๆ เกี่ยวกับวิธีการรวบรวมข้อมูล คุณอาจเห็นการกําหนดค่าที่ผิดปกติ/ไม่ดีหรือข้อจํากัดด้านประชากร (เช่น ข้อมูลที่ถูกต้องสําหรับ Chrome เท่านั้น) สิ่งสําคัญที่ควรทราบที่นี่อาจช่วยให้คุณสร้างและยืนยันทฤษฎีได้ในภายหลัง สิ่งที่ควรพิจารณา
- หากการทดสอบทํางานอยู่ ให้ลองทําด้วยตัวเอง หากทําไม่ได้ ให้ดูภาพหน้าจอ/คําอธิบายลักษณะการทํางานอย่างน้อยที่สุด
- ตรวจสอบว่ามีอะไรผิดปกติเกี่ยวกับช่วงเวลาที่การทดสอบทํางานหรือไม่ (วันหยุด การเปิดตัวครั้งสําคัญ ฯลฯ)
- กําหนดประชากรผู้ใช้ที่อยู่ภายใต้การทดสอบ
ตรวจสอบสิ่งที่ไม่ควรเปลี่ยนแปลง
เป็นส่วนหนึ่งของขั้นตอน "การตรวจสอบ" ก่อนที่จะตอบคําถามที่คุณสนใจ (เช่น "การเพิ่มรูปภาพของใบหน้า การเพิ่มหรือลดจํานวนคลิก?") ตัดความแปรปรวนอื่นๆ ในข้อมูล ที่อาจส่งผลกระทบต่อการทดสอบออก เช่น
- จํานวนผู้ใช้มีการเปลี่ยนแปลงหรือไม่
- จํานวนคําค้นหาที่ได้รับผลกระทบแสดงในกลุ่มย่อยทั้งหมดไหม
- อัตราข้อผิดพลาดมีการเปลี่ยนแปลงไหม
คําถามเหล่านี้เหมาะสมทั้งสําหรับการเปรียบเทียบการทดสอบ/การควบคุม และเมื่อพิจารณาแนวโน้มเมื่อเวลาผ่านไป
มาตรฐานแรก ลําดับที่สองที่กําหนดเอง
เมื่อดูฟีเจอร์ใหม่ๆ และข้อมูลใหม่ คุณควรจะพุ่งความสนใจไปที่เมตริกที่แปลกใหม่และพิเศษสําหรับฟีเจอร์ใหม่นี้โดยเฉพาะ อย่างไรก็ตาม คุณควรดูเมตริกมาตรฐานก่อนเสมอ แม้ว่าเมตริกเหล่านั้นจะเปลี่ยนแปลงไปก็ตาม ตัวอย่างเช่น เมื่อเพิ่มบล็อกสากลใหม่ในหน้าเว็บ โปรดทําความเข้าใจผลกระทบต่อเมตริกมาตรฐาน เช่น "การคลิกในผลการค้นหาบนเว็บ" ก่อนที่จะเจาะลึกเมตริกที่กําหนดเองเกี่ยวกับผลการค้นหาใหม่นี้
เมตริกมาตรฐานมีความถูกต้องมากกว่าและมีแนวโน้มที่จะถูกต้องกว่าเมตริกที่กําหนดเอง หากเมตริกที่กําหนดเองไม่สมเหตุสมผลกับเมตริกมาตรฐาน แสดงว่าเมตริกที่กําหนดเองอาจมีข้อผิดพลาด
วัด 2 ครั้งขึ้นไป
โดยเฉพาะอย่างยิ่งหากคุณพยายามถ่ายภาพปรากฏการณ์ใหม่ ให้พยายามวัดสิ่งเดียวกันที่เหมือนกันได้หลายวิธี จากนั้นพิจารณาว่าการวัดผลหลายรายการ สอดคล้องกันไหม เมื่อใช้การวัดผลหลายรายการ คุณจะระบุข้อบกพร่องในการวัดหรือโค้ดการบันทึก ฟีเจอร์ที่ไม่คาดคิดของข้อมูลที่เกี่ยวข้อง หรือขั้นตอนการกรองที่สําคัญได้ และจะดียิ่งกว่าเดิมหากใช้แหล่งข้อมูล ที่แตกต่างกันในการวัด
ตรวจสอบความสามารถในการทําซ้ํา
เมื่อเวลาผ่านไป ทั้งการแบ่งส่วนและการสร้างความสม่ําเสมอเมื่อเวลาผ่านไป ล้วนเป็นตัวอย่างเฉพาะของการตรวจสอบความสามารถในการทําซ้ํา หากปรากฏการณ์สําคัญและมีความหมาย คุณควรเห็นในประชากรและเวลาต่างๆ ของผู้ใช้ แต่การยืนยันความสามารถในการทําซ้ําหมายถึง การตรวจสอบมากกว่า 2 วิธีนี้ หากคุณกําลังสร้างโมเดลข้อมูล โมเดลเหล่านั้นจะต้องคงที่ภายในการบุกรุกเล็กน้อยในข้อมูลที่สําคัญ การใช้ช่วงเวลาหรือตัวอย่างย่อยของข้อมูลแบบสุ่มที่แตกต่างกันจะบอกให้ทราบว่ารูปแบบนี้เชื่อถือได้/ทําซ้ํามากน้อยเพียงใด
หากโมเดลทําซ้ําไม่ได้ คุณอาจกําลังจับประเด็นพื้นฐานเกี่ยวกับกระบวนการเบื้องหลังที่สร้างข้อมูลไม่ได้
ตรวจสอบความสอดคล้องของการวัดที่ผ่านมา
บ่อยครั้งที่คุณคํานวณเมตริกที่คล้ายกับสิ่งที่เคยนับไว้ คุณควรเปรียบเทียบเมตริกกับเมตริกที่รายงานในอดีต แม้ว่าการวัดเหล่านี้จะอยู่บนประชากรผู้ใช้ที่แตกต่างกัน
ตัวอย่างเช่น ถ้าคุณกําลังดูการเข้าชมจากประชากรที่ค้นหาแบบพิเศษ และคุณวัดว่าเวลาในการโหลดหน้าเว็บเฉลี่ยคือ 5 วินาที แต่การวิเคราะห์ที่ผ่านมาของผู้ใช้ทั้งหมดให้เวลาในการโหลดหน้าเว็บเฉลี่ยเท่ากับ 2 วินาที คุณจะต้องตรวจสอบ หมายเลขของคุณอาจเหมาะกับประชากรกลุ่มนี้ แต่คุณจะต้องทํางานมากขึ้นเพื่อตรวจสอบข้อมูลนี้
คุณไม่จําเป็นต้องมีข้อตกลงที่แน่นอน แต่คุณควรอยู่ในสนามเบสบอลเดียวกัน หากคิดว่าไม่ได้เกิดจากความผิดพลาด จนกว่าคุณจะสามารถพิสูจน์ตัวเองได้อย่างสมบูรณ์ ข้อมูลที่น่าประหลาดใจส่วนใหญ่จะกลายเป็นข้อผิดพลาด ไม่ใช่ข้อมูลเชิงลึกใหม่ที่ยอดเยี่ยม
ควรใช้เมตริกใหม่กับข้อมูล/ฟีเจอร์เก่าก่อน
หากคุณสร้างเมตริกใหม่ (หรืออาจรวบรวมข้อมูลเกี่ยวกับแหล่งข้อมูลใหม่) และพยายามเรียนรู้สิ่งใหม่ๆ คุณก็จะไม่ทราบว่าเมตริกใหม่ถูกต้องหรือไม่ เมื่อใช้เมตริกใหม่ คุณควรนําเมตริกเหล่านั้นไปใช้กับฟีเจอร์หรือข้อมูลที่รู้จักก่อน ตัวอย่างเช่น หากคุณมีเมตริกใหม่สําหรับความพึงพอใจของผู้ใช้ คุณควรตรวจสอบว่าเมตริกนั้นบอกคุณว่าฟีเจอร์ที่ดีที่สุดช่วยความพึงพอใจได้ หากคุณมีเมตริกใหม่สําหรับตําแหน่งที่ผู้ใช้เห็นหน้าเว็บ อย่าลืมตรวจสอบว่าข้อมูลดังกล่าวตรงกับที่เรารู้จากการศึกษาด้านการติดตามสายตาหรือผู้ตรวจสอบ เพื่อทําความเข้าใจว่ารูปภาพต่างๆ ส่งผลต่อการดึงดูดหน้าเว็บอย่างไร การดําเนินการนี้จะตรวจสอบความถูกต้อง เมื่อคุณเรียนรู้สิ่งใหม่ๆ
ตั้งสมมติฐานและมองหาหลักฐาน
โดยทั่วไปแล้ว การวิเคราะห์ข้อมูลสําหรับปัญหาที่ซับซ้อนมักจะเกิดขึ้นซ้ําๆ2 คุณจะค้นพบความผิดปกติ แนวโน้ม หรือฟีเจอร์อื่นๆ ของข้อมูลได้ โดยปกติแล้ว คุณจะพัฒนาทฤษฎีเพื่ออธิบายข้อมูลนี้ อย่าพัฒนา ทฤษฎีและกล่าวอ้างว่าเป็นจริง ค้นหาหลักฐาน (ภายในหรือภายนอกข้อมูล) เพื่อยืนยัน/ปฏิเสธทฤษฎีนี้ เช่น
- หากคุณเห็นสิ่งที่ดูเหมือนจะกําลังอยู่ในเทรนด์การเรียนรู้ ให้ดูว่าเครื่องมือนี้ส่งผลต่อผู้ใช้ความถี่สูงอย่างชัดเจนหรือไม่
- หากเชื่อว่าความผิดปกติเกิดจากการเปิดตัวฟีเจอร์บางอย่าง โปรดตรวจสอบให้แน่ใจว่าประชากรที่ฟีเจอร์ดังกล่าวเปิดตัวเป็นเพียงกลุ่มเดียวที่ได้รับผลกระทบจากความผิดปกตินี้ และตรวจสอบว่าการเปลี่ยนแปลง ของความคาดหวังนั้นเป็นไปตามความคาดหวังของการเปิดตัว
- หากคุณเห็นอัตราการเติบโตของผู้ใช้มีการเปลี่ยนแปลงในภาษาต่างๆ ให้ลองหาแหล่งที่มาภายนอกที่ตรวจสอบอัตราการเปลี่ยนแปลงการป้อนข้อมูลของผู้ใช้ดังกล่าว
การวิเคราะห์ข้อมูลที่ดีจะต้องบอกเล่าเรื่องราว เพื่อให้แน่ใจว่าเรื่องราวนั้นถูกต้อง คุณต้องเล่าเรื่องราวให้ตัวเองฟังเพื่อหาหลักฐานว่าผิด วิธีหนึ่งที่ทําได้คือถามตัวเองว่า "ฉันควรทําการทดสอบเรื่องใดเพื่อตรวจสอบความถูกต้อง/เล่าเรื่องราวให้ฟังไม่สิ้นสุด" แม้ว่าอาจจะไม่ได้/ทําการทดลองเหล่านี้ไม่ได้ แต่ก็อาจเป็นการช่วยให้เห็นภาพวิธีตรวจสอบความถูกต้องในข้อมูลที่คุณมี
ข่าวดีก็คือทฤษฎีและการทดลองต่างๆ เหล่านี้อาจทําให้มีการสอบถามข้อสงสัยใหม่ๆ ที่พยายามเรียนรู้เกี่ยวกับคุณลักษณะหรือข้อมูลที่เฉพาะเจาะจง จากนั้นคุณจึงเข้าใจขอบเขตทั้ง 2 ประการนี้รวมถึงเมตริกและเทคนิคใหม่ๆ สําหรับการวิเคราะห์ในอนาคตทุกประเภท
ประโยชน์จากการวิเคราะห์ในการสํารวจจากการดําเนินการตั้งแต่ต้นจนจบ
เมื่อทําการสํารวจเชิงสํารวจ ให้ทําการวิเคราะห์ทั้งการวิเคราะห์ซ้ําให้มากที่สุด โดยปกติแล้ว ขั้นตอนต่างๆ ในการรวบรวมสัญญาณ การประมวลผล การสร้างรูปแบบ ฯลฯ จะมีขั้นตอนหลายขั้นตอน หากคุณใช้ระยะแรกของการเริ่มต้นสัญญาณที่สมบูรณ์แบบอย่างสมบูรณ์แบบนั้น นั่นคือการพลาดโอกาสที่จะดําเนินการซ้ําๆ ได้ในระยะเวลาเดียวกัน นอกจากนี้ เมื่อคุณดูข้อมูลในตอนท้าย คุณอาจพบการค้นพบที่เปลี่ยนทิศทางของคุณ ดังนั้น จุดมุ่งหมายแรกที่ควรคงอยู่คือความสมบูรณ์แบบ แต่ก็ไม่ได้เป็นสิ่งที่สมบูรณ์แบบตั้งแต่ต้น เขียนบันทึกสําหรับตัวคุณเองและรับทราบถึงสิ่งต่างๆ เช่น การกรองขั้นตอนและคําขอที่แยกวิเคราะห์ไม่ได้หรือผิดปกติ แต่ไม่ต้องเสียเวลาพยายามกําจัดทุกอย่างในตอนต้นของการวิเคราะห์การสํารวจ
ระวังเพื่อรับความคิดเห็น
เรามักจะกําหนดเมตริกต่างๆ เกี่ยวกับความสําเร็จของผู้ใช้ เช่น ผู้ใช้คลิกผลการค้นหาหรือไม่ จากนั้นหากคุณป้อนข้อมูลนั้นกลับไปที่ระบบ (ซึ่งเราทําในหลายแห่ง) ก็มีโอกาสสร้างความสับสนจํานวนมากในการประเมินผล
คุณไม่สามารถใช้เมตริกที่ได้รับฟีดกลับไปยังระบบของคุณเป็นพื้นฐานสําหรับการประเมินการเปลี่ยนแปลง หากคุณแสดงโฆษณามากขึ้นและได้รับจํานวนคลิกมากขึ้น คุณก็จะใช้ "จํานวนคลิกที่เพิ่มขึ้น" เป็นพื้นฐานของการตัดสินใจว่าผู้ใช้ไม่พึงพอใจได้ แม้ว่า "จํานวนคลิกที่เพิ่มขึ้น" จะหมายถึงว่า "มีความสุขมากกว่า" ก็ตาม นอกจากนี้ คุณไม่ควรแบ่งตัวแปรที่คุณฟีดออกและบิดเบือนเนื่องจากจะทําให้การเปลี่ยนแปลงผสมยากที่จะเข้าใจหรือไม่เข้าใจได้
ความคิด
ส่วนนี้จะอธิบายวิธีการทํางานกับผู้อื่นและสื่อสารข้อมูลเชิงลึก
การวิเคราะห์ข้อมูลเริ่มต้นด้วยคําถาม ไม่ใช่ข้อมูลหรือเทคนิค
การวิเคราะห์ข้อมูลมีแรงจูงใจอยู่เสมอ การระบุความต้องการเป็นคําถามหรือสมมติฐานจะช่วยให้มั่นใจได้ว่ากําลังรวบรวมข้อมูลได้ และกําลังคิดเกี่ยวกับช่องว่างที่เป็นไปได้ของข้อมูล แน่นอนว่าคําถามที่คุณถามควรเปลี่ยนแปลงไป ในขณะที่ดูข้อมูล อย่างไรก็ตาม การวิเคราะห์โดยไม่มีคําถามก็จบลงอย่างสิ้นเชิง
หลีกเลี่ยงกับดักการหาเทคนิคที่ชอบและ ค้นหาเฉพาะส่วนของปัญหาที่เทคนิคนี้ใช้ได้ผล ขอย้ําอีกครั้งว่าการสร้างคําถามที่ชัดเจนจะช่วยหลีกเลี่ยงกับดักนี้
ไม่สงสัยใครเลยและเป็นผู้นํา
เมื่อทํางานกับข้อมูล คุณต้องเป็นทั้งเจ้าของข้อมูลเชิงลึกที่ได้รับและน่าสงสัย และหวังว่าคุณจะพบปรากฏการณ์ที่น่าสนใจในข้อมูลที่คุณดู เมื่อตรวจพบปรากฏการณ์ที่น่าสนใจ ให้ถามตัวเองด้วยคําถามต่อไปนี้
- ฉันจะรวบรวมข้อมูลอะไรได้อีกเพื่อแสดงความยอดเยี่ยมนี้
- ฉันจะหาอะไรทําให้ข้อกําหนดนี้ไม่ถูกต้องได้อย่างไร"
โดยเฉพาะในกรณีที่คุณวิเคราะห์คนที่ ต้องการคําตอบที่เจาะจง (เช่น "ฟีเจอร์ของฉันเจ๋งมาก!") คุณต้องไม่สงสัยก่อนที่จะเกิดข้อผิดพลาด
ความสัมพันธ์ != สาเหตุ
ในการสร้างทฤษฎีเกี่ยวกับข้อมูล บ่อยครั้งที่เรามักจะยืนยันว่า "X ทําให้ Y" ตัวอย่างเช่น "หน้าเว็บที่ช้าลงทําให้ผู้ใช้ต้องคลิกน้อยลง." แม้แต่ xkcd ก็ยังทราบว่า คุณสร้างความสัมพันธ์ไม่ได้เพราะความสัมพันธ์นั้นเหมือนกัน ในการทบทวนวิธีการตรวจสอบทฤษฎีทั่วไปและเหตุผลของทฤษฎีทั่วไป คุณจะสามารถพัฒนาความรู้สึกที่ดีว่าทฤษฎีทั่วไปทั่วไปมีความน่าเชื่อถือเพียงใด
บางครั้งผู้คนพยายามที่จะรักษาความสัมพันธ์ไม่ให้มีความหมาย โดยยืนยันว่าถึงแม้จะไม่มีความสัมพันธ์ที่เป็นเหตุเป็นผลระหว่าง A และ B แต่จะต้องมีบางอย่างเป็นเหตุบังเอิญ ดังนั้นสัญญาณอย่างหนึ่งอาจเป็นตัวบ่งชี้ที่ดีหรือพร็อกซีของอีกฝ่ายหนึ่งก็ได้ บริเวณนี้เป็นอันตรายสําหรับปัญหาการทดสอบสมมติฐานหลายรายการ เนื่องจาก xkcd ทราบเช่นกันเนื่องจากมีการทดสอบและมิติข้อมูลเพียงพอ สัญญาณบางส่วนจะสอดคล้องกับการทดสอบที่เฉพาะเจาะจง ซึ่งไม่ได้หมายความว่าสัญญาณเดียวกันจะสอดคล้องกันในอนาคต คุณจึงมีภาระหน้าที่แบบเดียวกันในการพิจารณาทฤษฎีทั่วไป เช่น "มีผลกระทบที่ซ่อนอยู่ C ที่ส่งผลให้เกิดทั้ง ก และ ข" เพื่อให้คุณพยายามตรวจสอบความถูกต้องของความเป็นไปได้
นักวิเคราะห์ข้อมูลต้องสํารวจคําถามทั่วไปเหล่านี้กับผู้ที่ต้องการจะใช้ข้อมูล คุณควรบอกให้ผู้บริโภคเข้าใจอย่างชัดเจน ถึงสิ่งที่บอกและเปิดเผยเกี่ยวกับความสัมพันธ์ระหว่างกัน
แชร์กับเพื่อนเก่าก่อน ผู้บริโภคภายนอก
ประเด็นสําคัญก่อนหน้าได้แนะนําวิธีทําให้ตนเองสามารถ ตรวจสอบและตรวจสอบเสียงได้อย่างถูกต้อง แต่การแชร์กับเพื่อนร่วมงาน เป็นวิธีหนึ่งที่ดีที่สุดที่จะบังคับให้ตัวคุณเองทําทุกอย่างเหล่านี้ เพื่อนที่มีทักษะสามารถให้ความคิดเห็นในเชิงคุณภาพที่แตกต่างกันไป จากข้อมูลของผู้บริโภคได้ โดยเฉพาะอย่างยิ่ง เนื่องจากผู้บริโภคมักมีกําหนดการ แอปเทียบเท่ามีประโยชน์ในหลายๆ จุดผ่านการวิเคราะห์ ในช่วงแรก คุณสามารถดูข้อมูลเกี่ยวกับเพื่อนๆ เกี่ยวกับความรู้ คําแนะนําเกี่ยวกับสิ่งที่จะวัดผล และการวิจัยที่ผ่านมาในด้านนี้ เมื่อใกล้จบ เพื่อนๆ จะต้องชี้ให้เห็นความแปลก ความไม่สอดคล้องกัน หรือความสับสนอื่นๆ ได้ดีมาก
ตามหลักการแล้ว คุณควรได้รับความคิดเห็นจากเพื่อนคนที่รู้ข้อมูลบางอย่างเกี่ยวกับข้อมูลที่คุณดูอยู่ แต่แม้แต่เพื่อนที่มีประสบการณ์การวิเคราะห์ข้อมูลเพียงอย่างเดียวก็ยังมีประโยชน์มาก
คาดหวังและยอมรับข้อผิดพลาดและความผิดพลาด
สิ่งที่เราเรียนรู้จากข้อมูลได้นั้นมีขีดจํากัด Nate Silver เป็นกรณีศึกษาที่ชัดเจนใน The Signal and the Noise ที่เราสามารถพิสูจน์ขีดจํากัดได้เพียงคําว่า "แน่นอน" เท่านั้น ความก้าวหน้าของเราจึงช่วยให้เราคาดการณ์ได้ดียิ่งขึ้น การยอมรับความไม่สนใจคือจุดแข็งที่โดยปกติแล้วไม่ได้รางวัล ในทันที ถึงแม้จะฟังดูไม่เหมาะสมในช่วงนี้ แต่ก็เป็นประโยชน์กับคุณและทีมของคุณในระยะยาว และที่แย่ไปกว่านั้นคือเมื่อคุณทําผิดพลาดและค้นพบมันในภายหลัง (หรือมาสายเกินไป) การที่ตัวคุณเองเป็นเจ้าของข้อผิดพลาดจะช่วยให้คุณได้รับความเคารพ ความสามารถนี้ทําให้เกิดความน่าเชื่อถือและผลกระทบ
สรุป
การดําเนินการจํานวนมากเพื่อทําการวิเคราะห์ข้อมูลที่ดีนั้นไม่ได้เปิดเผยต่อผู้บริโภคของการวิเคราะห์โดยทันที การที่คุณตรวจสอบขนาดประชากรอย่างละเอียดรอบคอบและยืนยันว่าผลลัพธ์นั้นสอดคล้องกันในเบราว์เซอร์ต่างๆ อาจไม่ทําให้คนหลายฝ่ายเข้าใจการตัดสินใจจากข้อมูลนี้ และยังอธิบายว่าเหตุใดการวิเคราะห์ข้อมูลที่ดีจึงใช้เวลานานกว่าที่คนส่วนใหญ่เห็น (โดยเฉพาะเมื่อผู้ใช้เห็นเอาต์พุตสุดท้ายเท่านั้น) งานส่วนหนึ่งของเราในฐานะนักวิเคราะห์คือการค่อยๆ ให้ความรู้แก่ผู้บริโภคเกี่ยวกับข้อมูลเชิงลึกที่อิงตามกระบวนการเหล่านี้ รวมถึงเหตุผล
นอกจากนี้ ความต้องการในการควบคุมและการสํารวจข้อมูลยังทําให้ข้อกําหนดเกี่ยวกับภาษาและการวิเคราะห์ข้อมูลที่ดีอีกด้วย เรามีเครื่องมือมากมายสําหรับตรวจสอบข้อมูล เครื่องมือและภาษาต่างๆ จะเหมาะกับเทคนิคต่างๆ ที่กล่าวถึงข้างต้นมากกว่า การเลือกเครื่องมือที่เหมาะสมคือทักษะที่สําคัญสําหรับนักวิเคราะห์ คุณไม่ควรมีข้อจํากัดเกี่ยวกับความสามารถของเครื่องมือที่คุณพอใจที่สุด งานของคุณคือให้ข้อมูลเชิงลึกที่แท้จริง ไม่ใช่การใช้เครื่องมือใดเครื่องมือหนึ่ง
-
บางครั้งเรียกว่า "การวิเคราะห์ข้อมูลเบื้องต้น" ให้ดูบทความเกี่ยวกับ Wikipedia เกี่ยวกับการวิเคราะห์ข้อมูล ↩
-
ในทางเทคนิค ควรมีการทําซ้ําก็ต่อเมื่อคุณทําการสํารวจเชิงสํารวจ ไม่ใช่การวิเคราะห์แบบยืนยัน↩