Kiểm tra kiến thức của bạn: Máy học trong quá trình sản xuất

Bạn không thể minh hoạ nguyên tắc kiểm thử quy trình trong Colab. Thay vào đó, các bài tập sau đây sẽ giúp bạn thực hành nguyên tắc này. Trang tiếp theo mô tả các tài nguyên để triển khai các nguyên tắc.

Đối với các câu hỏi sau, hãy nhấp vào lựa chọn của bạn để mở rộng và kiểm tra câu trả lời.

Sau khi khởi chạy trình dự đoán giao diện kỳ lân, bạn phải giữ cho trình dự đoán của bạn luôn mới bằng cách đào tạo lại dữ liệu mới. Do đang thu thập quá nhiều dữ liệu mới để đào tạo, bạn quyết định giới hạn dữ liệu đào tạo bằng cách lấy mẫu dữ liệu mới trong một khoảng thời gian. Bạn cũng cần tính đến kiểu hình hằng ngày và hằng năm trong giao diện kỳ lân. Và nhanh nhất mà bạn có thể ra mắt các phiên bản mô hình mới là ba tháng một lần. Bạn chọn khoảng thời gian nào?
Một ngày nào đó, vì cửa sổ lớn hơn sẽ dẫn đến nhiều dữ liệu và mô hình của bạn sẽ mất quá nhiều thời gian để huấn luyện.
Chưa chính xác. Bạn có thể điều chỉnh tốc độ lấy mẫu dữ liệu để giới hạn kích thước của tập dữ liệu. Vì bạn chỉ có thể cập nhật mô hình ba tháng một lần, nên một mô hình được đào tạo về dữ liệu trong một ngày sẽ dần trở nên lỗi thời.
Một tuần để tập dữ liệu của bạn không quá lớn, nhưng bạn vẫn có thể làm mượt các mẫu.
Chưa chính xác. Bạn có thể điều chỉnh tốc độ lấy mẫu dữ liệu để giới hạn kích thước của tập dữ liệu. Vì bạn chỉ có thể cập nhật mô hình ba tháng một lần, nên một mô hình được đào tạo về dữ liệu trong một tuần sẽ dần trở nên lỗi thời.
Một năm để đảm bảo mô hình của bạn không bị sai lệch theo mẫu hằng ngày hoặc hằng năm.
Chính xác! Bạn nên chọn một tập dữ liệu đại diện để mô hình của bạn có thể dự đoán trong mọi trường hợp.
Bạn chạy trình dự đoán giao diện kỳ lân. Nó hoạt động rất tốt! Bạn chuyển sang kỳ nghỉ và quay lại sau ba tuần để thấy rằng chất lượng mô hình của mình giảm đáng kể. Giả sử rằng hành vi của kỳ lân không có khả năng thay đổi đáng kể trong 3 tuần. Đâu là lời giải thích phù hợp nhất về việc làm giảm chất lượng?
Độ sai lệch khi phân phát đào tạo.
Chính xác. Mặc dù hành vi của kỳ lân không thay đổi, nhưng có lẽ báo cáo dữ liệu cơ bản hoặc định dạng dữ liệu đã thay đổi trong dữ liệu phân phát sau khi dữ liệu huấn luyện được thu thập. Phát hiện tỷ lệ sai lệch tiềm năng trong việc đào tạo bằng cách kiểm tra dữ liệu phân phát so với giản đồ dữ liệu của dữ liệu đào tạo.
Bạn đã quên kiểm tra chất lượng của mô hình so với một ngưỡng cố định.
Chưa chính xác. Việc kiểm thử chất lượng mô hình sẽ giúp giảm chất lượng, nhưng sẽ không giải thích nguyên nhân sự sụt giảm đó xảy ra.
Mô hình của bạn đã cũ.
Không chính xác, giả sử rằng dữ liệu huấn luyện của bạn bao gồm tất cả các chu kỳ của hành vi kỳ lân, như đã thảo luận trong câu hỏi trước.
Bạn quyết định theo dõi các dự đoán cho Nam Cực vì bạn thiếu dữ liệu đào tạo ở đó. Chất lượng dự đoán của bạn giảm định kỳ vài ngày tại một thời điểm, đặc biệt là vào mùa đông. Nguyên nhân có thể là gì?
Một yếu tố môi trường.
Chính xác. Bạn phát hiện ra rằng các cơn bão ở Nam Cực tương quan với mức giảm về chất lượng dự đoán của bạn. Trong những cơn bão, hành vi của kỳ lân thay đổi. Hơn nữa, bạn không thể thu thập dữ liệu trong cơn bão ở Nam Cực, nghĩa là mô hình của bạn không thể huấn luyện trong những tình huống như vậy.
Mô hình của bạn đã trở nên lỗi thời.
Chưa chính xác. Nếu nguyên nhân này là chính xác, chất lượng sẽ giảm liên tục khi mô hình của bạn trở nên lỗi thời, thay vì chỉ giảm trong vài ngày.
Không cần nguyên nhân. Mô hình máy học vốn có ngẫu nhiên vốn có.
Chưa chính xác. Nếu chất lượng mô hình của bạn biến động, bạn nên điều tra nguyên nhân. Hãy cố gắng loại bỏ sự ngẫu nhiên trong quá trình đào tạo mô hình để tăng khả năng tái lập.
Trình dự đoán giao diện kỳ lân của bạn đã hoạt động được một năm. Bạn đã khắc phục nhiều vấn đề và có chất lượng cao. Tuy nhiên, bạn nhận thấy một vấn đề nhỏ nhưng liên tục xảy ra. Chất lượng mô hình của bạn đã giảm nhẹ ở các khu vực thành thị. Nguyên nhân có thể là gì?
Khi bạn dự đoán chất lượng cao, người dùng sẽ dễ dàng tìm được kỳ lân và ảnh hưởng đến hành vi giao diện của kỳ lân.
Chính xác. Unicorns phản ứng với sự gia tăng sự chú ý bằng cách thay đổi hành vi của họ ở các khu vực thành thị. Khi các dự đoán của mô hình thích ứng với hành vi thay đổi, kỳ lân tiếp tục thay đổi hành vi. Trong trường hợp này, hành vi của mô hình có ảnh hưởng đến chính dữ liệu huấn luyện được gọi là vòng lặp phản hồi. Bạn nên thử sửa đổi tính năng phát hiện sai lệch khi huấn luyện để phát hiện các thay đổi trong việc phân phát dữ liệu tương ứng với các thay đổi trong hành vi của kỳ lân.
Giao diện của Unicorn được báo cáo nhiều lần ở các khu vực đông dân cư, làm sai lệch dữ liệu huấn luyện của bạn.
Chưa chính xác. Đây có thể không phải là nguyên nhân vì sự sai lệch này đã làm giảm chất lượng của bạn khi phát hành.
Khó xây dựng mô hình các khu vực đô thị.
Chưa chính xác. Nếu mô hình của bạn gặp khó khăn khi dự đoán trong các khu vực thành thị, thì chất lượng sẽ thấp ngay từ đầu, thay vì bị hạ thấp hơn sau khi ra mắt.