Bộ huấn luyện và kiểm thử: Bài tập trong Playground
Sử dụng bộ sưu tập để sắp xếp ngăn nắp các trang
Lưu và phân loại nội dung dựa trên lựa chọn ưu tiên của bạn.
Bộ huấn luyện và Bộ kiểm thử
Chúng ta quay lại Playground để thử nghiệm các bộ huấn luyện và bộ kiểm thử.
Hãy nhấp vào biểu tượng dấu cộng để xem lời nhắc về ý nghĩa của các chấm màu cam và màu xanh dương.
Trong hình ảnh:
Mỗi chấm màu xanh dương biểu thị một ví dụ về một lớp dữ liệu (ví dụ: nội dung rác).
Mỗi dấu chấm màu cam biểu thị một ví dụ về một loại dữ liệu khác (ví dụ: không phải nội dung rác).
Màu nền thể hiện thông tin dự đoán của mô hình về nơi sẽ tìm thấy các ví dụ về màu đó. Nền màu xanh dương xung quanh chấm màu xanh dương có nghĩa là mô hình này đang dự đoán chính xác ví dụ đó. Ngược lại, nền màu cam xung quanh chấm màu xanh dương có nghĩa là mô hình đang đưa ra dự đoán không chính xác cho ví dụ đó.
Bài tập này cung cấp cả tập kiểm thử và tập dữ liệu huấn luyện, cả hai đều được vẽ từ cùng một tập dữ liệu. Theo mặc định, hình ảnh trực quan chỉ hiển thị tập hợp huấn luyện. Nếu bạn cũng muốn xem tập hợp kiểm thử, hãy nhấp vào hộp đánh dấu Show test data (Hiện dữ liệu kiểm thử) ngay bên dưới hình ảnh trực quan. Trong hình ảnh trực quan, hãy lưu ý điểm khác biệt sau:
Các ví dụ về huấn luyện có đường viền màu trắng.
Các ví dụ kiểm thử có một đường viền màu đen.
Nhiệm vụ 1: Chạy Playground với các chế độ cài đặt cho sẵn bằng cách làm như sau:
Nhấp vào nút Chạy/Tạm dừng:
Xem thay đổi về Giá trị mất kiểm thử và tổn thất trong quá trình huấn luyện.
Khi các giá trị kiểm thử mất mát và mất trong quá trình huấn luyện ngừng thay đổi hoặc chỉ thay đổi một lần trong một khoảng thời gian, hãy nhấn lại nút Run/Pause (Chạy/Tạm dừng) để tạm dừng Playground.
Hãy lưu ý đến delta giữa lỗ kiểm thử và lỗ trong quá trình huấn luyện. Chúng tôi sẽ cố gắng giảm delta này trong các nhiệm vụ sau.
Cho phép Playground chạy trong ít nhất 150 khoảng thời gian bắt đầu của hệ thống.
Khoảng cách giữa Số lần mất kiểm thử và Số lần mất đi trong quá trình đào tạo thấp hơn hay cao hơn với Tốc độ học tập mới này? Điều gì xảy ra nếu bạn sửa đổi cả Tốc độ học và kích thước lô?
Nhiệm vụ không bắt buộc 3: Thanh trượt có nhãn Tỷ lệ phần trăm dữ liệu huấn luyện cho phép bạn kiểm soát tỷ lệ dữ liệu huấn luyện để kiểm thử dữ liệu. Ví dụ: khi đặt thành 90%, thì 90% dữ liệu sẽ được dùng cho tập huấn luyện và 10% còn lại sẽ được dùng cho tập kiểm thử.
Hãy thực hiện như sau:
Giảm "Tỷ lệ phần trăm dữ liệu huấn luyện" từ 50% xuống 10%.
Thử nghiệm Tốc độ học và Kích thước lô, ghi lại kết quả của bạn.
Việc thay đổi tỷ lệ phần trăm dữ liệu huấn luyện có làm thay đổi chế độ cài đặt học tập tối ưu mà bạn tìm thấy trong Nhiệm vụ 2 không? Nếu có thì tại sao?
Nhấp vào biểu tượng dấu cộng cho câu trả lời cho Nhiệm vụ 1.
Khi tốc độ học được đặt thành 3 (chế độ cài đặt ban đầu), tỷ lệ mất kiểm thử sẽ cao hơn đáng kể so với tổn thất trong quá trình huấn luyện.
Nhấp vào biểu tượng dấu cộng cho câu trả lời cho Nhiệm vụ 2.
Bằng cách giảm tốc độ học (ví dụ: xuống 0, 001), tỷ lệ mất kiểm thử sẽ giảm xuống một giá trị gần với tỷ lệ mất trong quá trình huấn luyện. Trong hầu hết các lần chạy, việc tăng Kích thước lô không ảnh hưởng đáng kể đến tình trạng Mất huấn luyện hoặc mất kiểm thử. Tuy nhiên, trong một tỷ lệ nhỏ các lần chạy, việc tăng Kích thước lô lên 20 hoặc lớn hơn sẽ khiến tỷ lệ mất kiểm thử giảm một chút dưới mức mất kiểm thử.
Các tập dữ liệu của Playground được tạo ngẫu nhiên. Do đó, không phải lúc nào câu trả lời của chúng tôi cũng hoàn toàn giống với câu trả lời của bạn.
Hãy nhấp vào biểu tượng dấu cộng cho câu trả lời cho Nhiệm vụ 3.
Việc giảm tỷ lệ phần trăm dữ liệu huấn luyện từ 50% xuống còn 10% sẽ làm giảm đáng kể số lượng điểm dữ liệu trong tập hợp huấn luyện. Với rất ít dữ liệu, kích thước lô lớn và tốc độ học cao khiến mô hình huấn luyện nhảy ngẫu nhiên (chuyển liên tục qua điểm tối thiểu).