Kiểm tra kiến thức của bạn: Gỡ lỗi mô hình

Đối với các câu hỏi sau, hãy nhấp vào lựa chọn của bạn để mở rộng và kiểm tra câu trả lời.

Phương pháp lập mô hình

Bạn và người bạn Mel như một chú kỳ lân. Trên thực tế, bạn rất thích kỳ lân, bạn quyết định dự đoán giao diện kỳ lân bằng cách sử dụng ... máy học. Bạn có một tập dữ liệu gồm 10.000 giao diện kỳ lân. Đối với mỗi giao diện, tập dữ liệu chứa vị trí, thời gian trong ngày, độ cao, nhiệt độ, độ ẩm, mật độ dân số, độ che phủ của cây, sự có mặt của cầu vồng và nhiều tính năng khác.

Bạn muốn bắt đầu phát triển mô hình máy học. Phương pháp nào sau đây là cách phù hợp để bắt đầu phát triển?
Kỳ lân thường xuất hiện lúc bình minh và hoàng hôn. Do đó, hãy sử dụng tính năng "thời gian trong ngày" để tạo một mô hình tuyến tính.
Chính xác. Mô hình tuyến tính sử dụng một hoặc hai tính năng dự đoán cao là một cách hiệu quả để bắt đầu.
Dự đoán giao diện kỳ lân là một vấn đề rất khó. Do đó, hãy sử dụng mạng nơron sâu có đầy đủ các tính năng có sẵn.
Chưa chính xác. Việc bắt đầu bằng một mô hình phức tạp sẽ khiến việc gỡ lỗi trở nên phức tạp.
Bắt đầu với một mô hình tuyến tính đơn giản nhưng sử dụng tất cả tính năng để đảm bảo mô hình đơn giản đó có khả năng dự đoán.
Chưa chính xác. Nếu bạn sử dụng nhiều tính năng, ngay cả khi có mô hình tuyến tính, thì mô hình thu được sẽ phức tạp và khó gỡ lỗi.

Đường cơ sở

Khi sử dụng hồi quy với lỗi vuông trung bình (MSE), bạn dự đoán chi phí của một chuyến taxi bằng cách sử dụng thời lượng, khoảng cách, nguồn gốc và kết thúc của chuyến đi. Bạn biết:

  • Chi phí chuyến xe trung bình là 15 đô la.
  • Chi phí chuyến đi tăng lên theo số tiền cố định mỗi km.
  • Các chuyến đi trong khu vực trung tâm có tính phí.
  • Các chuyến đi có giá khởi điểm là 3 USD.

Xác định xem các đường cơ sở sau có hữu ích hay không.

Đây có phải là đường cơ sở hữu ích không: mỗi chuyến có giá 15 đô la.
Chính xác. Chi phí trung bình là một đường cơ sở hữu ích.
Không
Chưa chính xác. Luôn dự đoán giá trị trung bình sẽ làm cho MSE thấp hơn so với việc luôn dự đoán giá trị nào khác. Do đó, việc kiểm thử một mô hình dựa trên đường cơ sở này sẽ mang lại một kết quả so sánh có ý nghĩa.
Nó phụ thuộc vào độ lệch chuẩn của chi phí chuyến đi.
Chưa chính xác. Dù có độ lệch chuẩn như thế nào, thì chi phí trung bình của chuyến đi là một đường cơ sở hữu ích vì luôn dự đoán kết quả trung bình sẽ thấp hơn so với MSS so với khi luôn dự đoán giá trị nào khác.
Đây có phải là đường cơ sở hữu ích không: một mô hình đã qua đào tạo chỉ sử dụng thời lượng và nguồn gốc làm các tính năng.
Chưa chính xác. Bạn chỉ nên sử dụng một mô hình đã đào tạo làm đường cơ sở sau khi mô hình đó được xác thực đầy đủ trong phiên bản chính thức. Hơn nữa, bạn nên xác thực mô hình đã qua đào tạo dựa trên một đường cơ sở đơn giản hơn.
Không
Chính xác. Bạn chỉ nên sử dụng một mô hình đã đào tạo làm đường cơ sở sau khi mô hình đó được xác thực đầy đủ trong phiên bản chính thức.
Đây có phải là đường cơ sở hữu ích không: Giá trị của một chuyến đi là khoảng cách (tính bằng km) nhân với giá vé trên mỗi km.
Chính xác. Quãng đường là yếu tố quan trọng nhất trong việc xác định chi phí chuyến xe. Do đó, đường cơ sở dựa trên khoảng cách là hữu ích.
Không
Chưa chính xác. Quãng đường là yếu tố quan trọng nhất trong chi phí đi xe bị suy giảm. Do đó, đường cơ sở dựa trên khoảng cách là hữu ích.
Đây có phải là đường cơ sở hữu ích không: mỗi chuyến có giá 1 đô la. Bởi vì mô hình phải luôn vượt qua đường cơ sở này. Nếu mô hình này không đáp ứng cơ sở này, thì chúng tôi có thể chắc chắn rằng mô hình đó có lỗi.
Chưa chính xác. Đây không phải là đường cơ sở hữu ích vì luôn sai. Việc so sánh một mô hình với một đường cơ sở luôn bị sai là không có ý nghĩa.
Không
Chính xác. Đường cơ sở này không phải là một kiểm thử hữu ích cho mô hình của bạn.

Siêu tham số

Những câu hỏi sau đây mô tả vấn đề trong việc đào tạo thuật toán phân loại. Chọn những hành động có thể khắc phục được vấn đề được mô tả.

Tỷ lệ mất đào tạo là 0,24 và tổn thất xác thực là 0,36. Hai hành động nào sau đây có thể giúp giảm sự khác biệt giữa việc đào tạo và mất thông tin xác thực?
Hãy đảm bảo rằng các bộ đào tạo và xác thực có cùng thuộc tính thống kê.
Chính xác. Nếu tập huấn luyện và xác thực có các thuộc tính thống kê khác nhau, thì dữ liệu huấn luyện sẽ không giúp dự đoán dữ liệu xác thực.
Sử dụng tính năng thông thường để ngăn tình trạng quá tải.
Chính xác. Nếu tổn thất đào tạo nhỏ hơn mức mất xác thực, thì mô hình của bạn có thể đang điều chỉnh cho phù hợp với dữ liệu huấn luyện. Việc thường xuyên tránh tình trạng quá mức.
Tăng số lượng thời gian đào tạo.
Chưa chính xác. Nếu tổn thất đào tạo nhỏ hơn tổn thất xác thực, thì mô hình của bạn thường điều chỉnh quá mức cho dữ liệu huấn luyện. Tăng thời gian đào tạo sẽ chỉ làm tăng quá mức.
Giảm tốc độ học tập.
Chưa chính xác. Thông thường, mức độ mất mát trong quá trình xác thực sẽ lớn hơn mức sai số trong quá trình đào tạo là dấu hiệu cho thấy trang bị quá mức. Việc thay đổi tốc độ học tập không làm giảm tình trạng quá tải.
Bạn thực hiện đúng các hành động được mô tả trong câu hỏi trước. Giờ đây, mức hao tổn trong đào tạo và xác thực của bạn sẽ giảm từ 1,0 xuống còn khoảng 0,24 sau khi đào tạo cho nhiều khoảng thời gian bắt đầu của hệ thống. Hành động nào sau đây có thể giúp bạn không bị mất các chương trình đào tạo?
Tăng chiều sâu và chiều rộng của mạng nơron.
Chính xác. Nếu mức hao tổn đào tạo không đổi ở mức 0,24 sau khi huấn luyện cho nhiều khoảng thời gian bắt đầu của hệ thống, thì mô hình của bạn có thể sẽ không có khả năng dự đoán để giảm tổn thất hơn nữa. Việc tăng chiều sâu và chiều rộng của mô hình có thể cung cấp cho mô hình khả năng dự đoán bổ sung cần thiết để giảm bớt tổn thất đào tạo.
Tăng số lượng thời gian đào tạo.
Chưa chính xác. Nếu khoá đào tạo của bạn vẫn ở mức 0,24 sau khi đào tạo cho nhiều khoảng thời gian bắt đầu của hệ thống, thì việc tiếp tục huấn luyện mô hình có thể sẽ không làm giảm đáng kể mức giảm đào tạo.
Tăng tốc độ học tập.
Chưa chính xác. Vì nhiều chương trình đào tạo không giảm trong nhiều khoảng thời gian bắt đầu của chương trình đào tạo, nên việc tăng tỷ lệ học tập có thể sẽ không làm giảm mức đào tạo cuối cùng. Thay vào đó, việc tăng tốc độ học tập có thể khiến chương trình đào tạo của bạn không ổn định và khiến mô hình của bạn không học được dữ liệu.
Bạn đã thực hiện đúng thao tác trong câu hỏi trước. Tỷ lệ mất đào tạo của mô hình đã giảm xuống 0,20. Giả sử bạn cần giảm thiểu hơn một chút tổn thất liên quan đến chương trình đào tạo của mô hình. Bạn có thể thêm một số tính năng có vẻ như có khả năng dự đoán. Tuy nhiên, mức giảm đào tạo tiếp tục dao động vào khoảng 0,20. Ba lựa chọn nào sau đây có thể giúp bạn tiết kiệm chi phí đào tạo?
Tăng chiều sâu và chiều rộng của lớp.
Chính xác. Mô hình của bạn có thể không có đủ tín hiệu dự đoán trong các tính năng mới.
Tăng thời gian đào tạo.
Chưa chính xác. Nếu mức giảm đào tạo trong mô hình của bạn dao động trong khoảng 0,20, thì việc tăng số lượng thời gian bắt đầu của chương trình đào tạo có thể sẽ khiến mức giảm đào tạo trong mô hình đó tiếp tục dao động trong khoảng 0,20.
Các tính năng này không thêm thông tin liên quan đến các tính năng hiện có. Hãy thử một tính năng khác.
Chính xác. Có thể những tín hiệu dự đoán do các tính năng được mã hoá đã tồn tại trong những tính năng mà bạn đang sử dụng.
Giảm tốc độ học tập.
Chính xác. Có thể việc thêm các tính năng mới sẽ làm cho vấn đề này phức tạp hơn. Cụ thể, sự biến động về tổn thất thể hiện rằng tỷ lệ học tập quá cao và mô hình của bạn đang nhảy múa ở mức tối thiểu. Việc giảm tốc độ học sẽ cho phép mô hình của bạn học tập ở mức tối thiểu.