Để chuẩn bị các quy trình ML cho quá trình sản xuất, bạn cần làm như sau:
- Cung cấp tài nguyên điện toán cho các quy trình của bạn
- Triển khai tính năng ghi nhật ký, giám sát và cảnh báo
Cung cấp tài nguyên điện toán
Việc chạy các quy trình ML đòi hỏi phải có tài nguyên điện toán, chẳng hạn như RAM, CPU và GPU/TPU. Nếu không có đủ tài nguyên tính toán, bạn sẽ không thể chạy các quy trình của mình. Do đó, hãy đảm bảo bạn có đủ hạn mức để cung cấp các tài nguyên cần thiết mà các quy trình của bạn cần để chạy trong quá trình sản xuất.
Các quy trình phân phát, đào tạo và xác thực. Các quy trình này yêu cầu TPU, GPU hoặc CPU. Tuỳ thuộc vào trường hợp sử dụng, bạn có thể huấn luyện và phân phát trên phần cứng khác nhau hoặc sử dụng cùng một phần cứng. Ví dụ: quá trình huấn luyện có thể diễn ra trên CPU nhưng quá trình phân phát có thể sử dụng TPU hoặc ngược lại. Nhìn chung, bạn thường huấn luyện trên phần cứng lớn hơn rồi phân phát trên phần cứng nhỏ hơn.
Khi chọn phần cứng, hãy cân nhắc những điều sau:
- Bạn có thể huấn luyện trên phần cứng ít tốn kém hơn không?
- Việc chuyển sang phần cứng khác có giúp tăng hiệu suất không?
- Mô hình có kích thước bao nhiêu và phần cứng nào sẽ tối ưu hoá hiệu suất của mô hình?
- Phần cứng nào là lý tưởng dựa trên cấu trúc mô hình của bạn?
Dịch vụ xử lý dữ liệu. Các quy trình xử lý dữ liệu cần có hạn mức cho RAM và CPU Bạn sẽ cần ước tính hạn mức mà quy trình của bạn cần để tạo tập dữ liệu huấn luyện và kiểm thử.
Bạn có thể không phân bổ hạn mức cho từng quy trình. Thay vào đó, bạn có thể phân bổ hạn mức mà các quy trình chia sẻ. Trong những trường hợp như vậy, hãy xác minh rằng bạn có đủ hạn mức để chạy tất cả các quy trình của mình, đồng thời thiết lập tính năng giám sát và thay đổi để ngăn một quy trình duy nhất và không chính xác tiêu thụ hết hạn mức.
Hạn mức ước tính
Để ước tính hạn mức bạn cần cho các quy trình dữ liệu và huấn luyện, hãy tìm các dự án tương tự để dựa vào đó ước tính. Để ước tính hạn mức phân phát, hãy cố gắng dự đoán số truy vấn mỗi giây của dịch vụ. Các phương thức này cung cấp một đường cơ sở. Khi bắt đầu tạo mẫu cho một giải pháp trong giai đoạn thử nghiệm, bạn sẽ bắt đầu nhận được hạn mức ước tính chính xác hơn.
Khi ước tính hạn mức, hãy nhớ tính đến hạn mức không chỉ cho các quy trình sản xuất mà còn cho các thử nghiệm đang diễn ra.
Kiểm tra mức độ hiểu biết của bạn
Ghi nhật ký, giám sát và cảnh báo
Việc ghi nhật ký và giám sát hành vi của mô hình sản xuất là rất quan trọng. Cơ sở hạ tầng giám sát mạnh mẽ xác nhận rằng các mô hình của bạn đang cung cấp những dự đoán đáng tin cậy và chất lượng cao.
Các phương pháp ghi nhật ký và giám sát hiệu quả giúp chủ động xác định các vấn đề trong quy trình ML và giảm thiểu tác động tiềm ẩn đến hoạt động kinh doanh. Khi vấn đề xảy ra, các cảnh báo sẽ thông báo cho các thành viên trong nhóm của bạn và nhật ký toàn diện sẽ giúp chẩn đoán nguyên nhân gốc rễ của vấn đề.
Bạn nên triển khai tính năng ghi nhật ký và giám sát để phát hiện các vấn đề sau đây với quy trình ML:
Quy trình | Giám Sát |
---|---|
Đang phân phối |
|
Dữ liệu |
|
Đào tạo |
|
Xác thực |
|
Bạn cũng nên ghi nhật ký, giám sát và cảnh báo cho những nội dung sau:
- Độ trễ. Mất bao lâu để đưa ra một dự đoán?
- Sự cố ngừng hoạt động. Mô hình có ngừng phân phối thông tin dự đoán không?
Kiểm tra mức độ hiểu biết của bạn
Triển khai mô hình
Đối với việc triển khai mô hình, bạn nên ghi lại những thông tin sau:
- Bạn cần được phê duyệt để bắt đầu triển khai và tăng phạm vi triển khai.
- Cách đưa một mô hình vào giai đoạn phát hành công khai.
- Nơi mô hình được triển khai, ví dụ: nếu có môi trường dàn dựng hoặc thử nghiệm.
- Việc cần làm nếu quá trình triển khai không thành công.
- Cách khôi phục một mô hình đã được phát hành công khai.
Sau khi tự động hoá quy trình huấn luyện mô hình, bạn sẽ muốn tự động hoá quy trình xác thực và triển khai. Việc tự động hoá quy trình triển khai giúp phân bổ trách nhiệm và giảm khả năng quy trình triển khai bị tắc nghẽn do một người duy nhất. Việc này cũng giúp giảm thiểu các lỗi có thể xảy ra, tăng hiệu quả và độ tin cậy, đồng thời cho phép luân phiên trực ca và hỗ trợ SRE.
Thông thường, bạn triển khai các mô hình mới cho một nhóm nhỏ người dùng để kiểm tra xem mô hình có hoạt động như mong đợi hay không. Nếu có, hãy tiếp tục triển khai. Nếu không, bạn sẽ quay lại bản triển khai trước đó và bắt đầu chẩn đoán cũng như gỡ lỗi.