이해도 확인: 프로덕션의 ML

파이프라인 테스트 가이드라인은 Colab에서 보여줄 수 없습니다. 대신 다음 연습을 통해 가이드라인을 연습할 수 있습니다. 다음 페이지에서는 가이드라인 구현을 위한 리소스를 설명합니다.

다음 질문의 경우 선택 항목을 클릭하여 펼치고 답변을 확인하세요.

유니콘 모양 예측자를 실행한 후 새 데이터를 다시 학습하여 예측자를 최신 상태로 유지해야 합니다. 학습할 새 데이터를 너무 많이 수집하므로 일정 기간에 새 데이터를 샘플링하여 학습 데이터를 제한하기로 결정합니다. 유니콘 모양으로 표시되는 일일 및 연간 패턴도 고려해야 합니다. 3개월마다 새로운 모델 버전을 가장 빠르게 출시할 수 있습니다. 기간을 선택하세요.
하루가 되면 창이 클수록 데이터가 많아지고 모델을 학습시키는 데 시간이 너무 오래 걸리기 때문입니다.
정답이 아닙니다. 데이터 샘플링 레이트를 조정하여 데이터 세트의 크기를 제한할 수 있습니다. 모델을 3개월마다 업데이트할 수 있다는 점을 감안할 때 하루 분량의 데이터로 학습된 모델이 점진적으로 비활성 상태가 됩니다.
1주일 후에는 데이터 세트가 너무 커지지 않지만 패턴을 매끄럽게 처리할 수 있습니다.
정답이 아닙니다. 데이터 샘플링 레이트를 조정하여 데이터 세트의 크기를 제한할 수 있습니다. 모델을 3개월마다 업데이트할 수 있다는 점을 감안할 때 1주분의 데이터에 대해 학습된 모델은 점진적으로 비활성 상태가 될 것입니다.
1년간 모델이 일일 또는 연간 패턴에 의해 편향되지 않도록 합니다.
정답입니다. 모델이 모든 시나리오에서 예측하는 방법을 학습할 수 있도록 대표 데이터 세트를 선택해야 합니다.
유니콘 모양 예측 도구를 실행합니다. 잘 되고 있어요! 휴가를 마치고 3주 후에 돌아와서 모델 품질이 크게 떨어졌음을 확인합니다. 유니콘의 동작은 3주 이내에 크게 변화할 가능성이 없다고 가정합니다. 품질 저하의 가장 잠재적 원인은 무엇인가요?
학습-제공 편향.
정답입니다. 유니콘 동작은 변하지 않을지도 모르지만 학습 데이터가 수집된 후에 서빙 데이터에서 기본 데이터 보고 또는 데이터 형식이 변경되었을 수 있습니다. 서빙 데이터를 학습 데이터의 데이터 스키마와 비교하여 잠재적인 학습-제공 편향을 감지합니다.
정해진 기준에 따라 모델 품질을 테스트하는 것을 잊었습니다.
정답이 아닙니다. 모델 품질을 테스트하면 품질 저하를 발견하는 데 도움이 되지만 이러한 감소가 발생한 이유는 설명하지 않습니다.
모델이 비활성 상태입니다.
오답입니다. 이전 질문에 설명된 대로 학습 데이터가 유니콘 동작의 모든 주기를 처리한다고 가정합니다.
남극 대륙의 학습 데이터가 충분하지 않으므로 남극의 예측을 현명하게 모니터링하기로 결정합니다. 예측 품질은 특히 겨울에 한 번에 며칠 동안 미묘하게 떨어집니다. 원인은 무엇일까요?
환경적 요인
정답입니다. 남극의 폭풍은 예측 품질의 상관관계와 관련이 있습니다. 폭풍이 몰아오면 유니콘 동작은 변합니다. 또한, 남극의 폭풍이 발생하면 데이터를 수집할 수 없습니다. 즉, 모델이 이러한 조건에 대해 학습시킬 수 없습니다.
모델이 비활성 상태가 됩니다.
정답이 아닙니다. 이 원인이 올바르다면 모델이 몇 일 동안 떨어지는 대신 쓸모없게 되어 품질이 계속 떨어지기 때문입니다.
필요한 이유는 없습니다. ML 모델에는 내재된 무작위성이 있습니다.
정답이 아닙니다. 모델 품질이 변동되면 원인을 조사해야 합니다. 재현성을 높이기 위해 모델 학습에서 무작위 순서 지정을 제거하려고 합니다.
유니콘의 모양 예측기는 1년 동안 운영되어 왔습니다. 많은 문제를 해결했으며 현재 품질이 높습니다. 그러나 작지만 지속적인 문제가 있습니다. 도시 지역에서 모델 품질이 약간 떨어졌습니다. 원인은 무엇일까요?
예측 품질이 높아 사용자가 유니콘을 쉽게 찾을 수 있으므로 유니콘 모양 동작 자체에 영향을 미칩니다.
정답입니다. Unicorns는 도시 지역에서의 행동을 바꿔 더 많은 관심을 유도했습니다. 모델의 예측이 변화하는 행동에 맞게 조정됨에 따라 유니콘은 계속해서 동작을 변경합니다. 모델의 동작이 학습 데이터 자체에 영향을 미치는 상황을 피드백 루프라고 합니다. 유니콘 동작의 변경사항에 해당하는 서빙 데이터의 변경사항을 감지하도록 학습-제공 편향 감지를 수정해야 합니다.
유니콘 모양은 인구 밀집 지역에 여러 번 보고되므로 학습 데이터가 왜곡됩니다.
정답이 아닙니다. 이 편향이 출시로 인해 품질이 저하되었기 때문일 수 있습니다.
도시 지역은 모델링하기 어렵습니다.
정답이 아닙니다. 모델이 도심 지역에서 예측하는 데 문제가 있었다면 출시 후 낮은 드리프트가 발생하는 대신 처음부터 품질이 낮습니다.