2021년 7월 30일에 머신러닝 단기집중과정이 이 웹사이트에서 삭제될 예정입니다. 하지만 영어 버전은 계속 제공됩니다.

실제 ML 시스템: 문학

이 강의에서는 18세기 문학과 관련된 실제 ML 문제*를 디버그합니다.

실제 예: 18세기 문학

  • 18세기 문학을 연구하는 교수가 작가들이 사용한 '마음에 대한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 예측하고자 했습니다.
고서
  • 18세기 문학을 연구하는 한 교수가 작가들이 사용한 '마음에 관한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 평가하고자 했습니다.
  • 연구팀은 다양한 작가의 작품을 문장별로 라벨을 지정하여 빅데이터 세트를 만들고 학습/검증/테스트 검사 세트로 나누었습니다.
고서
  • 18세기 문학을 연구하는 한 교수가 작가들이 사용한 '마음에 관한 은유'만을 토대로 작가의 정치적 소속이 어디인지를 평가하고자 했습니다.
  • 연구팀은 다양한 작가의 작품을 문장별로 라벨을 지정하여 빅데이터 세트를 만들고 학습/검증/테스트 세트로 나누었습니다.
  • 학습된 모델은 테스트 데이터에서 거의 완벽한 성능을 보였지만, 연구자들은 결과가 의심스러울 만큼 정확하다고 느꼈습니다. 무엇이 잘못되었을까요?
고서

테스트 정확성이 의심스러울 정도로 높은 이유가 무엇이라고 생각하시나요? 문제가 무엇인지 생각해 본 다음, 아래에 있는 재생 버튼(▶)을 클릭하여 내 생각이 맞았는지 확인하세요.

  • 데이터 분할 A: 연구자는 각 작가의 예를 일부는 학습 세트에, 일부는 검증세트에, 일부는 테스트 세트에 넣었습니다.
Richardson의 예시 전체는 학습 세트에 있고, Swift의 예시 전체는 검증세트에 있을 수 있습니다.
  • 데이터 분할 B: 연구자는 각 작가의 예시 전체를 하나의 세트에 넣었습니다.
  • 데이터 분할 A: 연구자는 각 작가의 예를 일부는 학습 세트에, 일부는 검증세트에, 일부는 테스트 세트에 넣었습니다.
  • 데이터 분할 B: 연구자는 각 작가의 예시 전체를 하나의 세트에 넣었습니다.
  • 결과: 데이터 분할 A에서 학습된 모델의 정확성이 데이터 분할 B에서 학습된 모델보다 훨씬 높았습니다.

참고 사항: 예를 분할하는 방법을 신중하게 고려하세요.

데이터가 무엇을 나타내는지 알아야 합니다.

* 이 모듈은 다음 학술지를 대략적으로 참고했으며 일부 내용은 수정하여 적용했습니다. '의미와 마이닝: 인문학의 데이터 마이닝에서 암시적 추정의 영향' Sculley 및 Pasanek 공저