결정 포레스트는 테이블 형식 데이터 세트 (스프레드시트, csv 파일 또는 데이터베이스 테이블에서 나타낼 수 있는 데이터)가 있을 때 가장 효과적입니다. 테이블 형식 데이터는 가장 일반적인 데이터 형식 중 하나이며 결정 포레스트는 이를 모델링하는 '이동' 솔루션이 되어야 합니다.
표 1. 테이블 형식 데이터 세트의 예시
구간 수
눈 개수
체중 (lbs)
종 (라벨)
2
2
12
펭귄
8
6
0.1
거미
4
2
44
개
…
…
…
…
신경망과 달리 결정 포레스트는 기본적으로 테이블 형식의 데이터를 사용합니다.
결정 포레스트를 개발할 때는 다음과 같은 작업을 하지 않아도 됩니다.
특성 정규화 또는 원-핫 인코딩과 같은 사전 처리를 수행합니다.
대칭을 수행합니다 (예: 누락된 값을 -1로 바꾸기).
그러나 결정 포레스트는 이미지나 텍스트와 같이 테이블이 아닌 데이터 (구조화되지 않은 데이터라고도 함)를 직접 사용하기에 적합하지 않습니다. 예, 이 제한에 대한 해결 방법이 있지만 일반적으로 신경망이 구조화되지 않은 데이터를 더 잘 처리합니다.
성능
결정 포레스트는 샘플 효율적입니다. 즉, 결정 포레스트는 작은 데이터 세트 또는 특성 수 / 예시 수의 비율이 높은 (또는 1보다 큰) 데이터 세트에서 학습하는 데 매우 적합합니다. 결정 포레스트는 모든 머신러닝 모델과 마찬가지로 샘플 효율적이지만, 결정 포레스트는 많은 데이터를 사용할 수 있을 때 가장 효과적입니다.
결정 포레스트는 일반적으로 비슷한 신경망보다 더 빠르게 추론합니다. 예를 들어 중간 크기의 결정 포레스트는 최신 CPU에서 몇 마이크로초 만에 추론을 실행합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2022-09-26(UTC)"],[[["Decision forests are highly effective for modeling tabular data, making them a primary choice for datasets commonly found in spreadsheets, CSV files, or databases."],["Unlike neural networks, decision forests directly handle tabular data without requiring preprocessing steps like feature normalization or imputation."],["While decision forests can be adapted for non-tabular data like images or text, neural networks are generally better suited for such data types."],["Decision forests are sample efficient, performing well even with small datasets or those with a high feature-to-example ratio, but still benefit from larger datasets."],["Decision forests offer faster inference speeds compared to neural networks, typically completing predictions within microseconds on modern CPUs."]]],[]]