하나 이상의 분류 모델에 의해 카테고리가 자동으로 결정되는 머신 라벨 데이터는 실버 라벨이라고도 합니다.
머신 라벨이 지정된 데이터의 품질은 매우 다양할 수 있습니다. 정확성과 편향뿐만 아니라 상식, 현실, 의도를 위반하는지 여부도 확인하세요. 예를 들어 컴퓨터 비전 모델이 치와와 사진에 머핀 라벨을 지정하거나 머핀 사진에 치와와 라벨을 지정하면 라벨이 지정된 데이터로 학습된 모델의 품질이 떨어집니다.
마찬가지로 중립적인 단어의 점수를 -0.25로 매기는 감정 분석 도구는 0.0이 중립적 값일 때 데이터에 실제로 존재하지 않는 추가 부정적인 편향으로 모든 단어를 채점할 수 있습니다. 지나치게 민감한 유해성 감지기는 많은 중립적인 진술을 악의적이라고 잘못 신고할 수 있습니다. 데이터를 학습하기 전에 데이터에 있는 머신 라벨과 주석의 품질과 편향을 파악해 보세요.
고차원성
범주형 데이터는 고차원 특성 벡터, 즉 요소가 많은 특성 벡터를 생성하는 경향이 있습니다.
차원이 높을수록 학습 비용이 증가하고 학습이 더 어려워집니다. 이러한 이유로 ML 전문가는 종종 학습 전에 측정기준 수를 줄이는 방법을 모색합니다.
자연 언어 데이터의 경우 차원 수를 줄이는 기본 방법은 특징 벡터를 임베딩 벡터로 변환하는 것입니다. 이 내용은 이 과정의 뒷부분에 나오는 임베딩 모듈에서 설명합니다.
[[["이해하기 쉬움","easyToUnderstand","thumb-up"],["문제가 해결됨","solvedMyProblem","thumb-up"],["기타","otherUp","thumb-up"]],[["필요한 정보가 없음","missingTheInformationINeed","thumb-down"],["너무 복잡함/단계 수가 너무 많음","tooComplicatedTooManySteps","thumb-down"],["오래됨","outOfDate","thumb-down"],["번역 문제","translationIssue","thumb-down"],["샘플/코드 문제","samplesCodeIssue","thumb-down"],["기타","otherDown","thumb-down"]],["최종 업데이트: 2024-11-06(UTC)"],[[["Categorical data quality hinges on how categories are defined and labeled, impacting data reliability."],["Human-labeled data, known as \"gold labels,\" is generally preferred for training due to its higher quality, but it's essential to check for human errors and biases."],["Machine-labeled data, or \"silver labels,\" can introduce biases or inaccuracies, necessitating careful quality checks and awareness of potential common-sense violations."],["High-dimensionality in categorical data increases training complexity and costs, leading to techniques like embeddings for dimensionality reduction."]]],[]]