Chuyển đổi dữ liệu số

Bạn có thể cần áp dụng hai loại biến đổi cho dữ liệu số:

  • Chuẩn hoá – chuyển đổi dữ liệu dạng số thành cùng tỷ lệ với dữ liệu số khác.
  • Nhóm – chuyển đổi dữ liệu dạng số (thường là liên tục) thành dữ liệu phân loại.

Tại sao cần chuẩn hoá các đối tượng dạng số?

Bạn nên chuẩn hoá một tập dữ liệu có các tính năng dạng số bao gồm các phạm vi khác nhau đáng kể (ví dụ: độ tuổi và thu nhập). Khi các tính năng khác nhau có phạm vi khác nhau, độ dốc của chuyển màu có thể "bounce" và làm chậm tốc độ hội tụ. Các trình tối ưu hoá như AdagradAdam bảo vệ bạn khỏi vấn đề này bằng cách tạo tốc độ học hiệu quả riêng cho từng tính năng.

Bạn cũng nên chuẩn hoá một tính năng dạng số duy nhất bao gồm một phạm vi rộng, chẳng hạn như "city residential &" Nếu bạn không thường chuẩn hoá dân số "city", thì việc đào tạo mô hình có thể tạo ra lỗi NaN. Không may là các công cụ tối ưu hoá như Adagrad và Adam không thể ngăn các lỗi NaN khi có nhiều giá trị trong một tính năng duy nhất.