Chuyển đổi dữ liệu: Kiểm tra kiến thức của bạn

Đối với các câu hỏi sau, hãy nhấp vào mũi tên mong muốn để kiểm tra câu trả lời:

Bạn đang xử lý trước dữ liệu cho mô hình hồi quy. Bạn bắt buộc phải thực hiện những phép biến đổi nào? Chọn tất cả tùy chọn phù hợp
Chuyển đổi tất cả tính năng không phải dạng số thành tính năng dạng số.
Chính xác. Đây là một biến đổi bắt buộc. Bạn phải chuyển đổi các chuỗi thành một số biểu diễn bằng số vì bạn không thể thực hiện phép nhân ma trận trên một chuỗi.
Chuẩn hoá dữ liệu dạng số.
Việc chuẩn hoá dữ liệu dạng số có thể giúp ích, nhưng bạn có thể biến đổi theo chất lượng (không bắt buộc).

 

Hãy xem xét biểu đồ bên dưới. Kỹ thuật chuyển đổi dữ liệu nào sẽ có hiệu quả nhất khi bắt đầu và lý do? Giả sử mục tiêu của bạn là tìm ra mối quan hệ tuyến tính giữa roomPerPerson và giá nhà.
Dấu Z
Chỉ số Z là lựa chọn tốt nếu các điểm ngoại lai không quá nghiêm trọng. Tuy nhiên, các điểm ngoại lai rất nghiêm trọng.
Cắt xén
Việc cắt xén là một lựa chọn phù hợp vì đây là tập dữ liệu chứa các điểm ngoại lai cực kỳ quan trọng. Bạn nên khắc phục các trường hợp ngoại lệ cực đoan trước khi áp dụng các quy tắc chuẩn hoá khác.
Thay đổi tỷ lệ nhật ký
Chuyển tỷ lệ nhật ký là một lựa chọn phù hợp nếu dữ liệu của bạn xác nhận với phạm vi phân phối luật nguồn. Tuy nhiên, dữ liệu này tuân theo quy trình phân phối thông thường thay vì phạm vi phân phối theo luật nguồn.
Nhóm (liên kết) với ranh giới hữu hạn
Xáo trộn chất lượng có thể là một phương pháp hay cho dữ liệu bị lệch, nhưng trong trường hợp này, độ lệch này một phần là do một số ngoại lệ quá mức. Ngoài ra, bạn muốn mô hình tìm hiểu mối quan hệ tuyến tính. Vì vậy, bạn nên giữ roomRoomPerson ở dạng số thay vì chuyển đổi thành các danh mục, đây chính là chức năng nhóm. Thay vào đó, hãy thử kỹ thuật chuẩn hoá.

Một biểu đồ cho thấy tần suất tương đối của các RoomMỗi người, trong đó
RoomsPerPerson là số phòng trong một nơi cư trú chia cho số người trong
nhà đó.  Hầu hết dữ liệu được phân phối từ 0 đến 5 với một số điểm từ 5 đến 55.

 

Hãy xem xét biểu đồ bên dưới. Kỹ thuật chuyển đổi dữ liệu nào sẽ có hiệu quả nhất khi bắt đầu và lý do?
Dấu Z
Điểm Z là một lựa chọn phù hợp nếu các điểm ngoại lai không quá nghiêm trọng đến mức bạn cần cắt đoạn. Đó không phải là vấn đề ở đây. Cách lệch dữ liệu nên là một gợi ý.
Cắt xén
Cắt video là một lựa chọn phù hợp khi có các điểm ngoại lai quá mức. Tuy nhiên, biểu đồ này cho thấy sự phân bổ theo luật nguồn và có một kỹ thuật chuẩn hoá khác phù hợp hơn để giải quyết vấn đề này.
Thay đổi tỷ lệ nhật ký
Chuyển tỷ lệ nhật ký là một lựa chọn phù hợp trong trường hợp này vì dữ liệu tuân thủ việc phân phối luật nguồn.
Nhóm (liên kết) với ranh giới hữu hạn
Giới hạn dữ liệu có thể là một phương pháp hữu hiệu cho dữ liệu bị lệch. Tuy nhiên, bạn đang tìm kiếm mô hình để tìm hiểu mối quan hệ tuyến tính. Do đó, bạn nên giữ dữ liệu ở dạng số và tránh đưa dữ liệu vào các nhóm. Hãy thử một kỹ thuật chuẩn hoá.

Biểu đồ thanh có các thanh tập trung nhiều ở điểm cuối. Thanh đầu tiên có độ lớn là 1.200, thanh thứ hai có độ lớn là 460, thanh thứ ba có độ lớn là 300. Đến thanh thứ 15, cường độ sẽ giảm xuống khoảng 30. Một đuôi rất dài tiếp tục với 90 thanh khác có độ lớn của đuôi dài không bao giờ tăng quá 10.

 

Hãy xem xét biểu đồ bên dưới. Mô hình tuyến tính có đưa ra dự đoán tốt về mối quan hệ giữa tỷ lệ nén và thành phố-mpg không? Nếu không, bạn có thể biến đổi dữ liệu để huấn luyện mô hình hiệu quả hơn bằng cách nào?
Có, mô hình có thể sẽ tìm thấy mối quan hệ tuyến tính và đưa ra những dự đoán khá chính xác.
Mặc dù mô hình này sẽ tìm thấy mối quan hệ tuyến tính, nhưng mô hình sẽ không đưa ra được thông tin dự đoán chính xác. Bạn có thể thử đào tạo tập dữ liệu này trong bài tập Lập mô hình dữ liệu để hiểu rõ hơn lý do.
Không. Mô hình có thể sẽ chính xác hơn sau khi điều chỉnh theo tỷ lệ.
Bạn có thể áp dụng tỷ lệ tuyến tính, nhưng độ dốc của mối quan hệ giữa tỷ lệ nén và City-mpg sẽ trông giống nhau. Điều này sẽ giúp bạn hiểu rõ hơn về 2 độ dốc riêng biệt, đó là một độ dốc cho cụm điểm ở tỷ lệ nén thấp hơn và một cho độ cao càng cao.
Không. Có vẻ như có hai hành vi khác nhau đang xảy ra. Việc đặt ngưỡng ở giữa và sử dụng tính năng được chia thành các nhóm có thể giúp bạn hiểu rõ hơn về những gì đang diễn ra trong hai lĩnh vực đó.
Chính xác. Bạn cần nêu rõ lý do và cách thiết lập ranh giới. Trong bài tập Lập mô hình dữ liệu, bạn sẽ tìm hiểu chính xác cách phương pháp này có thể giúp bạn tạo mô hình hiệu quả hơn.

Một biểu đồ phân tán thể hiện đường cao tốc mpg dựa trên tỷ lệ nén. Hai cụm dữ liệu riêng biệt, một cụm lớn hơn nhiều so với phần còn lại, xuất hiện ở phía cuối các trục tỷ lệ nén. Phần cụm lớn hơn bao phủ
phạm vi tỷ lệ nén 7-12; cụm có quy mô nhỏ hơn bao gồm phạm vi tỷ lệ nén
21-23. Mức độ ổn định của đường cao tốc thường thấp hơn một chút so với khối lượng lớn hơn trong cụm đất nhỏ hơn.

 

Một nhóm ứng dụng ngang hàng sẽ cho bạn biết về tiến độ mà họ đã đạt được trong dự án máy học của họ. Họ đã tính toán một từ vựng và đào tạo một mô hình mà không cần mạng. Tuy nhiên, họ muốn tránh các vấn đề về độ cũ. Bây giờ, họ sắp đào tạo một mô hình khác trên mạng. Điều gì có thể xảy ra tiếp theo?
Mô hình này sẽ luôn được cập nhật khi có dữ liệu mới. Nhóm còn lại sẽ cần liên tục theo dõi dữ liệu đầu vào.
Mặc dù việc tránh sử dụng mô hình đã hết hạn là một lợi ích chính của chương trình đào tạo linh hoạt, nhưng việc sử dụng từ vựng có mô hình được đào tạo ngoại tuyến sẽ dẫn đến các vấn đề.
Họ có thể thấy rằng các chỉ mục mà họ đang sử dụng không tương ứng với từ vựng.
Chính xác. Cảnh báo đồng nghiệp về các mối nguy hiểm trong việc đào tạo/phân phát sai lệch, sau đó họ nên tham gia khóa học của Google về Chuẩn bị dữ liệu và Kỹ thuật tính năng cho công nghệ máy học để tìm hiểu thêm.