Câu hỏi tự luận mức độ vận dụng Khoa học máy tính 12 ctst bài F14: Học máy

3. VẬN DỤNG (4 CÂU)

Câu 1: Khi nào em nên sử dụng máy học không giám sát? Hãy đưa ra ví dụ cụ thể về tình huống?

Câu 2: Mô tả cách thức hoạt động của thuật toán phân loại. Hãy đưa ra ví dụ minh họa?

Câu 3: Hãy giải thích khái niệm “overfitting” trong máy học. Tại sao nó lại là một vấn đề và làm thế nào để tránh?

Câu 4: Thảo luận về vai trò của các tham số trong mô hình máy học. Làm thế nào để điều chỉnh các tham số này để cải thiện hiệu suất của mô hình?


Câu 1: 

- Dữ liệu không có gán nhãn: Khi bạn có một tập dữ liệu lớn nhưng không có thông tin về đầu ra.

- Khám phá dữ liệu: Khi bạn muốn tìm hiểu cấu trúc hoặc mẫu trong dữ liệu mà không biết trước.

=> Ví dụ cụ thể: Phân nhóm khách hàng trong một cửa hàng trực tuyến dựa trên hành vi mua sắm của họ. Bạn có thể sử dụng máy học không giám sát để xác định các nhóm khách hàng có sở thích tương tự mà không cần biết trước thông tin về các nhóm này.

Câu 2: 

Thuật toán phân loại hoạt động bằng cách học từ một tập dữ liệu đã gán nhãn để xác định nhãn cho các dữ liệu chưa thấy. Quá trình này bao gồm:

+ Huấn luyện: Mô hình học từ dữ liệu đã gán nhãn, tìm ra mối quan hệ giữa các đặc trưng (features) và nhãn (labels).

+ Dự đoán: Khi nhận dữ liệu mới, mô hình sẽ sử dụng các mối quan hệ đã học để phân loại dữ liệu vào các nhãn tương ứng.

+ Ví dụ minh họa: Một mô hình phân loại hình ảnh có thể được huấn luyện trên tập dữ liệu hình ảnh của mèo và chó. Khi mô hình nhận một hình ảnh mới, nó sẽ phân loại hình ảnh đó là "mèo" hoặc "chó" dựa trên các đặc trưng đã học.

Câu 3: 

Overfitting là hiện tượng khi mô hình học quá kỹ từ dữ liệu huấn luyện, dẫn đến việc nó không tổng quát tốt cho dữ liệu mới. Mô hình sẽ có hiệu suất cao trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra.

Tại sao nó là một vấn đề:

- Mô hình không thể dự đoán chính xác cho dữ liệu chưa thấy, làm giảm khả năng ứng dụng thực tế.

- Cách tránh overfitting:

+ Sử dụng dữ liệu huấn luyện nhiều hơn: Cung cấp cho mô hình nhiều dữ liệu để học.

+ Giảm độ phức tạp của mô hình: Sử dụng mô hình đơn giản hơn hoặc giảm số lượng đặc trưng.

+ Kỹ thuật regularization: Thêm các điều kiện vào hàm mất mát để giảm thiểu độ phức tạp của mô hình.

+ Sử dụng k-fold cross-validation: Đánh giá mô hình trên nhiều tập dữ liệu khác nhau để kiểm tra tính tổng quát.

Câu 4: 

- Các tham số trong mô hình máy học là các giá trị mà mô hình điều chỉnh trong quá trình huấn luyện để tối ưu hóa hiệu suất. Chúng ảnh hưởng đến cách mà mô hình học từ dữ liệu.

- Cách điều chỉnh các tham số:

+ Tuning tham số: Sử dụng các phương pháp như Grid Search hoặc Random Search để tìm ra giá trị tốt nhất cho các tham số.

+ Kỹ thuật Cross-Validation: Chia dữ liệu thành nhiều tập để kiểm tra hiệu suất của mô hình với các tham số khác nhau.

+ Theo dõi hiệu suất: Đánh giá hiệu suất của mô hình với các tham số khác nhau và chọn tham số cho kết quả tốt nhất trên tập kiểm tra.

+ Việc điều chỉnh tham số là rất quan trọng để tối ưu hóa mô hình, giúp cải thiện khả năng dự đoán và độ chính xác của nó.


Bình luận

Giải bài tập những môn khác