Câu hỏi tự luận mức độ vận dụng Khoa học máy tính 12 cd bài 1: Giới thiệu về học máy

3. VẬN DỤNG (4 CÂU)

Câu 1: Hãy trình bày cách thức thu thập và chuẩn bị dữ liệu huấn luyện cho một bài toán phân loại?

Câu 2: Phân tích một ứng dụng thực tế của máy học trong nhận dạng tiếng nói và mô tả quy trình thực hiện?

Câu 3: Giải thích cách đánh giá hiệu suất của một mô hình học máy và nêu các chỉ số thường được sử dụng?

Câu 4: Trình bày cách thức áp dụng học không giám sát trong phân tích thị trường?


Câu 1: 

- Xác định nguồn dữ liệu: Lựa chọn nguồn dữ liệu phù hợp, có thể là từ cơ sở dữ liệu công khai, API, hoặc thu thập dữ liệu từ người dùng.

- Thu thập dữ liệu: Sử dụng các công cụ hoặc kỹ thuật để thu thập dữ liệu từ nguồn đã chọn (ví dụ: web scraping, khảo sát).

- Làm sạch dữ liệu: Xóa bỏ các dữ liệu không hợp lệ, thiếu giá trị hoặc nhiễu. Kiểm tra và xử lý các giá trị ngoại lệ.

- Gán nhãn dữ liệu: Nếu là bài toán phân loại có giám sát, cần gán nhãn cho dữ liệu (ví dụ: đánh dấu các email là spam hoặc không spam).

- Tiền xử lý dữ liệu: Chuyển đổi dữ liệu về định dạng phù hợp, chuẩn hóa hay mã hóa các thuộc tính (ví dụ: One-Hot Encoding cho biến phân loại).

- Chia dữ liệu: Chia dữ liệu thành tập huấn luyện và tập kiểm tra (ví dụ: 80% cho huấn luyện, 20% cho kiểm tra).

Câu 2: 

Ứng dụng: Nhận diện giọng nói trong các trợ lý ảo như Google Assistant.

*Quy trình thực hiện:

+ Thu thập dữ liệu: Ghi âm giọng nói từ nhiều người ở các điều kiện khác nhau.

+ Tiền xử lý dữ liệu: Chuyển đổi âm thanh thành dạng sóng và tách các đặc trưng như + MFCC (Mel-frequency cepstral coefficients).

+ Huấn luyện mô hình: Sử dụng các thuật toán học sâu (deep learning) như mạng nơ-ron tích chập (CNN) để huấn luyện mô hình từ dữ liệu đã chuẩn bị.

+ Đánh giá mô hình: Sử dụng tập kiểm tra để đánh giá độ chính xác của mô hình trong việc nhận diện giọng nói.

+ Triển khai: Tích hợp mô hình vào ứng dụng thực tế để nhận diện giọng nói của người dùng.

Câu 3: 

- Cách đánh giá: Hiệu suất của mô hình được đánh giá bằng cách sử dụng tập dữ liệu kiểm tra để xem mô hình hoạt động như thế nào trên dữ liệu chưa thấy.

*Chỉ số thường sử dụng:

+ Độ chính xác (Accuracy): Tỷ lệ dự đoán đúng so với tổng số dự đoán.

+ Độ nhạy (Recall): Tỷ lệ dự đoán đúng trên tổng số trường hợp dương tính thực sự.

+ Độ chính xác (Precision): Tỷ lệ dự đoán đúng trên tổng số trường hợp dự đoán là dương tính.

+ F1-score: Trung bình điều hòa giữa độ chính xác và độ nhạy.

+ AUC-ROC: Đánh giá khả năng phân loại của mô hình qua đường cong ROC.

Câu 4: 

- Thu thập dữ liệu: Tập hợp dữ liệu từ các nguồn như khảo sát khách hàng, dữ liệu bán hàng, hoặc hành vi trực tuyến.

- Tiền xử lý dữ liệu: Làm sạch và chuẩn hóa dữ liệu để loại bỏ nhiễu và chuẩn hóa định dạng.

- Chọn thuật toán phân cụm: Sử dụng các thuật toán như K-means hoặc DBSCAN để phân nhóm khách hàng dựa trên các đặc điểm tương tự.

- Phân tích kết quả: Đánh giá các cụm đã tạo ra để tìm hiểu hành vi và sở thích của từng nhóm khách hàng.

- Đưa ra quyết định: Sử dụng thông tin từ phân tích để phát triển các chiến lược tiếp thị nhắm đến từng nhóm khách hàng cụ thể.


Bình luận

Giải bài tập những môn khác