Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào thường chiếm nhiều thời gian và công sức nhất?

Câu 2: Mục tiêu chính của việc chuẩn hóa dữ liệu (Data Normalization) bằng phương pháp 'Min-Max' là gì?

Câu 3: Thuật toán K-Nearest Neighbors (KNN) thuộc nhóm phương pháp khai phá dữ liệu nào sau đây?

Câu 4: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập mục tiêu được hiểu là gì?

Câu 5: Kỹ thuật PCA (Principal Component Analysis) thường được ứng dụng để giải quyết vấn đề gì?

Câu 6: Đặc điểm chính để phân biệt giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

Câu 7: Trong cây quyết định (Decision Tree), hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào?

Câu 8: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính?

Câu 9: Ưu điểm nổi bật nhất của thuật toán DBSCAN so với K-means trong phân cụm là gì?

Câu 10: Chỉ số F1-score là giá trị trung bình nào giữa Precision (Độ chính xác) và Recall (Độ triệu hồi)?

Câu 11: Trong thuật toán Apriori, nguyên lý 'tỉa nhánh' (pruning) dựa trên tính chất nào?

Câu 12: Mục đích của việc sử dụng 'Cross-validation' (Kiểm chứng chéo) là gì?

Câu 13: Trong khai phá dữ liệu văn bản (Text Mining), bước 'Stop words removal' có tác dụng gì?

Câu 14: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ biểu diễn nào sau đây?

Câu 15: Tham số 'Lift' trong luật kết hợp A -> B lớn hơn 1 có ý nghĩa gì?

Câu 16: Phương pháp 'Entropy' thường được sử dụng trong cây quyết định để làm gì?

Câu 17: Kỹ thuật 'Bagging' (như trong Random Forest) giúp cải thiện mô hình bằng cách nào?

Câu 18: Trong hệ thống gợi ý (Recommender Systems), kỹ thuật 'Collaborative Filtering' dựa trên yếu tố nào?

Câu 19: Chỉ số Silhouette Coefficient được dùng để đánh giá kết quả của nhiệm vụ nào?

Câu 20: Thế nào là một 'Outlier' (Giá trị ngoại lệ) trong tập dữ liệu?

Câu 21: Mạng nơ-ron nhân tạo (ANN) cập nhật trọng số thông qua thuật toán nào sau đây?

Câu 22: Trong Ma trận nhầm lẫn (Confusion Matrix), 'False Positive' (Dương tính giả) nghĩa là gì?

Câu 23: Web Usage Mining tập trung vào việc khai phá thông tin gì?

Câu 24: Tại sao cần thực hiện 'Feature Selection' (Chọn lọc thuộc tính) trước khi huấn luyện mô hình?

Câu 25: Trong thuật toán K-means, việc chọn vị trí các tâm cụm (centroids) ban đầu có ảnh hưởng như thế nào?