Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào được thực hiện ngay trước giai đoạn Khai phá dữ liệu (Data Mining) để đảm bảo dữ liệu sẵn sàng cho các thuật toán?

Câu 2: Thuật toán K-means trong khai phá dữ liệu thuộc nhóm phương pháp nào sau đây?

Câu 3: Trong phân tích luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập phổ biến A được định nghĩa như thế nào?

Câu 4: Khái niệm 'Overfitting' (Quá khớp) trong xây dựng mô hình phân loại thường xảy ra khi nào?

Câu 5: Thuật toán Naive Bayes dựa trên giả thuyết quan trọng nào về các thuộc tính của dữ liệu?

Câu 6: Trong kỹ thuật làm sạch dữ liệu, việc xử lý 'Outliers' (Dữ liệu ngoại lai) nhằm mục đích chính là gì?

Câu 7: Chỉ số 'Lift' trong luật kết hợp A suy ra B có giá trị bằng 1 cho biết điều gì?

Câu 8: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max thường đưa dữ liệu về khoảng giá trị nào?

Câu 9: Cây quyết định (Decision Tree) sử dụng độ đo 'Entropy' để thực hiện việc gì?

Câu 10: Sự khác biệt cơ bản giữa Phân loại (Classification) và Phân cụm (Clustering) là gì?

Câu 11: Trong thuật toán KNN (K-Nearest Neighbors), biến 'K' đại diện cho yếu tố nào?

Câu 12: Mục tiêu chính của kỹ thuật PCA (Principal Component Analysis) trong tiền xử lý dữ liệu là gì?

Câu 13: Hệ số 'Silhouette' trong phân tích phân cụm được sử dụng để đánh giá điều gì?

Câu 14: Trong mạng nơ-ron nhân tạo, hàm kích hoạt (Activation Function) có vai trò chính là gì?

Câu 15: Khi xây dựng cây quyết định, hiện tượng 'Pruning' (Tỉa cây) được thực hiện nhằm mục đích gì?

Câu 16: Ma trận nhầm lẫn (Confusion Matrix) trong khai phá dữ liệu dùng để làm gì?

Câu 17: Trong bài toán phân loại, chỉ số 'Recall' (Độ gợi nhớ) được hiểu là gì?

Câu 18: Đặc điểm chính của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

Câu 19: Thuật toán Random Forest cải thiện độ chính xác so với một cây quyết định đơn lẻ bằng cách nào?

Câu 20: Trong kỹ thuật khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF dùng để làm gì?

Câu 21: Phương pháp 'Cross-validation' (Kiểm chéo) được sử dụng trong khai phá dữ liệu với mục đích gì?

Câu 22: Trong khai phá dữ liệu, 'Data Warehouse' (Kho dữ liệu) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?

Câu 23: Thuật toán FP-Growth có ưu điểm nổi bật gì so với thuật toán Apriori trong khai phá tập phổ biến?

Câu 24: Trong Support Vector Machines (SVM), 'Kernel trick' được sử dụng để làm gì?

Câu 25: Đâu là một ví dụ điển hình của ứng dụng Khai phá dữ liệu trong lĩnh vực Thương mại điện tử?