Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán?

Câu 2: Kỹ thuật nào dưới đây thường được sử dụng để giải quyết vấn đề dữ liệu có các thang đo (scale) khác nhau trước khi đưa vào mô hình khai phá?

Câu 3: Trong khai phá luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?

Câu 4: Thuật toán Apriori dựa trên tính chất cốt lõi nào để giảm bớt không gian tìm kiếm các tập mục tiêu phổ biến?

Câu 5: Điểm khác biệt cơ bản nhất giữa Phân lớp (Classification) và Gom cụm (Clustering) là gì?

Câu 6: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường đại lượng nào?

Câu 7: Giả định quan trọng nhất của thuật toán Naive Bayes là gì?

Câu 8: Thuật toán K-Nearest Neighbors (KNN) được phân loại là phương pháp học nào?

Câu 9: Mục tiêu chính của thuật toán Máy vectơ hỗ trợ (Support Vector Machine - SVM) là gì?

Câu 10: Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu xảy ra khi nào?

Câu 11: Thuật toán K-means là một kỹ thuật gom cụm dựa trên nguyên lý nào?

Câu 12: Trong thuật toán DBSCAN, một điểm được gọi là 'Core Point' (điểm lõi) nếu thỏa mãn điều kiện nào?

Câu 13: Chỉ số Silhouette Coefficient được sử dụng để đánh giá chất lượng của tác vụ nào?

Câu 14: Độ đo 'Recall' (Độ triệu hồi) trong đánh giá mô hình phân lớp được tính như thế nào?

Câu 15: Mục đích chính của kỹ thuật 'K-fold Cross-validation' là gì?

Câu 16: Kỹ thuật PCA (Principal Component Analysis) thường được dùng cho mục đích nào trong tiền xử lý dữ liệu?

Câu 17: Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để làm gì?

Câu 18: Thuật toán gom cụm phân cấp (Hierarchical Clustering) thường được biểu diễn trực quan bằng sơ đồ nào?

Câu 19: Dữ liệu ngoại lai (Outliers) trong khai phá dữ liệu thường được hiểu là gì?

Câu 20: Thuật toán 'Random Forest' hoạt động dựa trên nguyên lý nào?

Câu 21: Chỉ số 'Lift' trong khai phá luật kết hợp (A -> B) lớn hơn 1 có ý nghĩa gì?

Câu 22: Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng trong bước nào của tiền xử lý dữ liệu?

Câu 23: Trong đánh giá mô hình, 'F1-Score' là đại lượng được tính toán dựa trên sự kết hợp của hai chỉ số nào?

Câu 24: Hệ thống 'OLAP' (Online Analytical Processing) khác với 'Data Mining' ở điểm cơ bản nào?

Câu 25: Mục tiêu của 'Data Transformation' (Biến đổi dữ liệu) trong khai phá dữ liệu là gì?