Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc trích xuất các mẫu tiềm năng từ dữ liệu đã qua xử lý?

Câu 2: Kỹ thuật nào dưới đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu (missing values) bằng cách thay thế bằng giá trị trung bình của thuộc tính đó?

Câu 3: Trong luật kết hợp 'X -> Y', đại lượng nào đo lường tỷ lệ các giao dịch chứa cả X và Y trên tổng số giao dịch?

Câu 4: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

Câu 5: Trong phân lớp dữ liệu bằng cây quyết định, chỉ số Gini thường được sử dụng nhằm mục đích gì?

Câu 6: Hệ số Lift trong luật kết hợp 'X -> Y' có giá trị bằng 1 cho biết điều gì về mối quan hệ giữa X và Y?

Câu 7: Thuật toán gom cụm K-means thuộc loại kỹ thuật gom cụm nào sau đây?

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

Câu 9: Phương pháp 'Min-max normalization' biến đổi giá trị v của thuộc tính A sang v' trong khoảng [0, 1] theo công thức nào (với minA và maxA là giá trị nhỏ nhất và lớn nhất của A)?

Câu 10: Trong thuật toán K-means, việc lựa chọn giá trị K (số lượng cụm) ban đầu thường dựa trên phương pháp phổ biến nào?

Câu 11: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 12: Kỹ thuật 'Pruning' (Tỉa nhánh) trong xây dựng cây quyết định được sử dụng để làm gì?

Câu 13: Ma trận nhầm lẫn (Confusion Matrix) trong bài toán phân lớp nhị phân cung cấp các thông tin nào sau đây?

Câu 14: Trong phân cấp gom cụm (Hierarchical Clustering), phương pháp 'Single-linkage' định nghĩa khoảng cách giữa hai cụm là gì?

Câu 15: Thuật toán K-Nearest Neighbors (k-NN) là một ví dụ điển hình của phương pháp học nào?

Câu 16: Khai phá dữ liệu Web (Web Mining) được chia thành ba lĩnh vực chính là gì?

Câu 17: Đại lượng 'Entropy' trong lý thuyết thông tin dùng để đo lường điều gì trong dữ liệu?

Câu 18: Phân tích thành phần chính (Principal Component Analysis - PCA) thường được sử dụng trong bước nào của khai phá dữ liệu?

Câu 19: Trong gom cụm dựa trên mật độ DBSCAN, một điểm được gọi là 'Core point' (điểm lõi) nếu thỏa mãn điều kiện nào?

Câu 20: Chỉ số F1-score là giá trị trung bình điều hòa (harmonic mean) của hai đại lượng nào?

Câu 21: Mô hình phân lớp Random Forest hoạt động dựa trên nguyên lý nào?

Câu 22: Thuật toán FP-Growth có ưu điểm chính nào so với thuật toán Apriori trong khai phá luật kết hợp?

Câu 23: Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng cho mục đích nào trong tiền xử lý dữ liệu?

Câu 24: Trong mô hình CRISP-DM, bước đầu tiên cần thực hiện là gì?

Câu 25: Đặc điểm nào là nhược điểm chính của thuật toán k-NN?