Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và xử lý các giá trị bị thiếu?

Câu 2: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích chính nào sau đây?

Câu 3: Trong khai phá luật kết hợp, độ đo 'Support' (Độ hỗ trợ) của một tập mục A được hiểu là gì?

Câu 4: Thuật toán ID3 trong xây dựng cây quyết định sử dụng tiêu chí nào để lựa chọn thuộc tính phân tách tại mỗi nút?

Câu 5: Đặc điểm chính của thuật toán phân cụm K-means là gì?

Câu 6: Trong đánh giá mô hình phân loại, 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP: True Positive, FP: False Positive)?

Câu 7: Sự khác biệt cơ bản giữa phân loại (Classification) và phân cụm (Clustering) là gì?

Câu 8: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

Câu 9: Trong kỹ thuật DBSCAN, một điểm được gọi là 'Core point' (Điểm lõi) nếu thỏa mãn điều kiện nào?

Câu 10: Kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định nhằm giải quyết vấn đề nào sau đây?

Câu 11: Phương pháp 'Min-Max Normalization' biến đổi dữ liệu về khoảng giá trị nào thường gặp nhất?

Câu 12: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 13: Trong hệ thống OLAP, thao tác 'Roll-up' có ý nghĩa gì?

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được xếp vào loại 'Lazy Learner' (Người học lười) vì lý do nào?

Câu 15: Chỉ số Silhouette trong phân cụm được sử dụng để làm gì?

Câu 16: Trong khai phá dữ liệu, 'Outlier Detection' (Phát hiện ngoại lai) nhằm mục đích gì?

Câu 17: Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori?

Câu 18: Mô hình phân loại nào dựa trên việc tìm kiếm một 'siêu phẳng' (hyperplane) tối ưu để ngăn cách các lớp dữ liệu?

Câu 19: Trong tiền xử lý dữ liệu, 'Data Integration' (Tích hợp dữ liệu) đối mặt với thách thức nào sau đây?

Câu 20: Chỉ số Gini thường được sử dụng trong thuật toán cây quyết định nào sau đây?

Câu 21: Trong khai phá văn bản, trọng số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

Câu 22: Phương pháp 'Cross-validation' (Kiểm tra chéo) thường được sử dụng nhằm mục đích gì?

Câu 23: Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'Single Linkage' xác định khoảng cách giữa hai cụm như thế nào?

Câu 24: Ưu điểm của thuật toán Random Forest so với một cây quyết định đơn lẻ là gì?

Câu 25: Kỹ thuật 'Principal Component Analysis' (PCA) được sử dụng trong giai đoạn nào của khai phá dữ liệu?