Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc làm sạch và tích hợp dữ liệu từ nhiều nguồn khác nhau?

Câu 2: Độ hỗ trợ (Support) của một tập mục phổ biến trong khai phá luật kết hợp được định nghĩa là gì?

Câu 3: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính của dữ liệu?

Câu 4: Đặc điểm chính của thuật toán phân cụm K-means là gì?

Câu 5: Trong đánh giá luật kết hợp, chỉ số Lift lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?

Câu 6: Hiện tượng quá khớp (Overfitting) trong phân lớp dữ liệu xảy ra khi nào?

Câu 7: Mục tiêu chính của kỹ thuật Phân tích thành phần chính (PCA) trong tiền xử lý dữ liệu là gì?

Câu 8: Trong ma trận nhầm lẫn (Confusion Matrix), độ nhạy (Recall) được tính bằng công thức nào?

Câu 9: Khái niệm 'Outlier' trong khai phá dữ liệu dùng để chỉ đối tượng nào?

Câu 10: Sự khác biệt cơ bản giữa bài toán Hồi quy (Regression) và bài toán Phân lớp (Classification) là gì?

Câu 11: Trong thuật toán cây quyết định ID3, chỉ số Entropy dùng để đo lường điều gì?

Câu 12: Ưu điểm nổi bật của thuật toán FP-Growth so với thuật toán Apriori trong khai phá luật kết hợp là gì?

Câu 13: Kỹ thuật chuẩn hóa Min-Max Scaling thực hiện việc gì trên dữ liệu?

Câu 14: Đặc trưng quan trọng nhất của thuật toán phân cụm DBSCAN là gì?

Câu 15: Phương pháp kiểm tra chéo (Cross-validation) được sử dụng nhằm mục đích gì?

Câu 16: Kho dữ liệu (Data Warehouse) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?

Câu 17: Trong cây quyết định, thuộc tính có chỉ số Thông tin thu được (Information Gain) cao nhất thường được chọn để làm gì?

Câu 18: Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy learning) vì lý do nào?

Câu 19: Khai phá sử dụng web (Web Usage Mining) tập trung vào việc phân tích đối tượng nào?

Câu 20: Mô hình Rừng ngẫu nhiên (Random Forest) cải thiện độ chính xác bằng cách nào?

Câu 21: Kỹ thuật rời rạc hóa dữ liệu (Data Discretization) có tác dụng gì trong khai phá dữ liệu?

Câu 22: Biểu đồ Dendrogram thường được sử dụng để minh họa kết quả của phương pháp khai phá nào?

Câu 23: Mục tiêu của thuật toán Máy vectơ hỗ trợ (SVM) trong bài toán phân lớp là gì?

Câu 24: Cách tiếp cận phổ biến nhất để xử lý dữ liệu bị thiếu (Missing values) mà không làm mất quá nhiều thông tin là gì?

Câu 25: Độ tin cậy (Confidence) của luật kết hợp A dẫn đến B được tính như thế nào?