Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào trực tiếp thực hiện việc trích xuất các mẫu tiềm năng bằng các thuật toán thông minh?

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình hoặc giá trị phổ biến nhất?

Câu 3: Trong phân tích luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?

Câu 4: Trong một luật kết hợp 'A kéo theo B', độ tin cậy (Confidence) được tính toán dựa trên công thức nào?

Câu 5: Giá trị 'Lift' trong luật kết hợp lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?

Câu 6: Nguyên lý nào là cơ sở của thuật toán Apriori để giảm bớt không gian tìm kiếm các tập phổ biến?

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường yếu tố nào?

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

Câu 9: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 10: Thuật toán K-Nearest Neighbors (KNN) được phân loại vào nhóm học máy nào sau đây?

Câu 11: Mục tiêu chính của các thuật toán phân cụm (Clustering) trong khai phá dữ liệu là gì?

Câu 12: Trong thuật toán K-means, việc xác định các đối tượng thuộc về cụm nào dựa trên tiêu chí nào?

Câu 13: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ cấu trúc dạng cây được gọi là gì?

Câu 14: Đặc điểm nổi bật của thuật toán DBSCAN so với K-means là gì?

Câu 15: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính như thế nào?

Câu 16: Chỉ số F1-score là đại lượng kết hợp giữa hai thông số nào sau đây?

Câu 17: Kỹ thuật 'Rời rạc hóa dữ liệu' (Data Discretization) thường được thực hiện ở giai đoạn nào?

Câu 18: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào?

Câu 19: Kỹ thuật 'Ensemble Learning' như Random Forest hoạt động dựa trên nguyên lý gì?

Câu 20: Trong khai phá dữ liệu web (Web Mining), việc phân tích cấu trúc các liên kết giữa các trang web được gọi là gì?

Câu 21: Khái niệm 'Data Warehouse' có mối quan hệ như thế nào với 'Data Mining'?

Câu 22: Đâu là một ví dụ về thuật toán học có giám sát (Supervised Learning)?

Câu 23: Trong quá trình đánh giá mô hình, phương pháp 'K-fold Cross-validation' giúp giải quyết vấn đề gì?

Câu 24: Điểm dữ liệu nào được coi là 'Outlier' (Điểm biên/ngoại lệ)?

Câu 25: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu về khoảng [0, 1] nhằm mục đích chính là gì?