Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thường được thực hiện ngay sau khi dữ liệu đã được làm sạch và tích hợp?

Câu 2: Trong luật kết hợp, độ tin cậy (Confidence) của luật 'A kéo theo B' được định nghĩa như thế nào?

Câu 3: Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu thường dẫn đến hệ quả nào sau đây?

Câu 4: Thuật toán gom cụm K-means nhạy cảm nhất với yếu tố nào dưới đây?

Câu 5: Kỹ thuật 'Binning' (chia giỏ) trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

Câu 6: Sự khác biệt chính giữa OLAP và OLTP là gì?

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường điều gì?

Câu 8: Tính chất 'Apriori' trong khai phá luật kết hợp khẳng định điều gì?

Câu 9: Phương pháp chuẩn hóa 'Min-Max' biến đổi dữ liệu về khoảng giá trị nào sau đây (theo mặc định phổ biến)?

Câu 10: Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng của phương pháp khai phá nào?

Câu 11: Trong kỹ thuật phát hiện ngoại lai, phương pháp Box-plot xác định một điểm là ngoại lai nếu nó nằm ngoài khoảng nào?

Câu 12: Nhiệm vụ chính của 'Phân lớp dữ liệu' (Classification) là gì?

Câu 13: Khi xử lý dữ liệu bị thiếu (Missing values), phương pháp nào sau đây có thể gây sai lệch kết quả phân tích nhất nếu tỷ lệ thiếu lớn?

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được phân loại là kiểu người học nào?

Câu 15: Chỉ số F1-score là giá trị trung bình nào của Precision (độ chính xác) và Recall (độ triệu hồi)?

Câu 16: Đặc điểm nổi bật nhất của thuật toán gom cụm DBSCAN là gì?

Câu 17: Trong khai phá luật kết hợp, nếu chỉ số Lift của luật 'A kéo theo B' lớn hơn 1, điều đó có ý nghĩa gì?

Câu 18: Mục đích chính của kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định là gì?

Câu 19: Trong kho dữ liệu, lược đồ 'Snowflake' (bông tuyết) khác với lược đồ 'Star' (sao) ở điểm nào?

Câu 20: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào trong tiền xử lý dữ liệu?

Câu 21: Vai trò của hàm kích hoạt (Activation Function) trong mạng Neural nhân tạo là gì?

Câu 22: Thuật toán Random Forest hoạt động dựa trên nguyên lý nào sau đây?

Câu 23: Kỹ thuật 'Anonymization' (vô danh hóa) trong khai phá dữ liệu nhằm mục đích chính là gì?

Câu 24: Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để đánh giá điều gì?

Câu 25: Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?