Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:
Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc áp dụng các thuật toán thông minh để trích xuất các mẫu dữ liệu?
💡 Lời giải chi tiết:
Theo quy trình KDD chuẩn, khai phá dữ liệu là giai đoạn then chốt sử dụng các thuật toán để tìm ra các mẫu hoặc quy luật tiềm ẩn trong tập dữ liệu đã được chuẩn bị. Kết luận Lý giải Khai phá dữ liệu
Câu 2:
Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế bằng giá trị trung bình hoặc trung vị của thuộc tính đó?
💡 Lời giải chi tiết:
Làm sạch dữ liệu bao gồm các kỹ thuật xử lý nhiễu và điền giá trị thiếu để đảm bảo chất lượng dữ liệu trước khi phân tích. Kết luận Lý giải Làm sạch dữ liệu
Câu 3:
Trong khai phá luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến được định nghĩa là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ đo lường tần suất xuất hiện của một tập mục tiêu trong cơ sở dữ liệu giao dịch dưới dạng tỷ lệ phần trăm. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch
Câu 4:
Thuật toán phân cụm K-means thuộc loại kỹ thuật phân cụm nào sau đây?
💡 Lời giải chi tiết:
K-means là thuật toán điển hình của phương pháp phân hoạch, chia tập dữ liệu thành k cụm sao cho mỗi điểm thuộc về cụm có tâm gần nhất. Kết luận Lý giải Phân cụm dựa trên phân hoạch
Câu 5:
Sự khác biệt chính giữa phân lớp (Classification) và hồi quy (Regression) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
Phân lớp dự đoán các nhãn lớp định tính hoặc rời rạc, trong khi hồi quy dự đoán các giá trị số thực liên tục. Kết luận Lý giải Phân lớp dùng cho biến rời rạc, hồi quy dùng cho biến liên tục
Câu 6:
Hiện tượng quá khớp (Overfitting) trong mô hình học máy thường dẫn đến hệ quả nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học quá chi tiết cả nhiễu trong dữ liệu huấn luyện, khiến nó mất khả năng tổng quát hóa trên dữ liệu mới. Kết luận Lý giải Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp
Câu 7:
Kỹ thuật 'Min-Max Normalization' được sử dụng nhằm mục đích gì trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max điều chỉnh thang đo của các thuộc tính để chúng có đóng góp tương đương trong các thuật toán dựa trên khoảng cách. Kết luận Lý giải Chuyển đổi các giá trị dữ liệu về một khoảng xác định (thường là 0 đến 1)
Câu 8:
Trong cây quyết định, chỉ số Entropy được sử dụng để đo lường đại lượng nào?
💡 Lời giải chi tiết:
Entropy là thước đo toán học về mức độ không chắc chắn hoặc hỗn tạp của dữ liệu, được dùng để chọn thuộc tính phân chia tốt nhất. Kết luận Lý giải Độ hỗn loạn hoặc độ không thuần khiết của thông tin
Câu 9:
Giả định cơ bản quan trọng nhất của thuật toán Naive Bayes là gì?
💡 Lời giải chi tiết:
Thuật toán Naive Bayes được gọi là 'ngây thơ' vì nó giả định rằng sự hiện diện của một thuộc tính không liên quan đến sự hiện diện của các thuộc tính khác. Kết luận Lý giải Các thuộc tính đầu vào độc lập điều kiện với nhau khi biết lớp
Câu 10:
Đặc điểm nổi bật của thuật toán phân cụm DBSCAN so với K-means là gì?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ để kết nối các điểm dữ liệu, cho phép tìm thấy các cụm lồng nhau hoặc có hình dạng phức tạp mà K-means thường bỏ qua. Kết luận Lý giải Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu
Câu 11:
Chỉ số Lift trong luật kết hợp (A implies B) lớn hơn 1 cho biết điều gì?
💡 Lời giải chi tiết:
Lift đo lường mức độ phụ thuộc giữa hai tập mục tiêu; giá trị lớn hơn 1 chứng tỏ chúng xuất hiện cùng nhau nhiều hơn kỳ vọng nếu chúng độc lập. Kết luận Lý giải Sự xuất hiện của A có tác động tích cực đến khả năng xuất hiện của B
Câu 12:
Trong đánh giá mô hình phân lớp, độ thu hồi (Recall) đo lường điều gì?
💡 Lời giải chi tiết:
Độ thu hồi (hay độ nhạy) tập trung vào khả năng tìm thấy tất cả các mẫu thuộc lớp tích cực có trong tập dữ liệu. Kết luận Lý giải Tỷ lệ các trường hợp thực sự tích cực được mô hình dự đoán đúng
Câu 13:
Phân tích tương quan (Correlation Analysis) thường được sử dụng trong bước nào của tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Phân tích tương quan giúp xác định các thuộc tính trùng lặp hoặc phụ thuộc lẫn nhau để loại bỏ chúng khi tích hợp dữ liệu từ nhiều nguồn. Kết luận Lý giải Tích hợp dữ liệu để giảm thiểu dư thừa
Câu 14:
Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng cho phương pháp khai phá nào?
💡 Lời giải chi tiết:
Dendrogram hiển thị cấu trúc hình cây của các phân cụm phân cấp, cho thấy quá trình hợp nhất hoặc chia tách các cụm dữ liệu. Kết luận Lý giải Phân cụm phân cấp
Câu 15:
Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
PCA là kỹ thuật giảm chiều dữ liệu không giám sát giúp đơn giản hóa tập dữ liệu mà vẫn giữ được thông tin quan trọng nhất thông qua các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu bằng cách giữ lại các biến có phương sai lớn nhất
Câu 16:
Trong quá trình xây dựng mô hình, tập dữ liệu kiểm tra (Test set) được sử dụng khi nào?
💡 Lời giải chi tiết:
Tập kiểm tra phải là dữ liệu hoàn toàn mới đối với mô hình để đảm bảo đánh giá khách quan về hiệu suất tổng quát hóa. Kết luận Lý giải Sau khi mô hình đã hoàn thiện để đánh giá khả năng thực tế
Câu 17:
Chỉ số Gini thường được áp dụng trong thuật toán xây dựng cây quyết định nào?
💡 Lời giải chi tiết:
Trong khi ID3 và C4.5 sử dụng Information Gain hoặc Gain Ratio, thuật toán CART sử dụng chỉ số Gini để đo lường độ tinh khiết khi phân chia nút. Kết luận Lý giải CART
Câu 18:
Khái niệm 'Lời nguyền đa chiều' (Curse of Dimensionality) ám chỉ vấn đề gì?
💡 Lời giải chi tiết:
Khi số lượng thuộc tính tăng lên, dữ liệu trở nên thưa thớt trong không gian cao chiều, khiến các phép toán khoảng cách mất đi ý nghĩa phân biệt. Kết luận Lý giải Dữ liệu có quá nhiều chiều (thuộc tính) làm giảm hiệu quả phân tích
Câu 19:
Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy Learner) vì lý do nào?
💡 Lời giải chi tiết:
Khác với các phương pháp 'eager learners', KNN không tạo ra mô hình trừu tượng mà chỉ lưu trữ dữ liệu và thực hiện tính toán khi có yêu cầu truy vấn. Kết luận Lý giải Nó trì hoãn việc xây dựng mô hình cho đến khi có dữ liệu cần dự đoán
Câu 20:
Phương pháp Z-score được sử dụng để phát hiện điểm ngoại lai dựa trên đại lượng nào?
💡 Lời giải chi tiết:
Z-score chuẩn hóa dữ liệu và xác định một điểm là ngoại lai nếu nó nằm cách xa giá trị trung bình vượt quá một ngưỡng độ lệch chuẩn nhất định. Kết luận Lý giải Độ lệch chuẩn so với giá trị trung bình của tập dữ liệu
Câu 21:
Kỹ thuật 'Bagging' trong học máy kết hợp nhiều mô hình cơ sở nhằm mục đích chính là gì?
💡 Lời giải chi tiết:
Bagging (như trong Random Forest) huấn luyện nhiều mô hình trên các tập con dữ liệu khác nhau và lấy trung bình kết quả để tạo ra dự đoán ổn định hơn. Kết luận Lý giải Giảm phương sai và tránh hiện tượng quá khớp
Câu 22:
Ma trận nhầm lẫn (Confusion Matrix) cung cấp thông tin gì về mô hình phân lớp?
💡 Lời giải chi tiết:
Ma trận này hiển thị chi tiết số lượng mẫu thực tế của từng lớp so với nhãn mà mô hình dự đoán, giúp tính toán các chỉ số như Accuracy, Precision, Recall. Kết luận Lý giải Sự phân bố của các dự đoán đúng và sai cho từng lớp
Câu 23:
Trong kiến trúc kho dữ liệu, quá trình ETL bao gồm các bước nào?
💡 Lời giải chi tiết:
ETL là quy trình chuẩn để trích xuất dữ liệu từ nguồn, biến đổi định dạng phù hợp và nạp vào kho dữ liệu để phân tích. Kết luận Lý giải Extract, Transform, Load
Câu 24:
Ưu điểm chính của thuật toán FP-Growth so với Apriori trong khai phá luật kết hợp là gì?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và tìm tập phổ biến mà không phải duyệt cơ sở dữ liệu nhiều lần hay tạo ứng viên như Apriori. Kết luận Lý giải Không cần tạo ra các tập ứng viên (candidate generation)
Câu 25:
Hệ số Silhouette được dùng để đánh giá chất lượng của kỹ thuật nào?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với các điểm trong cùng cụm so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải Phân cụm dữ liệu