Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình KDD (Knowledge Discovery in Databases), bước nào chịu trách nhiệm chính trong việc áp dụng các thuật toán để trích xuất các mẫu tiềm ẩn?
💡 Lời giải chi tiết:
Theo quy trình tiêu chuẩn KDD, giai đoạn Khai phá dữ liệu là bước then chốt sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc tri thức từ dữ liệu. Kết luận Lý giải Khai phá dữ liệu (Data Mining)
Câu 2:Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình của thuộc tính đó?
💡 Lời giải chi tiết:
Làm sạch dữ liệu bao gồm các phương pháp xử lý dữ liệu nhiễu và lấp đầy các giá trị bị thiếu để đảm bảo chất lượng tập dữ liệu đầu vào. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)
Câu 3:Trong khai phá luật kết hợp, chỉ số nào cho biết xác suất mà một giao dịch chứa tập mục tiêu A cũng sẽ chứa tập mục tiêu B?
💡 Lời giải chi tiết:
Độ tin cậy (Confidence) đo lường khả năng xuất hiện của mục tiêu B trong các giao dịch đã chứa mục tiêu A. Kết luận Lý giải Độ tin cậy (Confidence)
Câu 4:Thuật toán phân lớp nào sau đây hoạt động dựa trên định lý Bayes và giả định về sự độc lập giữa các biến dự báo?
💡 Lời giải chi tiết:
Naive Bayes là một mô hình phân loại xác suất dựa trên việc áp dụng định lý Bayes với giả định 'ngây thơ' rằng các đặc trưng là độc lập với nhau. Kết luận Lý giải Naive Bayes
Câu 5:Đặc điểm chính của thuật toán gom cụm K-means là gì?
💡 Lời giải chi tiết:
K-means là thuật toán gom cụm dạng phân hoạch, lặp đi lặp lại việc gán đối tượng vào cụm có trọng tâm gần nhất. Kết luận Lý giải Phân chia dữ liệu vào K cụm dựa trên khoảng cách tới các trọng tâm
Câu 6:Phương pháp 'Min-Max normalization' thuộc về bước nào trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Chuẩn hóa dữ liệu như phương pháp Min-Max là một kỹ thuật chuyển đổi dữ liệu để đưa các giá trị về một khoảng xác định, thường là từ 0 đến 1. Kết luận Lý giải Chuyển đổi dữ liệu (Data Transformation)
Câu 7:Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori trong khai phá luật kết hợp?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và chỉ cần quét cơ sở dữ liệu hai lần, giúp tăng hiệu suất đáng kể so với Apriori. Kết luận Lý giải Không cần quét cơ sở dữ liệu nhiều lần
Câu 8:Trong phân lớp dữ liệu, hiện tượng mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập dữ liệu mới được gọi là gì?
💡 Lời giải chi tiết:
Overfitting xảy ra khi mô hình quá phức tạp, học cả nhiễu trong dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém. Kết luận Lý giải Overfitting (Quá khớp)
Câu 9:Thuật toán DBSCAN thuộc loại gom cụm nào?
💡 Lời giải chi tiết:
DBSCAN xác định các cụm dựa trên vùng có mật độ điểm dữ liệu cao và có khả năng phát hiện các điểm nhiễu. Kết luận Lý giải Gom cụm dựa trên mật độ (Density-based)
Câu 10:Chỉ số Gini Index thường được sử dụng làm tiêu chí để thực hiện việc gì trong thuật toán Decision Tree?
💡 Lời giải chi tiết:
Gini Index đo lường độ không thuần nhất (impurity) của dữ liệu, được sử dụng trong thuật toán CART để chọn thuộc tính chia nút. Kết luận Lý giải Lựa chọn thuộc tính phân chia tốt nhất
Câu 11:Trong kỹ thuật đánh giá mô hình, 'Confusion Matrix' được sử dụng để làm gì?
💡 Lời giải chi tiết:
Ma trận nhầm lẫn (Confusion Matrix) là bảng thống kê chi tiết các kết quả dự báo đúng và sai của mô hình phân lớp so với thực tế. Kết luận Lý giải Thống kê số lượng dự đoán đúng và sai cho từng lớp
Câu 12:Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
PCA là kỹ thuật giảm chiều dữ liệu bằng cách biến đổi các biến ban đầu thành một tập các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu nhưng vẫn giữ lại tối đa thông tin quan trọng
Câu 13:Thuật toán gom cụm nào bắt đầu bằng cách coi mỗi đối tượng là một cụm riêng biệt và sau đó tiến hành hợp nhất chúng?
💡 Lời giải chi tiết:
Gom cụm phân cấp kết tụ (Agglomerative Hierarchical Clustering) sử dụng cách tiếp cận từ dưới lên (bottom-up), bắt đầu từ từng điểm dữ liệu riêng lẻ. Kết luận Lý giải Gom cụm phân cấp kết tụ (Agglomerative)
Câu 14:Trong khai phá dữ liệu, 'Outlier' được định nghĩa là gì?
💡 Lời giải chi tiết:
Ngoại lệ (Outlier) là những quan sát không tuân theo quy luật chung hoặc có khoảng cách rất xa so với các điểm dữ liệu khác. Kết luận Lý giải Các đối tượng dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu
Câu 15:Thuật toán k-Nearest Neighbors (k-NN) được xếp vào loại mô hình học máy nào?
💡 Lời giải chi tiết:
k-NN được gọi là 'học lười' vì nó không xây dựng mô hình tổng quát hóa trong giai đoạn huấn luyện mà chỉ lưu trữ dữ liệu và tính toán khi có truy vấn. Kết luận Lý giải Học lười (Lazy learner)
Câu 16:Kỹ thuật 'Binning' thường được sử dụng trong bước tiền xử lý nào để làm mịn dữ liệu nhiễu?
💡 Lời giải chi tiết:
Binning là kỹ thuật chia dữ liệu vào các 'thùng' (bins) để giảm bớt tác động của nhiễu bằng cách sử dụng giá trị trung bình hoặc trung vị của thùng. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)
Câu 17:Chỉ số 'Lift' trong khai phá luật kết hợp có giá trị bằng 1 có ý nghĩa gì?
💡 Lời giải chi tiết:
Khi Lift = 1, xác suất xuất hiện đồng thời của A và B bằng tích các xác suất riêng lẻ, nghĩa là A và B không có sự phụ thuộc lẫn nhau. Kết luận Lý giải Hai tập mục tiêu độc lập với nhau
Câu 18:Thao tác nào trong mô hình OLAP cho phép người dùng xem dữ liệu ở mức chi tiết hơn (từ tổng quát đến cụ thể)?
💡 Lời giải chi tiết:
Thao tác Drill-down giúp di chuyển từ dữ liệu mức cao xuống mức dữ liệu chi tiết hơn theo các phân cấp chiều. Kết luận Lý giải Drill-down
Câu 19:Mục tiêu chính của phương pháp 'Pruning' (cắt tỉa) trong xây dựng cây quyết định là gì?
💡 Lời giải chi tiết:
Cắt tỉa giúp loại bỏ các nhánh cây không mang lại nhiều thông tin dự báo, giúp mô hình đơn giản hơn và tránh học vẹt dữ liệu huấn luyện. Kết luận Lý giải Giảm độ phức tạp và ngăn chặn hiện tượng quá khớp (overfitting)
Câu 20:Kỹ thuật 'Cross-validation' (kiểm tra chéo) thường được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Kiểm tra chéo giúp ước lượng sai số của mô hình một cách khách quan hơn bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện, kiểm thử. Kết luận Lý giải Đánh giá hiệu suất và tính ổn định của mô hình trên các tập dữ liệu khác nhau
Câu 21:Thuật toán Support Vector Machine (SVM) tìm kiếm đối tượng nào để thực hiện việc phân lớp?
💡 Lời giải chi tiết:
SVM hướng tới việc tìm ra một siêu phẳng phân chia các lớp dữ liệu sao cho khoảng cách (lề) từ siêu phẳng đó đến các điểm dữ liệu gần nhất là lớn nhất. Kết luận Lý giải Một siêu phẳng (hyperplane) có lề (margin) tối đa
Câu 22:Khái niệm 'Curse of Dimensionality' (Lời nguyền đa chiều) ám chỉ vấn đề gì?
💡 Lời giải chi tiết:
Khi số chiều tăng lên, dữ liệu trở nên thưa thớt và khoảng cách giữa các điểm không còn mang ý nghĩa phân biệt rõ ràng, gây khó khăn cho các thuật toán. Kết luận Lý giải Khó khăn phát sinh khi không gian dữ liệu có quá nhiều chiều (thuộc tính)
Câu 23:Trong khai phá dữ liệu văn bản, kỹ thuật TF-IDF được sử dụng để làm gì?
💡 Lời giải chi tiết:
TF-IDF giúp xác định những từ khóa mang tính đặc trưng cho một tài liệu bằng cách kết hợp tần suất xuất hiện và độ hiếm của từ đó. Kết luận Lý giải Đánh giá tầm quan trọng của một từ trong một tài liệu so với toàn bộ kho ngữ liệu
Câu 24:Phân tích giỏ hàng (Market Basket Analysis) là một ứng dụng phổ biến của kỹ thuật nào?
💡 Lời giải chi tiết:
Phân tích giỏ hàng tìm kiếm các mối liên hệ giữa các mặt hàng mà khách hàng thường mua cùng nhau, dựa trên các luật kết hợp. Kết luận Lý giải Khai phá luật kết hợp (Association Rule Mining)
Câu 25:Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp là quá trình gán nhãn cho dữ liệu dựa trên các mẫu đã biết, trong khi gom cụm nhóm các đối tượng tương đồng mà không cần nhãn trước. Kết luận Lý giải Phân lớp dựa trên nhãn lớp có sẵn, gom cụm tự tìm cấu trúc trong dữ liệu chưa dán nhãn