Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình Khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào đóng vai trò then chốt trong việc áp dụng thuật toán để tìm ra các mẫu tiềm ẩn?

Câu 2: Kỹ thuật nào trong tiền xử lý dữ liệu tập trung vào việc xử lý các giá trị bị thiếu và giảm thiểu dữ liệu nhiễu?

Câu 3: Trong khai phá luật kết hợp, chỉ số nào cho biết tần suất xuất hiện đồng thời của các mục trong một tập dữ liệu so với tổng số giao dịch?

Câu 4: Sự khác biệt cơ bản nhất giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

Câu 5: Trong thuật toán Cây quyết định (Decision Tree), độ đo nào thường được sử dụng để xác định mức độ không thuần nhất (impurity) của một tập dữ liệu?

Câu 6: Thuật toán K-means thực hiện phân cụm dựa trên nguyên lý cốt lõi nào?

Câu 7: Giả định quan trọng nhất của thuật toán Naive Bayes trong phân lớp dữ liệu là gì?

Câu 8: Trong kiến trúc Kho dữ liệu (Data Warehouse), lược đồ nào có một bảng sự kiện (fact table) ở trung tâm và kết nối trực tiếp với các bảng chiều (dimension tables)?

Câu 9: Kỹ thuật Phân tích thành phần chính (PCA) được sử dụng chủ yếu cho mục đích nào trong khai phá dữ liệu?

Câu 10: Hiện tượng 'Quá khớp' (Overfitting) trong xây dựng mô hình khai phá dữ liệu thường xảy ra khi nào?

Câu 11: Trong khai phá dữ liệu, một 'Outlier' (Dữ liệu ngoại lai) được định nghĩa như thế nào?

Câu 12: Phương pháp nào thường được dùng để chuẩn hóa dữ liệu về khoảng [0, 1]?

Câu 13: Nguyên lý 'Pruning' (Tỉa cành) trong thuật toán Apriori dựa trên tính chất nào của tập mục phổ biến?

Câu 14: Cấu trúc dữ liệu nào được sử dụng trong thuật toán FP-Growth để nén cơ sở dữ liệu mà không cần tạo ra các ứng viên (candidate generation)?

Câu 15: Trong phân cụm phân cấp (Hierarchical Clustering), sơ đồ hình cây biểu diễn quá trình hợp nhất hoặc chia tách các cụm được gọi là gì?

Câu 16: Thuật toán DBSCAN thuộc loại kỹ thuật phân cụm nào?

Câu 17: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP là Positive đúng, FP là Positive sai)?

Câu 18: Thao tác OLAP nào thực hiện việc tổng hợp dữ liệu bằng cách di chuyển lên trên một phân cấp khái niệm (ví dụ: từ thành phố lên quốc gia)?

Câu 19: Thao tác OLAP nào cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn (ví dụ: từ quý xuống tháng)?

Câu 20: Trong thuật toán cây quyết định CART, chỉ số nào được sử dụng để lựa chọn thuộc tính phân chia?

Câu 21: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

Câu 22: Sự khác biệt chính giữa Hồi quy (Regression) và Phân lớp (Classification) là gì?

Câu 23: Phương pháp 'K-fold Cross Validation' được sử dụng nhằm mục đích gì?

Câu 24: Trong Máy vectơ hỗ trợ (SVM), khái niệm 'Hyperplane' (Siêu phẳng) dùng để chỉ cái gì?

Câu 25: Thuật toán Random Forest thuộc nhóm phương pháp khai phá dữ liệu nào?