Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc kết hợp dữ liệu từ nhiều nguồn lưu trữ khác nhau vào một kho dữ liệu thống nhất?

Câu 2: Trong khai phá luật kết hợp, độ đo nào thể hiện tần suất xuất hiện đồng thời của các tập mục trong toàn bộ cơ sở dữ liệu?

Câu 3: Sự khác biệt bản chất nhất giữa kỹ thuật phân lớp (Classification) và phân cụm (Clustering) là gì?

Câu 4: Thuật toán cây quyết định ID3 sử dụng tiêu chí nào để lựa chọn thuộc tính phân chia tại mỗi nút?

Câu 5: Hoạt động nào sau đây thường được thực hiện trong giai đoạn làm sạch dữ liệu (Data Cleaning)?

Câu 6: Đâu là một nhược điểm lớn của thuật toán phân cụm K-Means?

Câu 7: Kỹ thuật Phân tích thành phần chính (PCA) thường được sử dụng với mục đích gì trong tiền xử lý dữ liệu?

Câu 8: Giả định cốt lõi của thuật toán phân loại Naive Bayes là gì?

Câu 9: Trong phân tích luật kết hợp, nếu giá trị Lift của luật 'A kéo theo B' bằng 1, điều này ám chỉ điều gì?

Câu 10: Mục đích quan trọng nhất của việc chuẩn hóa dữ liệu (Data Normalization) là gì?

Câu 11: Thuật toán FP-Growth có ưu điểm vượt trội nào so với thuật toán Apriori truyền thống?

Câu 12: Thuật toán phân cụm DBSCAN thuộc nhóm phương pháp phân cụm nào sau đây?

Câu 13: Hiện tượng Overfitting (Quá khớp) trong xây dựng mô hình khai phá dữ liệu có đặc điểm gì?

Câu 14: Chỉ số F1-Score được tính toán dựa trên hai đại lượng nào sau đây?

Câu 15: Trong hệ thống kho dữ liệu và OLAP, thao tác 'Slice' (Cắt lát) có ý nghĩa như thế nào?

Câu 16: Thuật toán K-Nearest Neighbors (KNN) quyết định nhãn của một mẫu mới dựa trên yếu tố nào?

Câu 17: Độ tin cậy (Confidence) của luật kết hợp 'X kéo theo Y' được tính bằng công thức nào?

Câu 18: Thuật toán cây quyết định CART (Classification and Regression Trees) sử dụng chỉ số nào để đánh giá độ tinh khiết của nút?

Câu 19: Đặc điểm cơ bản của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

Câu 20: Kỹ thuật 'Data Cube Aggregation' (Tổng hợp khối dữ liệu) thuộc về giai đoạn nào trong tiền xử lý dữ liệu?

Câu 21: Trong ma trận nhầm lẫn (Confusion Matrix), trường hợp 'False Positive' (FP) xảy ra khi nào?

Câu 22: Tại sao thuật toán Random Forest thường đạt hiệu quả cao hơn so với một cây quyết định đơn lẻ?

Câu 23: Ứng dụng 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào trong khai phá dữ liệu?

Câu 24: Trong khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

Câu 25: Kỹ thuật 'K-fold Cross-Validation' được sử dụng chủ yếu nhằm mục đích gì?