Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc làm sạch và tích hợp dữ liệu từ nhiều nguồn khác nhau?

Câu 2: Độ hỗ trợ (Support) của một tập mục phổ biến trong khai phá luật kết hợp được định nghĩa là gì?

Câu 3: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính của dữ liệu?

Câu 4: Đặc điểm chính của thuật toán phân cụm K-means là gì?

Câu 5: Trong đánh giá luật kết hợp, chỉ số Lift lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?

Câu 6: Hiện tượng quá khớp (Overfitting) trong phân lớp dữ liệu xảy ra khi nào?

Câu 7: Mục tiêu chính của kỹ thuật Phân tích thành phần chính (PCA) trong tiền xử lý dữ liệu là gì?

Câu 8: Trong ma trận nhầm lẫn (Confusion Matrix), độ nhạy (Recall) được tính bằng công thức nào?

Câu 9: Khái niệm 'Outlier' trong khai phá dữ liệu dùng để chỉ đối tượng nào?

Câu 10: Sự khác biệt cơ bản giữa bài toán Hồi quy (Regression) và bài toán Phân lớp (Classification) là gì?

Câu 11: Trong thuật toán cây quyết định ID3, chỉ số Entropy dùng để đo lường điều gì?

Câu 12: Ưu điểm nổi bật của thuật toán FP-Growth so với thuật toán Apriori trong khai phá luật kết hợp là gì?

Câu 13: Kỹ thuật chuẩn hóa Min-Max Scaling thực hiện việc gì trên dữ liệu?

Câu 14: Đặc trưng quan trọng nhất của thuật toán phân cụm DBSCAN là gì?

Câu 15: Phương pháp kiểm tra chéo (Cross-validation) được sử dụng nhằm mục đích gì?

Câu 16: Kho dữ liệu (Data Warehouse) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?

Câu 17: Trong cây quyết định, thuộc tính có chỉ số Thông tin thu được (Information Gain) cao nhất thường được chọn để làm gì?

Câu 18: Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy learning) vì lý do nào?

Câu 19: Khai phá sử dụng web (Web Usage Mining) tập trung vào việc phân tích đối tượng nào?

Câu 20: Mô hình Rừng ngẫu nhiên (Random Forest) cải thiện độ chính xác bằng cách nào?

Câu 21: Kỹ thuật rời rạc hóa dữ liệu (Data Discretization) có tác dụng gì trong khai phá dữ liệu?

Câu 22: Biểu đồ Dendrogram thường được sử dụng để minh họa kết quả của phương pháp khai phá nào?

Câu 23: Mục tiêu của thuật toán Máy vectơ hỗ trợ (SVM) trong bài toán phân lớp là gì?

Câu 24: Cách tiếp cận phổ biến nhất để xử lý dữ liệu bị thiếu (Missing values) mà không làm mất quá nhiều thông tin là gì?

Câu 25: Độ tin cậy (Confidence) của luật kết hợp A dẫn đến B được tính như thế nào?