Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Câu 1: Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào thường chiếm nhiều thời gian và công sức nhất?

Câu 2: Mục tiêu chính của việc chuẩn hóa dữ liệu (Data Normalization) bằng phương pháp 'Min-Max' là gì?

Câu 3: Thuật toán K-Nearest Neighbors (KNN) thuộc nhóm phương pháp khai phá dữ liệu nào sau đây?

Câu 4: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập mục tiêu được hiểu là gì?

Câu 5: Kỹ thuật PCA (Principal Component Analysis) thường được ứng dụng để giải quyết vấn đề gì?

Câu 6: Đặc điểm chính để phân biệt giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

Câu 7: Trong cây quyết định (Decision Tree), hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào?

Câu 8: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính?

Câu 9: Ưu điểm nổi bật nhất của thuật toán DBSCAN so với K-means trong phân cụm là gì?

Câu 10: Chỉ số F1-score là giá trị trung bình nào giữa Precision (Độ chính xác) và Recall (Độ triệu hồi)?

Câu 11: Trong thuật toán Apriori, nguyên lý 'tỉa nhánh' (pruning) dựa trên tính chất nào?

Câu 12: Mục đích của việc sử dụng 'Cross-validation' (Kiểm chứng chéo) là gì?

Câu 13: Trong khai phá dữ liệu văn bản (Text Mining), bước 'Stop words removal' có tác dụng gì?

Câu 14: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ biểu diễn nào sau đây?

Câu 15: Tham số 'Lift' trong luật kết hợp A -> B lớn hơn 1 có ý nghĩa gì?

Câu 16: Phương pháp 'Entropy' thường được sử dụng trong cây quyết định để làm gì?

Câu 17: Kỹ thuật 'Bagging' (như trong Random Forest) giúp cải thiện mô hình bằng cách nào?

Câu 18: Trong hệ thống gợi ý (Recommender Systems), kỹ thuật 'Collaborative Filtering' dựa trên yếu tố nào?

Câu 19: Chỉ số Silhouette Coefficient được dùng để đánh giá kết quả của nhiệm vụ nào?

Câu 20: Thế nào là một 'Outlier' (Giá trị ngoại lệ) trong tập dữ liệu?

Câu 21: Mạng nơ-ron nhân tạo (ANN) cập nhật trọng số thông qua thuật toán nào sau đây?

Câu 22: Trong Ma trận nhầm lẫn (Confusion Matrix), 'False Positive' (Dương tính giả) nghĩa là gì?

Câu 23: Web Usage Mining tập trung vào việc khai phá thông tin gì?

Câu 24: Tại sao cần thực hiện 'Feature Selection' (Chọn lọc thuộc tính) trước khi huấn luyện mô hình?

Câu 25: Trong thuật toán K-means, việc chọn vị trí các tâm cụm (centroids) ban đầu có ảnh hưởng như thế nào?