Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình KDD (Knowledge Discovery in Databases), bước nào được thực hiện ngay trước giai đoạn Khai phá dữ liệu (Data Mining) để đảm bảo dữ liệu sẵn sàng cho các thuật toán?
💡 Lời giải chi tiết:
Theo quy trình chuẩn KDD của Fayyad, giai đoạn biến đổi và làm sạch dữ liệu (Transformation/Preprocessing) là bước bắt buộc để chuyển đổi dữ liệu thành dạng phù hợp trước khi áp dụng các kỹ thuật khai phá. Kết luận Lý giải: Tiền xử lý và biến đổi dữ liệu
Câu 2:Thuật toán K-means trong khai phá dữ liệu thuộc nhóm phương pháp nào sau đây?
💡 Lời giải chi tiết:
K-means là một thuật toán học không giám sát điển hình dùng để nhóm các đối tượng có đặc điểm tương đồng vào các cụm dựa trên khoảng cách tới tâm cụm. Kết luận Lý giải: Phân cụm (Clustering)
Câu 3:Trong phân tích luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập phổ biến A được định nghĩa như thế nào?
💡 Lời giải chi tiết:
Độ hỗ trợ (Support) đo lường mức độ phổ biến của một tập mục dữ liệu bằng cách tính tỷ lệ số giao dịch chứa tập đó trên tổng số giao dịch. Kết luận Lý giải: Tần suất xuất hiện của tập A trên tổng số các giao dịch trong cơ sở dữ liệu
Câu 4:Khái niệm 'Overfitting' (Quá khớp) trong xây dựng mô hình phân loại thường xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình khớp quá sát với dữ liệu huấn luyện (bao gồm cả các biến động ngẫu nhiên/nhiễu), làm mất đi khả năng tổng quát hóa trên tập dữ liệu chưa biết. Kết luận Lý giải: Mô hình quá phức tạp và học cả nhiễu của dữ liệu huấn luyện dẫn đến kết quả kém trên dữ liệu mới
Câu 5:Thuật toán Naive Bayes dựa trên giả thuyết quan trọng nào về các thuộc tính của dữ liệu?
💡 Lời giải chi tiết:
Tên gọi 'Naive' xuất phát từ giả định đơn giản hóa rằng tất cả các đặc trưng đều độc lập với nhau trong một lớp dữ liệu cho trước. Kết luận Lý giải: Các thuộc tính hoàn toàn độc lập với nhau khi biết lớp (class)
Câu 6:Trong kỹ thuật làm sạch dữ liệu, việc xử lý 'Outliers' (Dữ liệu ngoại lai) nhằm mục đích chính là gì?
💡 Lời giải chi tiết:
Các giá trị ngoại lai có thể gây ra những sai số lớn cho các thuật toán nhạy cảm với khoảng cách hoặc trung bình, do đó cần được xác định và xử lý để mô hình chính xác hơn. Kết luận Lý giải: Giảm nhiễu và tránh làm sai lệch các phép đo thống kê hoặc mô hình dự báo
Câu 7:Chỉ số 'Lift' trong luật kết hợp A suy ra B có giá trị bằng 1 cho biết điều gì?
💡 Lời giải chi tiết:
Khi Lift bằng 1, xác suất xuất hiện đồng thời của A và B đúng bằng tích xác suất riêng lẻ, chứng tỏ hai tập này không có sự phụ thuộc lẫn nhau. Kết luận Lý giải: A và B hoàn toàn độc lập với nhau
Câu 8:Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max thường đưa dữ liệu về khoảng giá trị nào?
💡 Lời giải chi tiết:
Công thức chuẩn hóa Min-Max phổ biến nhất là chuyển đổi giá trị gốc x thành x' trong đoạn [0, 1] để đồng nhất thang đo giữa các biến. Kết luận Lý giải: Từ 0 đến 1
Câu 9:Cây quyết định (Decision Tree) sử dụng độ đo 'Entropy' để thực hiện việc gì?
💡 Lời giải chi tiết:
Entropy là đại lượng đo lường độ tinh khiết của dữ liệu, giúp thuật toán chọn thuộc tính phân tách tốt nhất (Information Gain) để xây dựng cây. Kết luận Lý giải: Đo lường mức độ không chắc chắn hoặc độ hỗn loạn của thông tin tại một nút
Câu 10:Sự khác biệt cơ bản giữa Phân loại (Classification) và Phân cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân loại (có giám sát) gán các bản ghi vào các lớp đã định nghĩa trước, trong khi phân cụm (không giám sát) nhóm dữ liệu dựa trên sự tương đồng mà không cần nhãn. Kết luận Lý giải: Phân loại cần nhãn dữ liệu biết trước, Phân cụm tự tìm cấu trúc trong dữ liệu không nhãn
Câu 11:Trong thuật toán KNN (K-Nearest Neighbors), biến 'K' đại diện cho yếu tố nào?
💡 Lời giải chi tiết:
KNN xác định lớp của một điểm mới dựa trên đa số phiếu bầu của 'K' điểm dữ liệu gần nó nhất trong không gian thuộc tính. Kết luận Lý giải: Số lượng láng giềng gần nhất tham gia vào việc bỏ phiếu quyết định lớp
Câu 12:Mục tiêu chính của kỹ thuật PCA (Principal Component Analysis) trong tiền xử lý dữ liệu là gì?
💡 Lời giải chi tiết:
PCA là phương pháp giảm chiều dữ liệu (Dimensionality Reduction) bằng cách biến đổi các biến có tương quan thành một tập hợp nhỏ hơn các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải: Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan
Câu 13:Hệ số 'Silhouette' trong phân tích phân cụm được sử dụng để đánh giá điều gì?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ một đối tượng khớp với cụm của nó so với các cụm khác, giá trị càng cao thì chất lượng phân cụm càng tốt. Kết luận Lý giải: Chất lượng phân cụm dựa trên độ chặt chẽ trong cụm và độ tách biệt giữa các cụm
Câu 14:Trong mạng nơ-ron nhân tạo, hàm kích hoạt (Activation Function) có vai trò chính là gì?
💡 Lời giải chi tiết:
Hàm kích hoạt cho phép mạng nơ-ron mô hình hóa các quan hệ phi tuyến giữa đầu vào và đầu ra, điều mà các hàm tuyến tính đơn thuần không làm được. Kết luận Lý giải: Giới thiệu tính phi tuyến vào mô hình để học các mẫu phức tạp
Câu 15:Khi xây dựng cây quyết định, hiện tượng 'Pruning' (Tỉa cây) được thực hiện nhằm mục đích gì?
💡 Lời giải chi tiết:
Tỉa cây giúp loại bỏ các nhánh cây không mang lại nhiều thông tin hoặc chỉ khớp với nhiễu, giúp mô hình bền vững hơn khi dự báo dữ liệu mới. Kết luận Lý giải: Giảm độ phức tạp của cây để tránh hiện tượng quá khớp (overfitting)
Câu 16:Ma trận nhầm lẫn (Confusion Matrix) trong khai phá dữ liệu dùng để làm gì?
💡 Lời giải chi tiết:
Ma trận nhầm lẫn thống kê số lượng các mẫu được phân loại đúng và sai cho từng lớp, từ đó tính được các chỉ số như Precision, Recall, F1. Kết luận Lý giải: Tổng hợp kết quả dự báo của mô hình phân loại so với thực tế
Câu 17:Trong bài toán phân loại, chỉ số 'Recall' (Độ gợi nhớ) được hiểu là gì?
💡 Lời giải chi tiết:
Recall đo lường khả năng của mô hình trong việc tìm ra tất cả các mẫu thuộc lớp mục tiêu trong tập dữ liệu. Kết luận Lý giải: Tỷ lệ các trường hợp thực tế dương tính được mô hình dự báo đúng là dương tính
Câu 18:Đặc điểm chính của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?
💡 Lời giải chi tiết:
Phân cụm phân cấp xây dựng các cụm bằng cách ghép dần (agglomerative) hoặc chia nhỏ (divisive), tạo ra sơ đồ hình cây cho phép chọn số cụm linh hoạt sau khi xử lý. Kết luận Lý giải: Tạo ra một cấu trúc dạng cây (Dendrogram) biểu diễn quan hệ giữa các cụm
Câu 19:Thuật toán Random Forest cải thiện độ chính xác so với một cây quyết định đơn lẻ bằng cách nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học máy kết hợp (ensemble learning) giúp giảm phương sai và tăng tính ổn định bằng cách lấy trung bình hoặc bỏ phiếu từ nhiều cây độc lập. Kết luận Lý giải: Kết hợp dự báo từ nhiều cây quyết định được huấn luyện trên các tập con dữ liệu khác nhau
Câu 20:Trong kỹ thuật khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF dùng để làm gì?
💡 Lời giải chi tiết:
TF-IDF giúp làm nổi bật các từ mang tính đặc trưng của văn bản và giảm trọng số của các từ thông dụng xuất hiện quá nhiều trong mọi văn bản. Kết luận Lý giải: Đánh giá mức độ quan trọng của một từ đối với một văn bản trong một tập hợp các văn bản
Câu 21:Phương pháp 'Cross-validation' (Kiểm chéo) được sử dụng trong khai phá dữ liệu với mục đích gì?
💡 Lời giải chi tiết:
Kiểm chéo (như K-fold) chia dữ liệu thành nhiều phần để luân phiên huấn luyện và kiểm tra, giúp ước lượng sai số của mô hình chính xác hơn và tránh phụ thuộc vào một cách chia dữ liệu duy nhất. Kết luận Lý giải: Để đánh giá hiệu suất của mô hình một cách khách quan trên nhiều phần dữ liệu khác nhau
Câu 22:Trong khai phá dữ liệu, 'Data Warehouse' (Kho dữ liệu) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?
💡 Lời giải chi tiết:
Kho dữ liệu là nơi tích hợp dữ liệu từ nhiều nguồn, được tổ chức theo chủ đề và tối ưu hóa cho các hệ thống hỗ trợ ra quyết định (OLAP). Kết luận Lý giải: Kho dữ liệu được tối ưu hóa cho việc truy vấn và phân tích thay vì giao dịch nhanh
Câu 23:Thuật toán FP-Growth có ưu điểm nổi bật gì so với thuật toán Apriori trong khai phá tập phổ biến?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu, giúp tìm tập phổ biến hiệu quả hơn do chỉ cần quét cơ sở dữ liệu 2 lần. Kết luận Lý giải: Không cần quét cơ sở dữ liệu nhiều lần và không tạo ra các ứng viên trung gian
Câu 24:Trong Support Vector Machines (SVM), 'Kernel trick' được sử dụng để làm gì?
💡 Lời giải chi tiết:
Hàm Kernel cho phép SVM giải quyết các bài toán phân loại phi tuyến bằng cách chuyển đổi không gian thuộc tính ban đầu sang không gian mới nơi các lớp có thể tách biệt bởi một siêu phẳng. Kết luận Lý giải: Ánh xạ dữ liệu vào không gian chiều cao hơn để có thể phân tách tuyến tính
Câu 25:Đâu là một ví dụ điển hình của ứng dụng Khai phá dữ liệu trong lĩnh vực Thương mại điện tử?
💡 Lời giải chi tiết:
Hệ thống gợi ý (Recommendation Systems) sử dụng các kỹ thuật như lọc cộng tác hoặc khai phá luật kết hợp để dự đoán nhu cầu của khách hàng. Kết luận Lý giải: Gợi ý sản phẩm phù hợp dựa trên lịch sử mua hàng của người dùng