Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc kết hợp dữ liệu từ nhiều nguồn lưu trữ khác nhau vào một kho dữ liệu thống nhất?
💡 Lời giải chi tiết:
Theo quy trình KDD chuẩn, tích hợp dữ liệu là giai đoạn kết hợp các nguồn dữ liệu rời rạc để tạo ra một cái nhìn toàn diện và đồng nhất. Kết luận Lý giải: Tích hợp dữ liệu
Câu 2:Trong khai phá luật kết hợp, độ đo nào thể hiện tần suất xuất hiện đồng thời của các tập mục trong toàn bộ cơ sở dữ liệu?
💡 Lời giải chi tiết:
Độ hỗ trợ xác định mức độ phổ biến của một tập mục dựa trên tỷ lệ giao dịch chứa tập mục đó trên tổng số giao dịch. Kết luận Lý giải: Độ hỗ trợ (Support)
Câu 3:Sự khác biệt bản chất nhất giữa kỹ thuật phân lớp (Classification) và phân cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp dựa trên các nhãn lớp đã biết trước để gán nhãn cho mẫu mới, trong khi phân cụm tự tìm ra cấu trúc nhóm mà không cần nhãn. Kết luận Lý giải: Phân lớp là học có giám sát, phân cụm là học không giám sát
Câu 4:Thuật toán cây quyết định ID3 sử dụng tiêu chí nào để lựa chọn thuộc tính phân chia tại mỗi nút?
💡 Lời giải chi tiết:
Thuật toán ID3 ưu tiên chọn thuộc tính làm giảm độ hỗn loạn (entropy) nhiều nhất, tức là có độ tăng thông tin cao nhất. Kết luận Lý giải: Tăng thông tin (Information Gain)
Câu 5:Hoạt động nào sau đây thường được thực hiện trong giai đoạn làm sạch dữ liệu (Data Cleaning)?
💡 Lời giải chi tiết:
Làm sạch dữ liệu tập trung vào việc sửa chữa hoặc loại bỏ các dữ liệu sai lệch, không nhất quán hoặc bị thiếu để nâng cao chất lượng. Kết luận Lý giải: Xử lý các giá trị bị thiếu và khử nhiễu
Câu 6:Đâu là một nhược điểm lớn của thuật toán phân cụm K-Means?
💡 Lời giải chi tiết:
Kết quả cuối cùng của K-Means phụ thuộc rất nhiều vào vị trí các tâm cụm được chọn ngẫu nhiên lúc bắt đầu, dễ dẫn đến tối ưu cục bộ. Kết luận Lý giải: Nhạy cảm với việc lựa chọn các tâm cụm khởi tạo ban đầu
Câu 7:Kỹ thuật Phân tích thành phần chính (PCA) thường được sử dụng với mục đích gì trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
PCA biến đổi một tập hợp các biến có tương quan thành một tập hợp các biến không tương quan gọi là thành phần chính để giảm số lượng thuộc tính. Kết luận Lý giải: Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 8:Giả định cốt lõi của thuật toán phân loại Naive Bayes là gì?
💡 Lời giải chi tiết:
Naive Bayes giả định tính độc lập có điều kiện giữa các thuộc tính để đơn giản hóa việc tính toán xác suất hậu nghiệm. Kết luận Lý giải: Các thuộc tính dự báo hoàn toàn độc lập với nhau khi biết nhãn lớp
Câu 9:Trong phân tích luật kết hợp, nếu giá trị Lift của luật 'A kéo theo B' bằng 1, điều này ám chỉ điều gì?
💡 Lời giải chi tiết:
Giá trị Lift bằng 1 cho thấy xác suất xuất hiện đồng thời của A và B đúng bằng tích xác suất riêng lẻ, nghĩa là chúng không liên quan đến nhau. Kết luận Lý giải: Sự xuất hiện của A và B là độc lập với nhau
Câu 10:Mục đích quan trọng nhất của việc chuẩn hóa dữ liệu (Data Normalization) là gì?
💡 Lời giải chi tiết:
Chuẩn hóa giúp cân bằng tầm ảnh hưởng của các biến có đơn vị hoặc miền giá trị khác nhau trong các thuật toán tính khoảng cách. Kết luận Lý giải: Đưa các thuộc tính về cùng một thang đo để tránh sai lệch kết quả
Câu 11:Thuật toán FP-Growth có ưu điểm vượt trội nào so với thuật toán Apriori truyền thống?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây nén để khai phá tập mục phổ biến mà không cần bước sinh ứng viên tốn kém như Apriori. Kết luận Lý giải: Không cần tạo ra các tập ứng viên (candidate generation)
Câu 12:Thuật toán phân cụm DBSCAN thuộc nhóm phương pháp phân cụm nào sau đây?
💡 Lời giải chi tiết:
DBSCAN (Density-Based Spatial Clustering of Applications with Noise) tìm kiếm các vùng có mật độ điểm cao để tạo thành cụm. Kết luận Lý giải: Phân cụm dựa trên mật độ
Câu 13:Hiện tượng Overfitting (Quá khớp) trong xây dựng mô hình khai phá dữ liệu có đặc điểm gì?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học cả những nhiễu hoặc đặc điểm riêng biệt của tập huấn luyện thay vì học quy luật tổng quát. Kết luận Lý giải: Mô hình khớp rất tốt với dữ liệu huấn luyện nhưng kém trên dữ liệu mới
Câu 14:Chỉ số F1-Score được tính toán dựa trên hai đại lượng nào sau đây?
💡 Lời giải chi tiết:
F1-Score là trung bình điều hòa của Precision và Recall, cung cấp một cái nhìn cân bằng về hiệu năng phân loại. Kết luận Lý giải: Precision (Độ chính xác) và Recall (Độ triệu hồi)
Câu 15:Trong hệ thống kho dữ liệu và OLAP, thao tác 'Slice' (Cắt lát) có ý nghĩa như thế nào?
💡 Lời giải chi tiết:
Cắt lát (Slice) là việc cố định một giá trị trên một chiều của khối dữ liệu (Data Cube) để quan sát dữ liệu ở mức chi tiết hơn theo chiều đó. Kết luận Lý giải: Chọn một giá trị cụ thể trên một chiều để tạo ra khối dữ liệu con
Câu 16:Thuật toán K-Nearest Neighbors (KNN) quyết định nhãn của một mẫu mới dựa trên yếu tố nào?
💡 Lời giải chi tiết:
KNN là một thuật toán học lười (lazy learning) gán nhãn cho đối tượng mới dựa trên sự tương đồng về khoảng cách với các mẫu trong tập huấn luyện. Kết luận Lý giải: Đa số nhãn lớp của K láng giềng gần nhất
Câu 17:Độ tin cậy (Confidence) của luật kết hợp 'X kéo theo Y' được tính bằng công thức nào?
💡 Lời giải chi tiết:
Độ tin cậy đo lường khả năng Y xuất hiện trong các giao dịch mà X đã xuất hiện. Kết luận Lý giải: Số giao dịch chứa cả X và Y chia cho số giao dịch chứa X
Câu 18:Thuật toán cây quyết định CART (Classification and Regression Trees) sử dụng chỉ số nào để đánh giá độ tinh khiết của nút?
💡 Lời giải chi tiết:
CART sử dụng Gini Index để chọn ra điểm chia tốt nhất giúp tối đa hóa độ tinh khiết của các tập con được tạo ra. Kết luận Lý giải: Chỉ số Gini (Gini Index)
Câu 19:Đặc điểm cơ bản của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?
💡 Lời giải chi tiết:
Phân cụm phân cấp xây dựng một sơ đồ hình cây (dendrogram) cho thấy mối quan hệ phân tầng giữa các đối tượng dữ liệu. Kết luận Lý giải: Tạo ra một cấu trúc cây biểu diễn các cụm lồng nhau
Câu 20:Kỹ thuật 'Data Cube Aggregation' (Tổng hợp khối dữ liệu) thuộc về giai đoạn nào trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Tổng hợp khối dữ liệu giúp thu gọn kích thước dữ liệu bằng cách thay thế các giá trị chi tiết bằng các giá trị tổng quát hơn. Kết luận Lý giải: Giảm bớt dữ liệu (Data Reduction)
Câu 21:Trong ma trận nhầm lẫn (Confusion Matrix), trường hợp 'False Positive' (FP) xảy ra khi nào?
💡 Lời giải chi tiết:
False Positive (Dương tính giả) là lỗi loại I khi mô hình dự báo sai về sự hiện diện của một đặc điểm. Kết luận Lý giải: Thực tế là tiêu cực nhưng mô hình dự báo là tích cực
Câu 22:Tại sao thuật toán Random Forest thường đạt hiệu quả cao hơn so với một cây quyết định đơn lẻ?
💡 Lời giải chi tiết:
Random Forest là một phương pháp ensemble sử dụng kỹ thuật bagging để giảm phương sai và tăng tính ổn định của dự báo. Kết luận Lý giải: Vì nó kết hợp kết quả dự báo của nhiều cây quyết định độc lập
Câu 23:Ứng dụng 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào trong khai phá dữ liệu?
💡 Lời giải chi tiết:
Phân tích giỏ hàng nhằm tìm ra các sản phẩm thường được khách hàng mua cùng nhau dựa trên lịch sử giao dịch. Kết luận Lý giải: Khai phá luật kết hợp (Association Rule Mining)
Câu 24:Trong khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?
💡 Lời giải chi tiết:
TF-IDF giúp làm nổi bật các từ mang nhiều thông tin đặc trưng cho tài liệu đồng thời giảm nhẹ vai trò của các từ xuất hiện quá phổ biến. Kết luận Lý giải: Xác định trọng số của một từ dựa trên mức độ quan trọng của nó trong văn bản
Câu 25:Kỹ thuật 'K-fold Cross-Validation' được sử dụng chủ yếu nhằm mục đích gì?
💡 Lời giải chi tiết:
Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, kỹ thuật này giúp ước lượng hiệu năng mô hình một cách khách quan. Kết luận Lý giải: Đánh giá khả năng tổng quát hóa của mô hình trên các tập dữ liệu khác nhau