Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:
Trong quy trình Khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào đóng vai trò then chốt trong việc áp dụng thuật toán để tìm ra các mẫu tiềm ẩn?
💡 Lời giải chi tiết:
Theo quy trình KDD tiêu chuẩn, Khai phá dữ liệu (Data Mining) là giai đoạn sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc quy luật có giá trị từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu.
Câu 2:
Kỹ thuật nào trong tiền xử lý dữ liệu tập trung vào việc xử lý các giá trị bị thiếu và giảm thiểu dữ liệu nhiễu?
💡 Lời giải chi tiết:
Làm sạch dữ liệu (Data Cleaning) là quá trình nhằm phát hiện và sửa lỗi, xử lý các giá trị bị thiếu và loại bỏ nhiễu để nâng cao chất lượng dữ liệu đầu vào. Kết luận Lý giải Làm sạch dữ liệu.
Câu 3:
Trong khai phá luật kết hợp, chỉ số nào cho biết tần suất xuất hiện đồng thời của các mục trong một tập dữ liệu so với tổng số giao dịch?
💡 Lời giải chi tiết:
Độ hỗ trợ (Support) là một tham số đo lường xác suất xảy ra của một tập mục trong toàn bộ các giao dịch của cơ sở dữ liệu. Kết luận Lý giải Độ hỗ trợ (Support).
Câu 4:
Sự khác biệt cơ bản nhất giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp là quá trình gán nhãn dựa trên dữ liệu đã biết (có giám sát), trong khi phân cụm nhóm các đối tượng dựa trên sự tương đồng mà không cần nhãn trước (không giám sát). Kết luận Lý giải Phân lớp là học có giám sát còn Phân cụm là học không giám sát.
Câu 5:
Trong thuật toán Cây quyết định (Decision Tree), độ đo nào thường được sử dụng để xác định mức độ không thuần nhất (impurity) của một tập dữ liệu?
💡 Lời giải chi tiết:
Entropy là một đại lượng trong lý thuyết thông tin dùng để đo lường mức độ hỗn loạn hoặc không thuần nhất của các ví dụ trong một tập dữ liệu. Kết luận Lý giải Entropy.
Câu 6:
Thuật toán K-means thực hiện phân cụm dựa trên nguyên lý cốt lõi nào?
💡 Lời giải chi tiết:
Thuật toán K-means hoạt động bằng cách lặp lại việc gán các điểm dữ liệu vào cụm có trọng tâm gần nhất nhằm tối thiểu hóa tổng bình phương khoảng cách trong cụm. Kết luận Lý giải Tối thiểu hóa khoảng cách giữa các điểm dữ liệu và trọng tâm cụm của chúng.
Câu 7:
Giả định quan trọng nhất của thuật toán Naive Bayes trong phân lớp dữ liệu là gì?
💡 Lời giải chi tiết:
Naive Bayes dựa trên giả định 'ngây thơ' rằng các thuộc tính dự báo là độc lập với nhau khi đã biết giá trị của biến mục tiêu (lớp). Kết luận Lý giải Sự độc lập có điều kiện giữa các thuộc tính khi biết nhãn lớp.
Câu 8:
Trong kiến trúc Kho dữ liệu (Data Warehouse), lược đồ nào có một bảng sự kiện (fact table) ở trung tâm và kết nối trực tiếp với các bảng chiều (dimension tables)?
💡 Lời giải chi tiết:
Lược đồ Hình sao là cấu trúc đơn giản nhất trong kho dữ liệu, trong đó các bảng chiều bao quanh và kết nối trực tiếp với duy nhất một bảng sự kiện trung tâm. Kết luận Lý giải Lược đồ Hình sao (Star Schema).
Câu 9:
Kỹ thuật Phân tích thành phần chính (PCA) được sử dụng chủ yếu cho mục đích nào trong khai phá dữ liệu?
💡 Lời giải chi tiết:
PCA là một phương pháp thống kê biến đổi một tập hợp các biến có thể tương quan thành một tập hợp ít biến hơn (các thành phần chính) nhằm giảm chiều dữ liệu mà vẫn giữ lại phần lớn thông tin. Kết luận Lý giải Giảm chiều dữ liệu.
Câu 10:
Hiện tượng 'Quá khớp' (Overfitting) trong xây dựng mô hình khai phá dữ liệu thường xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi một mô hình quá phức tạp, ghi nhớ cả các biến động ngẫu nhiên và nhiễu trong tập huấn luyện, dẫn đến khả năng dự báo kém trên dữ liệu mới. Kết luận Lý giải Mô hình học cả nhiễu và các chi tiết ngẫu nhiên trong dữ liệu huấn luyện.
Câu 11:
Trong khai phá dữ liệu, một 'Outlier' (Dữ liệu ngoại lai) được định nghĩa như thế nào?
💡 Lời giải chi tiết:
Dữ liệu ngoại lai là những quan sát lệch xa so với các mẫu dữ liệu khác, thường do lỗi đo lường hoặc thể hiện một hiện tượng đặc biệt cần nghiên cứu. Kết luận Lý giải Đối tượng dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu.
Câu 12:
Phương pháp nào thường được dùng để chuẩn hóa dữ liệu về khoảng [0, 1]?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max thực hiện biến đổi tuyến tính dữ liệu gốc để đưa các giá trị về một khoảng cố định, thường là từ 0 đến 1. Kết luận Lý giải Chuẩn hóa Min-Max.
Câu 13:
Nguyên lý 'Pruning' (Tỉa cành) trong thuật toán Apriori dựa trên tính chất nào của tập mục phổ biến?
💡 Lời giải chi tiết:
Tính chất Apriori khẳng định rằng nếu một tập mục không phổ biến thì mọi tập cha của nó cũng không phổ biến, do đó có thể cắt tỉa không gian tìm kiếm. Kết luận Lý giải Mọi tập con của một tập mục phổ biến đều phải là tập mục phổ biến.
Câu 14:
Cấu trúc dữ liệu nào được sử dụng trong thuật toán FP-Growth để nén cơ sở dữ liệu mà không cần tạo ra các ứng viên (candidate generation)?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-Tree để lưu trữ thông tin về các tập mục phổ biến một cách nén gọn, cho phép khai phá luật kết hợp hiệu quả hơn Apriori. Kết luận Lý giải Cây FP (FP-Tree).
Câu 15:
Trong phân cụm phân cấp (Hierarchical Clustering), sơ đồ hình cây biểu diễn quá trình hợp nhất hoặc chia tách các cụm được gọi là gì?
💡 Lời giải chi tiết:
Dendrogram là một biểu đồ dạng cây thể hiện thứ tự và khoảng cách tại đó các cụm được kết hợp lại với nhau trong phân cụm phân cấp. Kết luận Lý giải Dendrogram.
Câu 16:
Thuật toán DBSCAN thuộc loại kỹ thuật phân cụm nào?
💡 Lời giải chi tiết:
DBSCAN tìm kiếm các vùng có mật độ điểm dữ liệu cao và tách biệt chúng khỏi các vùng có mật độ thấp để hình thành các cụm có hình dạng bất kỳ. Kết luận Lý giải Phân cụm dựa trên mật độ (Density-based).
Câu 17:
Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP là Positive đúng, FP là Positive sai)?
💡 Lời giải chi tiết:
Độ chính xác (Precision) đo lường tỷ lệ các trường hợp được dự báo là Positive thực sự là Positive trong tổng số các mẫu được dự báo là Positive. Kết luận Lý giải TP / (TP + FP).
Câu 18:
Thao tác OLAP nào thực hiện việc tổng hợp dữ liệu bằng cách di chuyển lên trên một phân cấp khái niệm (ví dụ: từ thành phố lên quốc gia)?
💡 Lời giải chi tiết:
Thao tác Roll-up (hoặc drill-up) làm giảm mức độ chi tiết của dữ liệu bằng cách gộp nhóm theo các chiều hoặc tăng mức phân cấp khái niệm. Kết luận Lý giải Roll-up.
Câu 19:
Thao tác OLAP nào cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn (ví dụ: từ quý xuống tháng)?
💡 Lời giải chi tiết:
Drill-down là thao tác ngược lại với roll-up, giúp chuyển từ dữ liệu tổng quát sang dữ liệu chi tiết hơn bằng cách hạ thấp mức phân cấp khái niệm. Kết luận Lý giải Drill-down.
Câu 20:
Trong thuật toán cây quyết định CART, chỉ số nào được sử dụng để lựa chọn thuộc tính phân chia?
💡 Lời giải chi tiết:
Thuật toán CART (Classification and Regression Trees) sử dụng chỉ số Gini để đo lường độ không thuần nhất của các nút và chọn điểm phân chia tối ưu. Kết luận Lý giải Chỉ số Gini (Gini Index).
Câu 21:
Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?
💡 Lời giải chi tiết:
Binning là một kỹ thuật làm mịn dữ liệu bằng cách chia các giá trị thuộc tính số vào các khoảng (thùng) và thay thế giá trị thực bằng giá trị đại diện của khoảng đó để giảm nhiễu. Kết luận Lý giải Làm mịn dữ liệu để giảm nhiễu.
Câu 22:
Sự khác biệt chính giữa Hồi quy (Regression) và Phân lớp (Classification) là gì?
💡 Lời giải chi tiết:
Phân lớp tập trung vào việc dự báo các nhãn danh mục (categorical), trong khi hồi quy hướng tới việc dự báo các giá trị số thực (numerical/continuous). Kết luận Lý giải Hồi quy dự báo giá trị liên tục, Phân lớp dự báo nhãn lớp rời rạc.
Câu 23:
Phương pháp 'K-fold Cross Validation' được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
K-fold Cross Validation chia tập dữ liệu thành k phần bằng nhau và lặp lại việc huấn luyện/kiểm tra k lần để đảm bảo mô hình có khả năng tổng quát hóa tốt. Kết luận Lý giải Để đánh giá hiệu suất mô hình một cách khách quan trên các phần dữ liệu khác nhau.
Câu 24:
Trong Máy vectơ hỗ trợ (SVM), khái niệm 'Hyperplane' (Siêu phẳng) dùng để chỉ cái gì?
💡 Lời giải chi tiết:
Trong SVM, siêu phẳng là một cấu trúc toán học đóng vai trò là ranh giới để phân tách các điểm dữ liệu thuộc các lớp khác nhau với lề rộng nhất có thể. Kết luận Lý giải Ranh giới quyết định phân chia các lớp dữ liệu trong không gian nhiều chiều.
Câu 25:
Thuật toán Random Forest thuộc nhóm phương pháp khai phá dữ liệu nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học tập hợp sử dụng nhiều cây quyết định phối hợp với nhau để cải thiện độ chính xác và giảm hiện tượng quá khớp. Kết luận Lý giải Học máy tập hợp (Ensemble Learning).