Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thường được thực hiện ngay sau khi dữ liệu đã được làm sạch và tích hợp?
💡 Lời giải chi tiết:
Theo quy trình KDD tiêu chuẩn, sau khi dữ liệu được làm sạch và tích hợp, bước tiếp theo là lựa chọn các thuộc tính phù hợp và biến đổi chúng sang dạng thức thích hợp cho việc khai thác. Kết luận Lý giải Lựa chọn và biến đổi dữ liệu (Selection and Transformation).
Câu 2:Trong luật kết hợp, độ tin cậy (Confidence) của luật 'A kéo theo B' được định nghĩa như thế nào?
💡 Lời giải chi tiết:
Độ tin cậy của một luật kết hợp đo lường tần suất các mục trong tập B xuất hiện trong các giao dịch chứa tập A, tương ứng với xác suất có điều kiện P(B|A). Kết luận Lý giải Xác suất có điều kiện P(B|A).
Câu 3:Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu thường dẫn đến hệ quả nào sau đây?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học quá chi tiết các nhiễu trong tập huấn luyện, khiến nó hoạt động cực tốt trên dữ liệu cũ nhưng kém hiệu quả trên dữ liệu mới. Kết luận Lý giải Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp.
Câu 4:Thuật toán gom cụm K-means nhạy cảm nhất với yếu tố nào dưới đây?
💡 Lời giải chi tiết:
Do K-means sử dụng giá trị trung bình để cập nhật tâm cụm, một vài điểm ngoại lai nằm xa có thể làm lệch đáng kể vị trí của các tâm này. Kết luận Lý giải Các điểm dữ liệu ngoại lai (Outliers).
Câu 5:Kỹ thuật 'Binning' (chia giỏ) trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?
💡 Lời giải chi tiết:
Binning là một kỹ thuật làm trơn dữ liệu bằng cách chia các giá trị vào các khoảng (giỏ) và thay thế chúng bằng giá trị đại diện như trung bình hoặc trung vị. Kết luận Lý giải Làm trơn dữ liệu nhiễu (Data Smoothing).
Câu 6:Sự khác biệt chính giữa OLAP và OLTP là gì?
💡 Lời giải chi tiết:
Hệ thống OLTP được thiết kế để xử lý nhanh các giao dịch hiện hành, trong khi OLAP tối ưu hóa việc truy vấn và phân tích dữ liệu đa chiều để hỗ trợ quyết định. Kết luận Lý giải OLAP hỗ trợ ra quyết định, OLTP hỗ trợ các nghiệp vụ hàng ngày.
Câu 7:Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường điều gì?
💡 Lời giải chi tiết:
Entropy là một khái niệm trong lý thuyết thông tin dùng để đo lường mức độ không chắc chắn hoặc độ hỗn loạn của các nhãn lớp trong một tập dữ liệu. Kết luận Lý giải Độ tinh khiết hoặc độ hỗn loạn của tập dữ liệu.
Câu 8:Tính chất 'Apriori' trong khai phá luật kết hợp khẳng định điều gì?
💡 Lời giải chi tiết:
Nguyên lý Apriori dựa trên tính đơn điệu giảm, phát biểu rằng mọi tập con không rỗng của một tập mục phổ biến đều phải là tập mục phổ biến. Kết luận Lý giải Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến.
Câu 9:Phương pháp chuẩn hóa 'Min-Max' biến đổi dữ liệu về khoảng giá trị nào sau đây (theo mặc định phổ biến)?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max ánh xạ dữ liệu gốc vào một khoảng xác định, trong đó khoảng phổ biến nhất được sử dụng trong thực tế là từ 0 đến 1. Kết luận Lý giải Khoảng từ 0 đến 1.
Câu 10:Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng của phương pháp khai phá nào?
💡 Lời giải chi tiết:
Dendrogram là một biểu đồ dạng cây hiển thị trình tự hợp nhất hoặc chia cắt các cụm trong thuật toán gom cụm phân cấp. Kết luận Lý giải Gom cụm phân cấp (Hierarchical Clustering).
Câu 11:Trong kỹ thuật phát hiện ngoại lai, phương pháp Box-plot xác định một điểm là ngoại lai nếu nó nằm ngoài khoảng nào?
💡 Lời giải chi tiết:
Theo quy tắc hàng rào của Tukey trong biểu đồ hộp, các giá trị nằm ngoài giới hạn 1.5 lần khoảng trải giữa (IQR) tính từ các tứ phân vị được coi là ngoại lai. Kết luận Lý giải Khoảng [Q1 - 1.5*IQR, Q3 + 1.5*IQR].
Câu 12:Nhiệm vụ chính của 'Phân lớp dữ liệu' (Classification) là gì?
💡 Lời giải chi tiết:
Phân lớp là một quá trình học có giám sát nhằm xây dựng mô hình dự đoán nhãn danh mục (lớp) cho các dữ liệu chưa biết dựa trên dữ liệu đã được gán nhãn. Kết luận Lý giải Dự đoán nhãn lớp rời rạc cho các đối tượng mới.
Câu 13:Khi xử lý dữ liệu bị thiếu (Missing values), phương pháp nào sau đây có thể gây sai lệch kết quả phân tích nhất nếu tỷ lệ thiếu lớn?
💡 Lời giải chi tiết:
Việc xóa bỏ các dòng dữ liệu có thể dẫn đến mất mát thông tin nghiêm trọng và làm thay đổi đặc trưng phân phối ban đầu của tập dữ liệu nếu dữ liệu thiếu không phải là ngẫu nhiên. Kết luận Lý giải Xóa bỏ các dòng chứa giá trị thiếu.
Câu 14:Thuật toán K-Nearest Neighbors (KNN) được phân loại là kiểu người học nào?
💡 Lời giải chi tiết:
KNN được gọi là 'Lazy learner' vì nó không xây dựng mô hình huấn luyện một cách rõ ràng mà chỉ lưu trữ dữ liệu và chỉ thực hiện tính toán khi có truy vấn phân lớp. Kết luận Lý giải Người học lười biếng (Lazy learner).
Câu 15:Chỉ số F1-score là giá trị trung bình nào của Precision (độ chính xác) và Recall (độ triệu hồi)?
💡 Lời giải chi tiết:
F1-score được tính bằng công thức trung bình điều hòa giữa Precision và Recall nhằm cân bằng cả hai chỉ số này, đặc biệt hữu ích khi tập dữ liệu bị mất cân bằng lớp. Kết luận Lý giải Trung bình điều hòa (Harmonic Mean).
Câu 16:Đặc điểm nổi bật nhất của thuật toán gom cụm DBSCAN là gì?
💡 Lời giải chi tiết:
DBSCAN là thuật toán gom cụm dựa trên mật độ, cho phép phát hiện các cụm có hình dạng phức tạp và loại bỏ hiệu quả các điểm nhiễu (outliers). Kết luận Lý giải Có khả năng tìm thấy các cụm có hình dạng bất kỳ và xử lý nhiễu.
Câu 17:Trong khai phá luật kết hợp, nếu chỉ số Lift của luật 'A kéo theo B' lớn hơn 1, điều đó có ý nghĩa gì?
💡 Lời giải chi tiết:
Lift lớn hơn 1 chỉ ra rằng tập mục A và B có mối tương quan dương, nghĩa là việc mua A làm tăng xác suất mua kèm B so với việc mua B ngẫu nhiên. Kết luận Lý giải Sự xuất hiện của A có tác động tích cực đến sự xuất hiện của B.
Câu 18:Mục đích chính của kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định là gì?
💡 Lời giải chi tiết:
Tỉa cành giúp loại bỏ các nhánh cây phản ánh nhiễu hoặc các chi tiết quá đặc thù trong dữ liệu huấn luyện, từ đó cải thiện khả năng tổng quát hóa của mô hình. Kết luận Lý giải Giảm thiểu hiện tượng quá khớp (Overfitting).
Câu 19:Trong kho dữ liệu, lược đồ 'Snowflake' (bông tuyết) khác với lược đồ 'Star' (sao) ở điểm nào?
💡 Lời giải chi tiết:
Lược đồ Snowflake là một biến thể của lược đồ sao, trong đó các bảng chiều được chuẩn hóa thành nhiều bảng phụ để giảm bớt sự dư thừa dữ liệu. Kết luận Lý giải Lược đồ Snowflake thực hiện chuẩn hóa các bảng chiều (Dimension tables).
Câu 20:Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
PCA là phương pháp biến đổi các biến có tương quan thành một tập hợp ít hơn các biến không tương quan gọi là các thành phần chính, giúp giảm độ phức tạp của dữ liệu. Kết luận Lý giải Giảm chiều dữ liệu (Dimension Reduction).
Câu 21:Vai trò của hàm kích hoạt (Activation Function) trong mạng Neural nhân tạo là gì?
💡 Lời giải chi tiết:
Nếu không có hàm kích hoạt phi tuyến, mạng Neural dù có bao nhiêu lớp cũng chỉ hoạt động tương đương như một mô hình hồi quy tuyến tính đơn giản. Kết luận Lý giải Giúp mạng có thể học được các mối quan hệ phi tuyến tính.
Câu 22:Thuật toán Random Forest hoạt động dựa trên nguyên lý nào sau đây?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học máy kết hợp (ensemble learning) tạo ra nhiều cây quyết định trong quá trình huấn luyện và lấy kết quả trung bình hoặc bỏ phiếu. Kết luận Lý giải Sử dụng kết hợp nhiều cây quyết định để đưa ra kết quả cuối cùng.
Câu 23:Kỹ thuật 'Anonymization' (vô danh hóa) trong khai phá dữ liệu nhằm mục đích chính là gì?
💡 Lời giải chi tiết:
Vô danh hóa dữ liệu là quá trình loại bỏ hoặc mã hóa các thông tin định danh cá nhân (PII) để đảm bảo không thể truy vết ngược lại cá thể cụ thể khi phân tích. Kết luận Lý giải Bảo vệ quyền riêng tư cá nhân trong dữ liệu.
Câu 24:Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để đánh giá điều gì?
💡 Lời giải chi tiết:
TF-IDF giúp xác định những từ mang tính đặc trưng cho một tài liệu bằng cách cân bằng giữa tần suất xuất hiện tại chỗ và tần suất xuất hiện phổ biến trong toàn bộ kho dữ liệu. Kết luận Lý giải Tầm quan trọng của một từ trong một tài liệu so với toàn bộ tập văn bản.
Câu 25:Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định xem các cụm có được phân chia tốt hay không. Kết luận Lý giải Đánh giá chất lượng của kết quả gom cụm.