Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình Khám phá tri thức từ Cơ sở dữ liệu (KDD), bước nào thực hiện việc áp dụng các thuật toán để trích xuất các mẫu (patterns)?
💡 Lời giải chi tiết:
Theo quy trình chuẩn KDD, khai phá dữ liệu là giai đoạn cốt lõi sử dụng các phương pháp thông minh để rút ra những mẫu tiềm năng từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu (Data Mining)
Câu 2:Kỹ thuật 'Data Cleaning' (Làm sạch dữ liệu) thường giải quyết vấn đề nào sau đây trong tập dữ liệu?
💡 Lời giải chi tiết:
Làm sạch dữ liệu là quá trình xử lý các giá trị bị khuyết, lọc nhiễu và sửa đổi các dữ liệu không nhất quán nhằm nâng cao chất lượng đầu vào cho mô hình. Kết luận Lý giải Dữ liệu thiếu giá trị và dữ liệu nhiễu
Câu 3:Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một luật A kéo theo B được định nghĩa như thế nào?
💡 Lời giải chi tiết:
Độ hỗ trợ đo lường tần suất xuất hiện đồng thời của cả hai tập mục hàng A và B trong toàn bộ cơ sở dữ liệu giao dịch. Kết luận Lý giải Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch
Câu 4:Độ tin cậy (Confidence) của luật kết hợp 'A kéo theo B' bằng 80% có ý nghĩa gì?
💡 Lời giải chi tiết:
Độ tin cậy xác định xác suất có điều kiện để tập mục B xuất hiện trong một giao dịch khi biết rằng tập mục A đã hiện diện. Kết luận Lý giải 80% các giao dịch chứa A thì cũng chứa B
Câu 5:Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?
💡 Lời giải chi tiết:
Tính chất Apriori khẳng định rằng mọi tập con phi rỗng của một tập mục phổ biến đều phải là tập mục phổ biến, giúp loại bỏ sớm các ứng viên không tiềm năng. Kết luận Lý giải Nếu một tập mục là phổ biến thì tất cả các tập con của nó cũng phải phổ biến
Câu 6:Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp sử dụng các nhãn lớp đã biết để huấn luyện mô hình (có giám sát), trong khi gom cụm tự động nhóm các đối tượng dựa trên đặc điểm tương đồng mà không cần nhãn trước (không giám sát). Kết luận Lý giải Phân lớp là học có giám sát, gom cụm là học không giám sát
Câu 7:Trong cây quyết định (Decision Tree), tiêu chí 'Information Gain' (Độ lợi thông tin) thường dựa trên khái niệm nào sau đây?
💡 Lời giải chi tiết:
Độ lợi thông tin đo lường sự sụt giảm của Entropy (độ hỗn loạn) sau khi dữ liệu được phân tách dựa trên một thuộc tính cụ thể. Kết luận Lý giải Entropy
Câu 8:Hiện tượng 'Overfitting' (Quá khớp) trong học máy xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học cả những nhiễu và chi tiết ngẫu nhiên trong dữ liệu huấn luyện, dẫn đến khả năng tổng quát hóa kém đối với dữ liệu mới. Kết luận Lý giải Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
Câu 9:Thuật toán K-means thuộc loại kỹ thuật nào trong khai phá dữ liệu?
💡 Lời giải chi tiết:
K-means là thuật toán gom cụm phân hoạch điển hình, chia tập dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ các điểm đến tâm cụm là nhỏ nhất. Kết luận Lý giải Gom cụm phân hoạch (Partitioning Clustering)
Câu 10:Trong thuật toán K-Nearest Neighbors (KNN), giá trị 'k' đại diện cho điều gì?
💡 Lời giải chi tiết:
Tham số k trong KNN xác định số lượng các điểm dữ liệu gần nhất trong không gian thuộc tính được sử dụng để xác định nhãn lớp cho một điểm dữ liệu mới. Kết luận Lý giải Số lượng láng giềng gần nhất được dùng để bỏ phiếu
Câu 11:Đặc điểm chính của thuật toán Naive Bayes là giả định điều gì về các thuộc tính?
💡 Lời giải chi tiết:
Thuật toán Naive Bayes dựa trên giả định 'ngây thơ' rằng sự hiện diện của một thuộc tính cụ thể là độc lập với sự hiện diện của bất kỳ thuộc tính nào khác khi đã biết lớp. Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp
Câu 12:Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max đưa giá trị về khoảng nào thông thường?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max thực hiện biến đổi tuyến tính dữ liệu gốc để tất cả các giá trị mới nằm trong một phạm vi xác định, thường là từ 0 đến 1. Kết luận Lý giải Khoảng từ 0 đến 1
Câu 13:Trong hệ thống OLAP, thao tác 'Drill-down' (Khoan sâu) có tác dụng gì?
💡 Lời giải chi tiết:
Thao tác Drill-down cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn bằng cách di chuyển xuống các cấp thấp hơn trong phân cấp của một chiều dữ liệu. Kết luận Lý giải Đi từ dữ liệu tổng quát đến dữ liệu chi tiết hơn
Câu 14:Mục tiêu chính của việc 'Dimensionality Reduction' (Giảm chiều dữ liệu) là gì?
💡 Lời giải chi tiết:
Giảm chiều dữ liệu giúp đơn giản hóa mô hình, giảm chi phí tính toán và hạn chế hiện tượng quá khớp bằng cách loại bỏ các thuộc tính dư thừa hoặc ít quan trọng. Kết luận Lý giải Giảm chiều dữ liệu nhằm giảm số lượng biến ngẫu nhiên cần xem xét mà vẫn giữ lại thông tin quan trọng
Câu 15:Thuật toán DBSCAN có ưu điểm nổi bật nào so với K-means?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ để định nghĩa các cụm, cho phép nó tìm ra các hình dạng phức tạp và tự động nhận diện các điểm dữ liệu thưa thớt là nhiễu. Kết luận Lý giải Có thể phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt
Câu 16:Chỉ số 'Lift' trong khai phá luật kết hợp dùng để làm gì?
💡 Lời giải chi tiết:
Chỉ số Lift đánh giá xem việc xuất hiện của tập mục A có thực sự làm tăng khả năng xuất hiện của tập mục B hay không so với việc chúng xuất hiện độc lập. Kết luận Lý giải Đo lường mức độ phụ thuộc giữa hai tập mục A và B
Câu 17:Trong cây quyết định, việc 'Pruning' (Tỉa cành) được thực hiện nhằm mục đích gì?
💡 Lời giải chi tiết:
Tỉa cành là kỹ thuật loại bỏ các nhánh không quan trọng hoặc có độ tin cậy thấp để cải thiện khả năng dự báo của cây trên dữ liệu mới. Kết luận Lý giải Giảm độ phức tạp của cây và tránh hiện tượng quá khớp
Câu 18:Phương pháp 'k-fold Cross-Validation' dùng để làm gì?
💡 Lời giải chi tiết:
Kiểm chứng chéo k-fold chia dữ liệu thành k phần, luân phiên huấn luyện và kiểm tra để đảm bảo mọi điểm dữ liệu đều được dùng cho cả hai mục đích, giúp đánh giá mô hình chính xác hơn. Kết luận Lý giải Đánh giá hiệu năng của mô hình một cách khách quan trên toàn bộ dữ liệu
Câu 19:Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được tính như thế nào?
💡 Lời giải chi tiết:
Precision đo lường tỷ lệ các trường hợp mô hình dự báo là dương tính (Positive) mà thực sự đúng là dương tính trong thực tế. Kết luận Lý giải Tỷ lệ số mẫu dự báo đúng là tích cực trên tổng số mẫu dự báo là tích cực
Câu 20:Thuật toán 'Random Forest' hoạt động dựa trên nguyên lý nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học máy kết hợp (ensemble learning) tạo ra nhiều cây quyết định trong quá trình huấn luyện và lấy kết quả trung bình hoặc bỏ phiếu đa số. Kết luận Lý giải Kết hợp kết quả dự báo của nhiều cây quyết định độc lập
Câu 21:Dữ liệu 'Outlier' (Dữ liệu ngoại lai) là gì?
💡 Lời giải chi tiết:
Ngoại lai là những điểm dữ liệu lệch xa khỏi xu hướng chung của tập dữ liệu, thường do sai số đo lường hoặc các hiện tượng đặc biệt. Kết luận Lý giải Những quan sát có giá trị khác biệt đáng kể so với phần còn lại của tập dữ liệu
Câu 22:Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định xem các cụm có được phân tách tốt hay không. Kết luận Lý giải Đánh giá chất lượng của việc gom cụm
Câu 23:Trong khai phá dữ liệu, 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào?
💡 Lời giải chi tiết:
Phân tích giỏ hàng nhằm tìm ra các quy luật về những mặt hàng thường được khách hàng mua cùng nhau, đây là ứng dụng điển hình của khai phá luật kết hợp. Kết luận Lý giải Khai phá luật kết hợp (Association Rule Mining)
Câu 24:Mục đích của bước 'Data Integration' (Tích hợp dữ liệu) là gì?
💡 Lời giải chi tiết:
Tích hợp dữ liệu giúp giải quyết các xung đột về cấu trúc và giá trị khi gộp dữ liệu từ các hệ thống lưu trữ khác nhau vào một nguồn duy nhất. Kết luận Lý giải Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất
Câu 25:Chỉ số 'F1-Score' được tính dựa trên hai đại lượng nào?
💡 Lời giải chi tiết:
F1-Score là trung bình điều hòa giữa Precision (độ chính xác) và Recall (độ triệu hồi), cung cấp một cái nhìn tổng thể về hiệu năng của mô hình phân lớp. Kết luận Lý giải Precision và Recall