Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc trích xuất các mẫu tiềm năng từ dữ liệu đã qua xử lý?
💡 Lời giải chi tiết:
Theo quy trình KDD chuẩn, Data Mining là giai đoạn then chốt sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc mô hình tri thức từ dữ liệu, Kết luận Lý giải Khai phá dữ liệu (Data Mining).
Câu 2:Kỹ thuật nào dưới đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu (missing values) bằng cách thay thế bằng giá trị trung bình của thuộc tính đó?
💡 Lời giải chi tiết:
Làm sạch dữ liệu bao gồm các kỹ thuật xử lý dữ liệu thiếu, dữ liệu nhiễu và các điểm không nhất quán để nâng cao chất lượng dữ liệu đầu vào, Kết luận Lý giải Làm sạch dữ liệu.
Câu 3:Trong luật kết hợp 'X -> Y', đại lượng nào đo lường tỷ lệ các giao dịch chứa cả X và Y trên tổng số giao dịch?
💡 Lời giải chi tiết:
Độ hỗ trợ (Support) phản ánh tần suất xuất hiện đồng thời của tập mục X và Y trong toàn bộ cơ sở dữ liệu giao dịch, Kết luận Lý giải Độ hỗ trợ (Support).
Câu 4:Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?
💡 Lời giải chi tiết:
Tính chất Apriori khẳng định rằng mọi tập con phi rỗng của một tập mục phổ biến cũng phải là tập mục phổ biến, giúp loại bỏ sớm các ứng viên không tiềm năng, Kết luận Lý giải Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến.
Câu 5:Trong phân lớp dữ liệu bằng cây quyết định, chỉ số Gini thường được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Chỉ số Gini đo lường mức độ bất thuần của một tập dữ liệu, từ đó giúp chọn thuộc tính phân tách tốt nhất để tối đa hóa độ tinh khiết tại các nút con, Kết luận Lý giải Đo lường độ tinh khiết (purity) của các nút để chọn thuộc tính phân tách.
Câu 6:Hệ số Lift trong luật kết hợp 'X -> Y' có giá trị bằng 1 cho biết điều gì về mối quan hệ giữa X và Y?
💡 Lời giải chi tiết:
Khi giá trị Lift bằng 1, sự xuất hiện của tập mục X không ảnh hưởng đến xác suất xuất hiện của tập mục Y, chứng tỏ chúng độc lập với nhau, Kết luận Lý giải X và Y độc lập thống kê với nhau.
Câu 7:Thuật toán gom cụm K-means thuộc loại kỹ thuật gom cụm nào sau đây?
💡 Lời giải chi tiết:
K-means là thuật toán điển hình của phương pháp phân hoạch, thực hiện chia tập dữ liệu thành K phần riêng biệt sao cho mỗi phần đại diện cho một cụm, Kết luận Lý giải Gom cụm phân hoạch (Partitioning Clustering).
Câu 8:Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?
💡 Lời giải chi tiết:
Overfitting xảy ra khi mô hình học quá chi tiết các đặc điểm riêng biệt và nhiễu trong tập huấn luyện dẫn đến khả năng tổng quát hóa kém trên dữ liệu mới, Kết luận Lý giải Mô hình quá phức tạp và khớp cả với nhiễu của dữ liệu huấn luyện.
Câu 9:Phương pháp 'Min-max normalization' biến đổi giá trị v của thuộc tính A sang v' trong khoảng [0, 1] theo công thức nào (với minA và maxA là giá trị nhỏ nhất và lớn nhất của A)?
💡 Lời giải chi tiết:
Công thức chuẩn hóa Min-max tính toán giá trị mới bằng cách lấy hiệu của giá trị gốc với giá trị nhỏ nhất chia cho khoảng biến thiên của thuộc tính, Kết luận Lý giải v' = (v - minA) / (maxA - minA).
Câu 10:Trong thuật toán K-means, việc lựa chọn giá trị K (số lượng cụm) ban đầu thường dựa trên phương pháp phổ biến nào?
💡 Lời giải chi tiết:
Phương pháp Elbow xác định số lượng cụm K tối ưu bằng cách quan sát điểm mà tại đó sự giảm của tổng bình phương sai số trong cụm bắt đầu chậm lại đáng kể, Kết luận Lý giải Phương pháp khuỷu tay (Elbow method).
Câu 11:Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?
💡 Lời giải chi tiết:
Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác, Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết lớp.
Câu 12:Kỹ thuật 'Pruning' (Tỉa nhánh) trong xây dựng cây quyết định được sử dụng để làm gì?
💡 Lời giải chi tiết:
Tỉa nhánh giúp loại bỏ các phần của cây phản ánh nhiễu hoặc các chi tiết quá cụ thể, từ đó nâng cao khả năng phân lớp chính xác trên dữ liệu chưa biết, Kết luận Lý giải Giảm độ phức tạp của cây và hạn chế hiện tượng quá khớp.
Câu 13:Ma trận nhầm lẫn (Confusion Matrix) trong bài toán phân lớp nhị phân cung cấp các thông tin nào sau đây?
💡 Lời giải chi tiết:
Ma trận nhầm lẫn thống kê các kết quả dự báo đúng (True Positive, True Negative) và dự báo sai (False Positive, False Negative) của mô hình phân lớp, Kết luận Lý giải Các chỉ số TP, TN, FP, FN.
Câu 14:Trong phân cấp gom cụm (Hierarchical Clustering), phương pháp 'Single-linkage' định nghĩa khoảng cách giữa hai cụm là gì?
💡 Lời giải chi tiết:
Single-linkage (liên kết đơn) xác định khoảng cách cụm dựa trên cặp phần tử có khoảng cách nhỏ nhất thuộc hai cụm khác nhau, Kết luận Lý giải Khoảng cách giữa hai điểm gần nhau nhất của hai cụm.
Câu 15:Thuật toán K-Nearest Neighbors (k-NN) là một ví dụ điển hình của phương pháp học nào?
💡 Lời giải chi tiết:
k-NN được gọi là học lười vì nó không xây dựng mô hình phân lớp tường minh từ trước mà chỉ thực hiện tính toán khi có dữ liệu cần dự báo, Kết luận Lý giải Học lười (Lazy learning).
Câu 16:Khai phá dữ liệu Web (Web Mining) được chia thành ba lĩnh vực chính là gì?
💡 Lời giải chi tiết:
Ba nhánh chính của khai phá Web bao gồm khai phá nội dung, khai phá cấu trúc liên kết và khai phá nhật ký truy cập của người dùng, Kết luận Lý giải Web content, Web structure, Web usage mining.
Câu 17:Đại lượng 'Entropy' trong lý thuyết thông tin dùng để đo lường điều gì trong dữ liệu?
💡 Lời giải chi tiết:
Entropy là thước đo độ không tinh khiết hoặc tính ngẫu nhiên của các mẫu dữ liệu, được sử dụng để tính độ lợi thông tin khi xây dựng cây quyết định, Kết luận Lý giải Mức độ hỗn loạn hoặc tính không chắc chắn của thông tin.
Câu 18:Phân tích thành phần chính (Principal Component Analysis - PCA) thường được sử dụng trong bước nào của khai phá dữ liệu?
💡 Lời giải chi tiết:
PCA là kỹ thuật biến đổi dữ liệu sang một không gian mới có số chiều ít hơn nhưng vẫn giữ được tối đa phương sai của dữ liệu gốc, Kết luận Lý giải Giảm chiều dữ liệu (Dimension reduction).
Câu 19:Trong gom cụm dựa trên mật độ DBSCAN, một điểm được gọi là 'Core point' (điểm lõi) nếu thỏa mãn điều kiện nào?
💡 Lời giải chi tiết:
DBSCAN định nghĩa điểm lõi là điểm có mật độ lân cận cao, vượt qua một ngưỡng số lượng điểm tối thiểu xác định trước, Kết luận Lý giải Số lượng điểm lân cận trong bán kính Eps lớn hơn hoặc bằng ngưỡng MinPts.
Câu 20:Chỉ số F1-score là giá trị trung bình điều hòa (harmonic mean) của hai đại lượng nào?
💡 Lời giải chi tiết:
F1-score kết hợp cả Precision và Recall để tạo ra một thước đo duy nhất giúp đánh giá hiệu năng mô hình phân lớp, đặc biệt khi dữ liệu mất cân bằng, Kết luận Lý giải Độ chính xác (Precision) và Độ triệu hồi (Recall).
Câu 21:Mô hình phân lớp Random Forest hoạt động dựa trên nguyên lý nào?
💡 Lời giải chi tiết:
Random Forest tạo ra một 'khu rừng' gồm nhiều cây quyết định và đưa ra kết quả cuối cùng dựa trên cơ chế bỏ phiếu đa số hoặc trung bình, Kết luận Lý giải Kết hợp kết quả dự báo của nhiều cây quyết định độc lập (Ensemble learning).
Câu 22:Thuật toán FP-Growth có ưu điểm chính nào so với thuật toán Apriori trong khai phá luật kết hợp?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu, giúp khai phá các tập mục phổ biến mà chỉ cần quét cơ sở dữ liệu 2 lần, nhanh hơn Apriori, Kết luận Lý giải Không cần quét cơ sở dữ liệu nhiều lần.
Câu 23:Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng cho mục đích nào trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Binning là phương pháp làm mượt dữ liệu bằng cách chia các giá trị vào các khoảng (giỏ) và thay thế bằng giá trị đại diện của giỏ đó, Kết luận Lý giải Làm mượt dữ liệu để giảm nhiễu và rời rạc hóa dữ liệu.
Câu 24:Trong mô hình CRISP-DM, bước đầu tiên cần thực hiện là gì?
💡 Lời giải chi tiết:
Quy trình CRISP-DM bắt đầu bằng việc xác định mục tiêu kinh doanh và yêu cầu của dự án trước khi đi sâu vào dữ liệu, Kết luận Lý giải Thấu hiểu kinh doanh/bài toán (Business Understanding).
Câu 25:Đặc điểm nào là nhược điểm chính của thuật toán k-NN?
💡 Lời giải chi tiết:
Vì k-NN cần tính khoảng cách từ điểm mới đến tất cả các điểm trong tập huấn luyện nên nó rất tốn tài nguyên tính toán khi dữ liệu lớn, Kết luận Lý giải Độ phức tạp tính toán cao tại thời điểm dự báo khi tập dữ liệu lớn.