Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào trực tiếp thực hiện việc trích xuất các mẫu tiềm năng bằng các thuật toán thông minh?
💡 Lời giải chi tiết:
Theo quy trình chuẩn KDD, bước Khai phá dữ liệu là giai đoạn áp dụng các thuật toán chuyên biệt để phát hiện các mẫu, xu hướng hoặc quy luật từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu (Data Mining)
Câu 2:Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình hoặc giá trị phổ biến nhất?
💡 Lời giải chi tiết:
Làm sạch dữ liệu bao gồm các kỹ thuật như điền giá trị thiếu, làm mượt dữ liệu nhiễu và xử lý các điểm dữ liệu không nhất quán. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)
Câu 3:Trong phân tích luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ phản ánh tần suất xuất hiện của một tập mục tiêu trong toàn bộ cơ sở dữ liệu giao dịch đang xét. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập A trên tổng số giao dịch
Câu 4:Trong một luật kết hợp 'A kéo theo B', độ tin cậy (Confidence) được tính toán dựa trên công thức nào?
💡 Lời giải chi tiết:
Độ tin cậy đo lường khả năng xuất hiện của mục B trong các giao dịch mà mục A đã xuất hiện. Kết luận Lý giải Tỷ lệ giao dịch chứa cả A và B trên số giao dịch chứa A
Câu 5:Giá trị 'Lift' trong luật kết hợp lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?
💡 Lời giải chi tiết:
Giá trị Lift lớn hơn 1 chứng tỏ sự xuất hiện của mục này làm tăng xác suất xuất hiện của mục kia so với khi chúng độc lập. Kết luận Lý giải A và B có mối quan hệ phụ thuộc tích cực (có xu hướng xuất hiện cùng nhau)
Câu 6:Nguyên lý nào là cơ sở của thuật toán Apriori để giảm bớt không gian tìm kiếm các tập phổ biến?
💡 Lời giải chi tiết:
Tính chất đơn điệu của tập phổ biến khẳng định rằng tất cả các tập con của một tập mục phổ biến đều phải đạt ngưỡng hỗ trợ tối thiểu. Kết luận Lý giải Nếu một tập là phổ biến, mọi tập con của nó cũng phải phổ biến
Câu 7:Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường yếu tố nào?
💡 Lời giải chi tiết:
Entropy là một đại lượng trong lý thuyết thông tin dùng để đo lường mức độ hỗn loạn hoặc độ không thuần khiết của các ví dụ trong một tập dữ liệu. Kết luận Lý giải Độ tinh khiết hoặc tính không ổn định của dữ liệu tại một nút
Câu 8:Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình quá phức tạp, ghi nhớ chính xác các biến động ngẫu nhiên và nhiễu trong tập huấn luyện thay vì học quy luật tổng quát. Kết luận Lý giải Mô hình học quá chi tiết cả nhiễu của dữ liệu huấn luyện dẫn đến kém hiệu quả trên dữ liệu mới
Câu 9:Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?
💡 Lời giải chi tiết:
Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết lớp
Câu 10:Thuật toán K-Nearest Neighbors (KNN) được phân loại vào nhóm học máy nào sau đây?
💡 Lời giải chi tiết:
KNN được gọi là học lười vì nó không xây dựng mô hình huấn luyện rõ ràng mà chỉ lưu trữ dữ liệu và thực hiện tính toán khi có truy vấn mới. Kết luận Lý giải Học lười (Lazy Learner)
Câu 11:Mục tiêu chính của các thuật toán phân cụm (Clustering) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
Phân cụm là phương pháp học không giám sát nhằm chia tập dữ liệu thành các nhóm sao cho sự tương đồng trong nhóm là tối đa và giữa các nhóm là tối thiểu. Kết luận Lý giải Nhóm các đối tượng tương tự nhau vào cùng một cụm và khác biệt với các cụm khác
Câu 12:Trong thuật toán K-means, việc xác định các đối tượng thuộc về cụm nào dựa trên tiêu chí nào?
💡 Lời giải chi tiết:
K-means gán mỗi điểm dữ liệu vào cụm có trọng tâm gần nó nhất theo một thước đo khoảng cách (thường là Euclid). Kết luận Lý giải Khoảng cách từ đối tượng đó đến trọng tâm (centroid) của các cụm
Câu 13:Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ cấu trúc dạng cây được gọi là gì?
💡 Lời giải chi tiết:
Dendrogram là một biểu đồ dạng cây hiển thị trình tự các bước hợp nhất hoặc chia tách trong phân cụm phân cấp. Kết luận Lý giải Sơ đồ Dendrogram
Câu 14:Đặc điểm nổi bật của thuật toán DBSCAN so với K-means là gì?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ để phân cụm, giúp nó nhận diện được các hình dạng phức tạp và loại bỏ các điểm dữ liệu thưa thớt (nhiễu). Kết luận Lý giải Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt
Câu 15:Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính như thế nào?
💡 Lời giải chi tiết:
Precision đo lường tỷ lệ các trường hợp thực sự tích cực trong số tất cả các trường hợp mà mô hình đã dự đoán là tích cực. Kết luận Lý giải Tỷ lệ dự đoán đúng trên tổng số dự đoán thuộc lớp đó
Câu 16:Chỉ số F1-score là đại lượng kết hợp giữa hai thông số nào sau đây?
💡 Lời giải chi tiết:
F1-score là trung bình điều hòa của Precision và Recall, được dùng khi cần sự cân bằng giữa hai chỉ số này. Kết luận Lý giải Precision và Recall
Câu 17:Kỹ thuật 'Rời rạc hóa dữ liệu' (Data Discretization) thường được thực hiện ở giai đoạn nào?
💡 Lời giải chi tiết:
Rời rạc hóa là quá trình chuyển đổi các giá trị liên tục thành các khoảng giá trị rời rạc, thuộc bước biến đổi dữ liệu trong tiền xử lý. Kết luận Lý giải Tiền xử lý và biến đổi dữ liệu
Câu 18:Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào?
💡 Lời giải chi tiết:
PCA giúp biến đổi một tập hợp các biến có tương quan thành một tập hợp nhỏ hơn các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 19:Kỹ thuật 'Ensemble Learning' như Random Forest hoạt động dựa trên nguyên lý gì?
💡 Lời giải chi tiết:
Random Forest kết hợp nhiều cây quyết định độc lập thông qua kỹ thuật bagging để cải thiện độ chính xác và giảm quá khớp. Kết luận Lý giải Kết hợp dự đoán của nhiều mô hình yếu để tạo ra một mô hình mạnh
Câu 20:Trong khai phá dữ liệu web (Web Mining), việc phân tích cấu trúc các liên kết giữa các trang web được gọi là gì?
💡 Lời giải chi tiết:
Web Structure Mining tập trung vào việc khám phá tri thức từ sơ đồ liên kết (hyperlinks) giữa các trang web. Kết luận Lý giải Web Structure Mining
Câu 21:Khái niệm 'Data Warehouse' có mối quan hệ như thế nào với 'Data Mining'?
💡 Lời giải chi tiết:
Kho dữ liệu (Data Warehouse) đóng vai trò là hạ tầng lưu trữ dữ liệu đã được tích hợp và làm sạch, tạo điều kiện thuận lợi cho các hoạt động khai phá. Kết luận Lý giải Data Warehouse cung cấp nguồn dữ liệu tích cực và sạch cho Data Mining
Câu 22:Đâu là một ví dụ về thuật toán học có giám sát (Supervised Learning)?
💡 Lời giải chi tiết:
Hồi quy tuyến tính yêu cầu dữ liệu có nhãn (giá trị mục tiêu) để huấn luyện mô hình dự đoán, do đó thuộc nhóm học có giám sát. Kết luận Lý giải Hồi quy tuyến tính (Linear Regression)
Câu 23:Trong quá trình đánh giá mô hình, phương pháp 'K-fold Cross-validation' giúp giải quyết vấn đề gì?
💡 Lời giải chi tiết:
Kiểm tra chéo K-fold đảm bảo mọi điểm dữ liệu đều có cơ hội xuất hiện trong cả tập huấn luyện và tập kiểm tra, giúp đánh giá mô hình khách quan hơn. Kết luận Lý giải Giảm thiểu sự phụ thuộc của hiệu suất mô hình vào cách chia tập dữ liệu
Câu 24:Điểm dữ liệu nào được coi là 'Outlier' (Điểm biên/ngoại lệ)?
💡 Lời giải chi tiết:
Ngoại lệ là những quan sát lệch lạc hẳn so với xu hướng chung hoặc phân phối của các dữ liệu khác trong cùng tập hợp. Kết luận Lý giải Điểm dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu
Câu 25:Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu về khoảng [0, 1] nhằm mục đích chính là gì?
💡 Lời giải chi tiết:
Chuẩn hóa đưa các thuộc tính về cùng một thang đo để tránh việc các thuộc tính có giá trị lớn lấn át các thuộc tính có giá trị nhỏ trong tính toán. Kết luận Lý giải Giúp các thuộc tính có đơn vị đo khác nhau đóng góp công bằng vào mô hình