Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc làm sạch và tích hợp dữ liệu từ nhiều nguồn khác nhau?
💡 Lời giải chi tiết:
Theo quy trình KDD chuẩn, giai đoạn chuẩn bị dữ liệu bao gồm làm sạch để loại bỏ nhiễu và tích hợp để hợp nhất dữ liệu từ nhiều nguồn khác nhau. Kết luận Lý giải Tiền xử lý dữ liệu
Câu 2:Độ hỗ trợ (Support) của một tập mục phổ biến trong khai phá luật kết hợp được định nghĩa là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ đo lường tần suất xuất hiện của một tập mục trong toàn bộ cơ sở dữ liệu giao dịch để xác định mức độ phổ biến của nó. Kết luận Lý giải Xác suất xuất hiện đồng thời các mục trong tập đó trên tổng số giao dịch
Câu 3:Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính của dữ liệu?
💡 Lời giải chi tiết:
Thuật toán Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải Sự độc lập có điều kiện giữa các thuộc tính khi biết nhãn lớp
Câu 4:Đặc điểm chính của thuật toán phân cụm K-means là gì?
💡 Lời giải chi tiết:
K-means hoạt động bằng cách nhóm các đối tượng vào các cụm sao cho tổng bình phương khoảng cách từ đối tượng đến tâm cụm là nhỏ nhất. Kết luận Lý giải Phân chia dữ liệu thành K cụm dựa trên khoảng cách tới các tâm cụm
Câu 5:Trong đánh giá luật kết hợp, chỉ số Lift lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?
💡 Lời giải chi tiết:
Giá trị Lift lớn hơn 1 chỉ ra rằng hai tập mục xuất hiện cùng nhau thường xuyên hơn so với kỳ vọng nếu chúng độc lập, thể hiện sự tương quan thuận. Kết luận Lý giải Sự xuất hiện của A có tác động tích cực đến sự xuất hiện của B (tương quan thuận)
Câu 6:Hiện tượng quá khớp (Overfitting) trong phân lớp dữ liệu xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình bám quá sát các chi tiết và nhiễu trong dữ liệu huấn luyện, dẫn đến khả năng tổng quát hóa kém trên dữ liệu chưa biết. Kết luận Lý giải Mô hình quá phức tạp, học cả nhiễu của dữ liệu huấn luyện nên kém hiệu quả trên dữ liệu mới
Câu 7:Mục tiêu chính của kỹ thuật Phân tích thành phần chính (PCA) trong tiền xử lý dữ liệu là gì?
💡 Lời giải chi tiết:
PCA là kỹ thuật giảm chiều dữ liệu bằng cách biến đổi các biến có tương quan thành một tập nhỏ hơn các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải Giảm số chiều của dữ liệu nhưng vẫn giữ lại tối đa thông tin quan trọng
Câu 8:Trong ma trận nhầm lẫn (Confusion Matrix), độ nhạy (Recall) được tính bằng công thức nào?
💡 Lời giải chi tiết:
Recall (Độ nhạy) đo lường khả năng của mô hình trong việc tìm ra tất cả các mẫu thuộc lớp dương tính trong tập dữ liệu thực tế. Kết luận Lý giải Số mẫu dương tính đúng chia cho tổng số mẫu dương tính thực tế
Câu 9:Khái niệm 'Outlier' trong khai phá dữ liệu dùng để chỉ đối tượng nào?
💡 Lời giải chi tiết:
Điểm biên (Outlier) là những quan sát lệch lạc hẳn so với xu thế chung hoặc phân phối của các dữ liệu khác trong cùng một tập hợp. Kết luận Lý giải Các điểm dữ liệu có tính chất khác biệt đáng kể so với phần lớn dữ liệu còn lại
Câu 10:Sự khác biệt cơ bản giữa bài toán Hồi quy (Regression) và bài toán Phân lớp (Classification) là gì?
💡 Lời giải chi tiết:
Phân lớp nhằm mục đích gán các mục vào các lớp định danh, trong khi hồi quy hướng tới việc ước tính các giá trị số thực mang tính định lượng. Kết luận Lý giải Hồi quy dự báo giá trị liên tục, trong khi phân lớp dự báo nhãn danh mục rời rạc
Câu 11:Trong thuật toán cây quyết định ID3, chỉ số Entropy dùng để đo lường điều gì?
💡 Lời giải chi tiết:
Entropy là một đại lượng trong lý thuyết thông tin dùng để xác định độ vẩn đục hay tính không đồng nhất của dữ liệu tại một nút. Kết luận Lý giải Mức độ hỗn loạn hoặc tính không thuần nhất của tập dữ liệu
Câu 12:Ưu điểm nổi bật của thuật toán FP-Growth so với thuật toán Apriori trong khai phá luật kết hợp là gì?
💡 Lời giải chi tiết:
FP-Growth mã hóa cơ sở dữ liệu vào cấu trúc cây FP-tree, giúp tìm tập mục phổ biến mà không cần bước tạo ứng viên tốn kém như Apriori. Kết luận Lý giải Sử dụng cấu trúc cây để tránh việc tạo ra số lượng lớn các ứng viên (candidates)
Câu 13:Kỹ thuật chuẩn hóa Min-Max Scaling thực hiện việc gì trên dữ liệu?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max thay đổi thang đo của các giá trị số về một phạm vi cố định để đảm bảo các thuộc tính có tầm ảnh hưởng ngang nhau. Kết luận Lý giải Ánh xạ các giá trị dữ liệu về một khoảng xác định, thường là từ 0 đến 1
Câu 14:Đặc trưng quan trọng nhất của thuật toán phân cụm DBSCAN là gì?
💡 Lời giải chi tiết:
DBSCAN là thuật toán dựa trên mật độ, cho phép tìm thấy các cụm có hình thù phức tạp và xác định các điểm dữ liệu không thuộc cụm nào là nhiễu. Kết luận Lý giải Khả năng phát hiện các cụm có hình dạng bất kỳ và loại bỏ nhiễu
Câu 15:Phương pháp kiểm tra chéo (Cross-validation) được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Cross-validation chia dữ liệu thành nhiều phần để huấn luyện và kiểm tra luân phiên, giúp ước lượng sai số kiểm tra của mô hình chính xác hơn. Kết luận Lý giải Để đánh giá hiệu suất của mô hình một cách khách quan và ổn định hơn
Câu 16:Kho dữ liệu (Data Warehouse) khác với cơ sở dữ liệu tác nghiệp (Operational Database) ở điểm nào?
💡 Lời giải chi tiết:
Khác với cơ sở dữ liệu tác nghiệp dùng cho giao dịch hàng ngày, kho dữ liệu tích hợp dữ liệu lịch sử để phục vụ mục đích báo cáo và phân tích. Kết luận Lý giải Kho dữ liệu được thiết kế tối ưu cho việc phân tích và hỗ trợ ra quyết định
Câu 17:Trong cây quyết định, thuộc tính có chỉ số Thông tin thu được (Information Gain) cao nhất thường được chọn để làm gì?
💡 Lời giải chi tiết:
Thuộc tính mang lại Information Gain lớn nhất giúp phân tách tập dữ liệu thành các tập con thuần nhất nhất, do đó được chọn làm nút kiểm tra. Kết luận Lý giải Làm thuộc tính phân tách tại nút hiện tại
Câu 18:Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy learning) vì lý do nào?
💡 Lời giải chi tiết:
KNN không xây dựng mô hình tường minh trong giai đoạn huấn luyện mà chỉ lưu trữ dữ liệu và chỉ tính toán khi cần phân lớp cho mẫu mới. Kết luận Lý giải Nó trì hoãn việc xử lý dữ liệu cho đến khi nhận được yêu cầu dự báo cụ thể
Câu 19:Khai phá sử dụng web (Web Usage Mining) tập trung vào việc phân tích đối tượng nào?
💡 Lời giải chi tiết:
Web Usage Mining khám phá các mẫu truy cập của người dùng từ dữ liệu sinh ra trong quá trình tương tác với website để hiểu hành vi khách hàng. Kết luận Lý giải Dữ liệu nhật ký (log files) ghi lại hành vi truy cập của người dùng
Câu 20:Mô hình Rừng ngẫu nhiên (Random Forest) cải thiện độ chính xác bằng cách nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học kết hợp (ensemble) giúp giảm phương sai và tránh quá khớp bằng cách lấy trung bình kết quả từ một tập hợp các cây. Kết luận Lý giải Kết hợp kết quả dự báo từ nhiều cây quyết định độc lập được huấn luyện ngẫu nhiên
Câu 21:Kỹ thuật rời rạc hóa dữ liệu (Data Discretization) có tác dụng gì trong khai phá dữ liệu?
💡 Lời giải chi tiết:
Rời rạc hóa giúp giảm số lượng giá trị của thuộc tính liên tục, giúp một số thuật toán (như luật kết hợp hay cây quyết định) hoạt động hiệu quả hơn. Kết luận Lý giải Chuyển các thuộc tính dạng số liên tục thành các khoảng hoặc các phạm vi danh mục
Câu 22:Biểu đồ Dendrogram thường được sử dụng để minh họa kết quả của phương pháp khai phá nào?
💡 Lời giải chi tiết:
Dendrogram là một sơ đồ dạng cây thể hiện trình tự hợp nhất hoặc phân chia các cụm trong thuật toán phân cụm phân cấp. Kết luận Lý giải Phân cụm phân cấp (Hierarchical Clustering)
Câu 23:Mục tiêu của thuật toán Máy vectơ hỗ trợ (SVM) trong bài toán phân lớp là gì?
💡 Lời giải chi tiết:
SVM cố gắng tìm một ranh giới quyết định (siêu phẳng) sao cho khoảng cách từ các điểm dữ liệu gần nhất của các lớp tới ranh giới đó là cực đại. Kết luận Lý giải Tìm siêu phẳng tối ưu để phân tách các lớp với khoảng cách lề (margin) lớn nhất
Câu 24:Cách tiếp cận phổ biến nhất để xử lý dữ liệu bị thiếu (Missing values) mà không làm mất quá nhiều thông tin là gì?
💡 Lời giải chi tiết:
Việc thay thế bằng giá trị trung tâm (trung bình, trung vị) giúp duy trì kích thước mẫu và là phương pháp đơn giản, hiệu quả trong nhiều trường hợp. Kết luận Lý giải Điền giá trị trung bình hoặc trung vị của thuộc tính đó vào vị trí thiếu
Câu 25:Độ tin cậy (Confidence) của luật kết hợp A dẫn đến B được tính như thế nào?
💡 Lời giải chi tiết:
Độ tin cậy đo lường khả năng mục B xuất hiện trong một giao dịch khi biết rằng mục A đã xuất hiện trong giao dịch đó. Kết luận Lý giải Tỷ lệ số giao dịch chứa cả A và B trên tổng số giao dịch chứa A