Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc loại bỏ nhiễu và dữ liệu không nhất quán?
💡 Lời giải chi tiết:
Theo quy trình chuẩn KDD, bước làm sạch dữ liệu là giai đoạn thực hiện các kỹ thuật để xử lý dữ liệu nhiễu, thiếu hoặc không đồng nhất nhằm nâng cao chất lượng dữ liệu đầu vào. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)
Câu 2:Trong khai phá luật kết hợp, độ đo nào thể hiện tỷ lệ các giao dịch chứa cả hai tập mục A và B trên tổng số giao dịch?
💡 Lời giải chi tiết:
Độ hỗ trợ (Support) xác định tần suất xuất hiện đồng thời của các tập mục trong toàn bộ cơ sở dữ liệu giao dịch. Kết luận Lý giải Độ hỗ trợ (Support)
Câu 3:Thuật toán Apriori dựa trên tính chất cốt lõi nào để cắt tỉa không gian tìm kiếm các tập mục thường xuyên?
💡 Lời giải chi tiết:
Tính chất đơn điệu của Apriori khẳng định rằng nếu một tập mục không đạt ngưỡng hỗ trợ tối thiểu thì bất kỳ tập lớn hơn nào chứa nó cũng sẽ không đạt ngưỡng đó. Kết luận Lý giải Nếu một tập mục không thường xuyên thì mọi tập siêu của nó cũng không thường xuyên
Câu 4:Sự khác biệt cơ bản nhất giữa Phân loại (Classification) và Phân cụm (Clustering) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
Phân loại dựa trên tập dữ liệu đã được gán nhãn để xây dựng mô hình dự đoán, trong khi phân cụm tự động tìm ra cấu trúc nhóm dựa trên đặc điểm tương đồng mà không cần nhãn lớp. Kết luận Lý giải Phân loại yêu cầu nhãn lớp biết trước (có giám sát), phân cụm không yêu cầu nhãn lớp (không giám sát)
Câu 5:Chỉ số Gini trong thuật toán xây dựng cây quyết định được sử dụng để đo lường đại lượng nào?
💡 Lời giải chi tiết:
Chỉ số Gini đo lường mức độ phân tán hoặc không thuần nhất của các phần tử trong một tập dữ liệu để chọn thuộc tính phân tách tối ưu. Kết luận Lý giải Độ vẩn đục (Impurity) của tập dữ liệu
Câu 6:Kỹ thuật 'Phân tích thành phần chính' (PCA) thường được áp dụng trong giai đoạn tiền xử lý dữ liệu nhằm mục đích gì?
💡 Lời giải chi tiết:
PCA giúp biến đổi các biến có tương quan thành một tập nhỏ hơn các biến không tương quan (thành phần chính) để giảm độ phức tạp tính toán mà vẫn giữ lại phần lớn thông tin. Kết luận Lý giải Giảm chiều dữ liệu (Dimensionality Reduction) bằng cách tạo ra các biến mới không tương quan
Câu 7:Trong mô hình OLAP, thao tác 'Drill-down' có ý nghĩa như thế nào đối với việc quan sát dữ liệu?
💡 Lời giải chi tiết:
Drill-down là quá trình phân rã dữ liệu từ mức tóm tắt xuống mức chi tiết hơn theo các cấp bậc của một chiều dữ liệu. Kết luận Lý giải Đi từ dữ liệu tổng hợp xuống mức dữ liệu chi tiết hơn
Câu 8:Thuật toán Naive Bayes dựa trên giả định 'ngây thơ' nào về các thuộc tính của dữ liệu?
💡 Lời giải chi tiết:
Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác khi nhãn lớp đã xác định. Kết luận Lý giải Các thuộc tính độc lập với nhau khi biết nhãn lớp
Câu 9:Việc lựa chọn giá trị K không phù hợp trong thuật toán K-means có thể dẫn đến vấn đề nghiêm trọng nào?
💡 Lời giải chi tiết:
Giá trị K quyết định số lượng cụm, nếu chọn sai sẽ làm sai lệch việc nhận diện các nhóm thực tế trong tập dữ liệu. Kết luận Lý giải Kết quả phân cụm không phản ánh đúng cấu trúc tự nhiên của dữ liệu
Câu 10:Độ đo F1-score được tính toán dựa trên sự kết hợp của hai đại lượng nào sau đây?
💡 Lời giải chi tiết:
F1-score là trung bình điều hòa của Precision và Recall, giúp đánh giá mô hình cân bằng hơn so với chỉ dùng độ chính xác tổng thể. Kết luận Lý giải Độ chính xác (Precision) và Độ triệu hồi (Recall)
Câu 11:Trong xử lý dữ liệu thiếu, phương pháp thay thế bằng giá trị 'Mode' phù hợp nhất với loại thuộc tính nào?
💡 Lời giải chi tiết:
Mode là giá trị xuất hiện thường xuyên nhất, do đó nó là lựa chọn phổ biến để lấp đầy dữ liệu thiếu cho các biến phân loại hoặc định danh. Kết luận Lý giải Thuộc tính định danh (Categorical)
Câu 12:Mục tiêu chính của kỹ thuật 'Rời rạc hóa dữ liệu' (Data Discretization) là gì?
💡 Lời giải chi tiết:
Rời rạc hóa giúp đơn giản hóa dữ liệu số liên tục thành các phạm vi giá trị, tạo điều kiện thuận lợi cho một số thuật toán khai phá như luật kết hợp hoặc cây quyết định. Kết luận Lý giải Chia các thuộc tính số liên tục thành các khoảng hoặc các giá trị rời rạc
Câu 13:Ưu điểm nổi bật nhất của thuật toán DBSCAN so với thuật toán K-means là gì?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ nên có thể tìm ra các cụm lồng nhau hoặc có hình dạng phức tạp, đồng thời phân loại các điểm thưa thớt là nhiễu. Kết luận Lý giải Khả năng phát hiện các cụm có hình dạng bất kỳ và nhận dạng điểm nhiễu
Câu 14:Trong thuật toán ID3, khái niệm 'Entropy' dùng để đại diện cho điều gì?
💡 Lời giải chi tiết:
Entropy là thước đo độ không chắc chắn hoặc độ hỗn loạn của các ví dụ trong tập dữ liệu đối với các nhãn lớp. Kết luận Lý giải Mức độ hỗn loạn hoặc không chắc chắn của thông tin
Câu 15:Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường có biểu hiện như thế nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học quá chi tiết cả nhiễu và các biến động ngẫu nhiên trong tập huấn luyện, làm mất đi khả năng tổng quát hóa trên dữ liệu thực tế. Kết luận Lý giải Mô hình hoạt động rất tốt trên tập huấn luyện nhưng rất kém trên tập dữ liệu mới
Câu 16:Kỹ thuật 'Ensemble Learning' (Học kết hợp) như thuật toán Random Forest hoạt động dựa trên nguyên lý chính nào?
💡 Lời giải chi tiết:
Học kết hợp tận dụng trí tuệ tập thể bằng cách tổng hợp kết quả của nhiều bộ phân loại để đạt được độ chính xác và ổn định cao hơn một mô hình đơn lẻ. Kết luận Lý giải Kết hợp dự đoán từ nhiều mô hình đơn lẻ để đưa ra kết quả cuối cùng
Câu 17:Trong khai phá luật kết hợp, nếu chỉ số 'Lift' của luật A kéo theo B bằng 1, điều này có nghĩa là gì?
💡 Lời giải chi tiết:
Khi Lift bằng 1, xác suất quan sát được A và B đồng thời đúng bằng tích xác suất của chúng, chứng tỏ không có sự phụ thuộc giữa hai tập mục. Kết luận Lý giải Sự xuất hiện của A và B là hoàn toàn độc lập với nhau
Câu 18:Thuật toán FP-Growth có cải tiến quan trọng nào giúp nó thường nhanh hơn thuật toán Apriori?
💡 Lời giải chi tiết:
Bằng cách sử dụng cấu trúc cây Frequent Pattern (FP-tree), thuật toán này loại bỏ bước sinh ứng viên tốn kém và giảm số lần quét cơ sở dữ liệu. Kết luận Lý giải Nó nén dữ liệu vào một cấu trúc cây và tránh việc sinh các tập ứng viên
Câu 19:Kỹ thuật chuẩn hóa dữ liệu 'Min-Max Normalization' thực hiện việc biến đổi dữ liệu về khoảng giá trị nào phổ biến nhất?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max ánh xạ các giá trị dữ liệu gốc vào một khoảng cố định, trong đó phổ biến nhất là đoạn [0, 1]. Kết luận Lý giải Từ 0 đến 1
Câu 20:Trong thuật toán SVM (Support Vector Machine), 'Kernel trick' được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Kernel trick cho phép SVM giải quyết các bài toán phân tách phi tuyến bằng cách ánh xạ dữ liệu vào không gian đặc trưng có số chiều lớn hơn mà không cần tính toán tọa độ cụ thể. Kết luận Lý giải Để chuyển dữ liệu sang không gian chiều cao hơn giúp phân tách tuyến tính dễ dàng hơn
Câu 21:Phương pháp 'K-fold Cross-validation' thường được sử dụng trong bước nào của quá trình khai phá dữ liệu?
💡 Lời giải chi tiết:
Kiểm chứng chéo K-fold giúp ước lượng độ chính xác của mô hình một cách khách quan hơn bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra. Kết luận Lý giải Đánh giá hiệu suất của mô hình
Câu 22:Khái niệm 'Data Cube' (Khối dữ liệu) là thành phần trung tâm của công nghệ nào sau đây?
💡 Lời giải chi tiết:
Data Cube cho phép lưu trữ và truy xuất dữ liệu đa chiều, phục vụ cho các phân tích phức tạp và nhanh chóng trong OLAP. Kết luận Lý giải Xử lý phân tích trực tuyến (OLAP)
Câu 23:Khai phá cấu trúc Web (Web Structure Mining) chủ yếu tập trung vào việc phân tích yếu tố nào?
💡 Lời giải chi tiết:
Khai phá cấu trúc Web nghiên cứu sơ đồ liên kết để xác định tầm quan trọng của các trang web, ví dụ như thuật toán PageRank. Kết luận Lý giải Các liên kết (hyperlinks) giữa các trang web
Câu 24:Thách thức 'Lời nguyền đa chiều' (Curse of Dimensionality) ảnh hưởng như thế nào đến các thuật toán khai phá dữ liệu?
💡 Lời giải chi tiết:
Khi số chiều tăng lên, không gian dữ liệu mở rộng theo hàm mũ khiến các điểm dữ liệu trở nên cách xa nhau, làm giảm hiệu quả của các phương pháp dựa trên khoảng cách. Kết luận Lý giải Dữ liệu trở nên thưa thớt khiến các khái niệm về khoảng cách không còn ý nghĩa
Câu 25:Hệ số Silhouette (Silhouette Coefficient) được sử dụng để đánh giá chất lượng của kỹ thuật nào?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của nó so với các cụm khác để đánh giá hiệu quả phân cụm. Kết luận Lý giải Phân cụm dữ liệu