Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình Khám phá Tri thức từ Dữ liệu (KDD), bước nào thường chiếm nhiều thời gian và công sức nhất?
💡 Lời giải chi tiết:
Theo phân tích phổ biến, giai đoạn tiền xử lý và làm sạch dữ liệu thường chiếm tới 60-80% thời gian của dự án vì dữ liệu thực tế thường nhiễu, thiếu và không nhất quán. Kết luận Lý giải: Tiền xử lý và làm sạch dữ liệu.
Câu 2:Mục tiêu chính của việc chuẩn hóa dữ liệu (Data Normalization) bằng phương pháp 'Min-Max' là gì?
💡 Lời giải chi tiết:
Phương pháp Min-Max thực hiện biến đổi tuyến tính để đưa dữ liệu về một thang đo đồng nhất, giúp các thuật toán dựa trên khoảng cách không bị chi phối bởi các thuộc tính có biên độ lớn. Kết luận Lý giải: Chuyển đổi các giá trị về một khoảng xác định, thường là từ 0 đến 1.
Câu 3:Thuật toán K-Nearest Neighbors (KNN) thuộc nhóm phương pháp khai phá dữ liệu nào sau đây?
💡 Lời giải chi tiết:
KNN là một thuật toán học có giám sát dùng để gán nhãn cho đối tượng mới dựa trên nhãn của k đối tượng gần nhất trong tập huấn luyện. Kết luận Lý giải: Phân lớp (Classification) dựa trên học có giám sát.
Câu 4:Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một tập mục tiêu được hiểu là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ đo lường tần suất xuất hiện phổ biến của một tập hợp các mục tiêu trong toàn bộ cơ sở dữ liệu giao dịch. Kết luận Lý giải: Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch.
Câu 5:Kỹ thuật PCA (Principal Component Analysis) thường được ứng dụng để giải quyết vấn đề gì?
💡 Lời giải chi tiết:
PCA là một kỹ thuật thống kê giúp giảm số lượng biến trong khi vẫn giữ lại tối đa lượng thông tin (phương sai) của dữ liệu gốc. Kết luận Lý giải: Giảm chiều dữ liệu bằng cách tạo ra các biến mới không tương quan.
Câu 6:Đặc điểm chính để phân biệt giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp là quá trình học từ các ví dụ đã biết nhãn (supervised), trong khi phân cụm nhóm các đối tượng dựa trên sự tương đồng mà không cần nhãn trước (unsupervised). Kết luận Lý giải: Phân lớp cần dữ liệu có nhãn mục tiêu, phân cụm thì không.
Câu 7:Trong cây quyết định (Decision Tree), hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào?
💡 Lời giải chi tiết:
Overfitting xảy ra khi cây quyết định được phát triển quá phức tạp, dẫn đến việc nắm bắt cả những biến động ngẫu nhiên và nhiễu thay vì quy luật tổng quát. Kết luận Lý giải: Mô hình học quá chi tiết cả nhiễu trong tập huấn luyện, làm giảm khả năng dự báo dữ liệu mới.
Câu 8:Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính?
💡 Lời giải chi tiết:
Giả định 'ngây ngô' (naive) của thuật toán này là sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải: Các thuộc tính độc lập có điều kiện với nhau khi biết lớp mục tiêu.
Câu 9:Ưu điểm nổi bật nhất của thuật toán DBSCAN so với K-means trong phân cụm là gì?
💡 Lời giải chi tiết:
DBSCAN dựa trên mật độ để phân cụm, cho phép nó tìm ra các cụm hình dạng phức tạp và tự động nhận diện các điểm dữ liệu thưa thớt là nhiễu. Kết luận Lý giải: Có khả năng phát hiện các cụm có hình dạng bất kỳ và loại bỏ nhiễu.
Câu 10:Chỉ số F1-score là giá trị trung bình nào giữa Precision (Độ chính xác) và Recall (Độ triệu hồi)?
💡 Lời giải chi tiết:
Trung bình điều hòa được sử dụng cho F1-score để đảm bảo rằng nếu một trong hai giá trị Precision hoặc Recall rất thấp, chỉ số F1 sẽ bị kéo xuống thấp theo. Kết luận Lý giải: Trung bình điều hòa (Harmonic Mean).
Câu 11:Trong thuật toán Apriori, nguyên lý 'tỉa nhánh' (pruning) dựa trên tính chất nào?
💡 Lời giải chi tiết:
Tính chất đơn điệu của độ hỗ trợ khẳng định rằng nếu một tập hợp không đạt ngưỡng phổ biến, thì không một tập cha nào của nó có thể phổ biến, giúp giảm không gian tìm kiếm. Kết luận Lý giải: Mọi tập con của một tập mục tiêu phổ biến cũng phải là phổ biến.
Câu 12:Mục đích của việc sử dụng 'Cross-validation' (Kiểm chứng chéo) là gì?
💡 Lời giải chi tiết:
Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, cross-validation giúp ước lượng khách quan hiệu suất của mô hình trên dữ liệu chưa biết. Kết luận Lý giải: Để đánh giá khả năng tổng quát hóa của mô hình và tránh sai số do chia dữ liệu.
Câu 13:Trong khai phá dữ liệu văn bản (Text Mining), bước 'Stop words removal' có tác dụng gì?
💡 Lời giải chi tiết:
Loại bỏ các từ dừng giúp giảm nhiễu và kích thước không gian vector, tập trung vào các từ mang nội dung ý nghĩa của văn bản. Kết luận Lý giải: Loại bỏ các từ phổ biến nhưng mang ít giá trị phân biệt như 'và', 'là', 'của'.
Câu 14:Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ biểu diễn nào sau đây?
💡 Lời giải chi tiết:
Dendrogram minh họa quá trình lồng ghép hoặc chia tách các cụm theo từng bước, cho phép người dùng quan sát mối quan hệ giữa các đối tượng ở các mức độ chi tiết khác nhau. Kết luận Lý giải: Cây phân cấp (Dendrogram).
Câu 15:Tham số 'Lift' trong luật kết hợp A -> B lớn hơn 1 có ý nghĩa gì?
💡 Lời giải chi tiết:
Lift đo lường mức độ phụ thuộc giữa hai vế của luật; giá trị lớn hơn 1 cho thấy hai tập mục tiêu xuất hiện cùng nhau nhiều hơn mức ngẫu nhiên. Kết luận Lý giải: A và B có mối tương quan dương (A xuất hiện làm tăng khả năng xuất hiện B).
Câu 16:Phương pháp 'Entropy' thường được sử dụng trong cây quyết định để làm gì?
💡 Lời giải chi tiết:
Entropy là một đại lượng trong lý thuyết thông tin giúp xác định cách phân chia dữ liệu sao cho các nút con trở nên thuần khiết nhất có thể. Kết luận Lý giải: Đo lường độ không thuần nhất (impurity) của dữ liệu tại một nút.
Câu 17:Kỹ thuật 'Bagging' (như trong Random Forest) giúp cải thiện mô hình bằng cách nào?
💡 Lời giải chi tiết:
Bagging (Bootstrap Aggregating) giảm phương sai của mô hình bằng cách lấy trung bình kết quả từ nhiều cây quyết định được xây dựng trên các mẫu bootstrap khác nhau. Kết luận Lý giải: Kết hợp dự báo từ nhiều mô hình độc lập được huấn luyện trên các mẫu dữ liệu khác nhau.
Câu 18:Trong hệ thống gợi ý (Recommender Systems), kỹ thuật 'Collaborative Filtering' dựa trên yếu tố nào?
💡 Lời giải chi tiết:
Lọc cộng tác giả định rằng nếu hai người dùng có cùng ý kiến về một số mục trong quá khứ, họ sẽ có xu hướng đồng ý với nhau trong tương lai. Kết luận Lý giải: Sở thích và hành vi của những người dùng tương tự.
Câu 19:Chỉ số Silhouette Coefficient được dùng để đánh giá kết quả của nhiệm vụ nào?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của nó so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải: Đo lường chất lượng của các cụm trong phân cụm dữ liệu.
Câu 20:Thế nào là một 'Outlier' (Giá trị ngoại lệ) trong tập dữ liệu?
💡 Lời giải chi tiết:
Ngoại lệ là những điểm dữ liệu không tuân theo quy luật chung của tập dữ liệu và có thể chứa thông tin quan trọng hoặc chỉ đơn giản là nhiễu. Kết luận Lý giải: Một quan sát có sự khác biệt đáng kể so với phần lớn các quan sát khác.
Câu 21:Mạng nơ-ron nhân tạo (ANN) cập nhật trọng số thông qua thuật toán nào sau đây?
💡 Lời giải chi tiết:
Backpropagation tính toán gradient của hàm mất mát và lan truyền lỗi từ đầu ra về đầu vào để điều chỉnh trọng số nhằm tối thiểu hóa sai số. Kết luận Lý giải: Lan truyền ngược (Backpropagation).
Câu 22:Trong Ma trận nhầm lẫn (Confusion Matrix), 'False Positive' (Dương tính giả) nghĩa là gì?
💡 Lời giải chi tiết:
Dương tính giả xảy ra khi mô hình đưa ra cảnh báo hoặc phân loại vào lớp mục tiêu trong khi thực tế đối tượng đó không thuộc lớp đó (Sai lầm loại I). Kết luận Lý giải: Mô hình dự báo là dương tính nhưng thực tế là âm tính.
Câu 23:Web Usage Mining tập trung vào việc khai phá thông tin gì?
💡 Lời giải chi tiết:
Khai phá cách sử dụng web giúp các nhà quản trị hiểu rõ lộ trình di chuyển và thói quen của khách hàng trên website để tối ưu hóa giao diện. Kết luận Lý giải: Nhật ký truy cập (Logs) để hiểu hành vi duyệt web của người dùng.
Câu 24:Tại sao cần thực hiện 'Feature Selection' (Chọn lọc thuộc tính) trước khi huấn luyện mô hình?
💡 Lời giải chi tiết:
Việc giữ lại các thuộc tính quan trọng nhất giúp cải thiện độ chính xác, giảm thời gian tính toán và hạn chế hiện tượng quá khớp. Kết luận Lý giải: Để loại bỏ các thuộc tính dư thừa hoặc không liên quan, giúp giảm độ phức tạp.
Câu 25:Trong thuật toán K-means, việc chọn vị trí các tâm cụm (centroids) ban đầu có ảnh hưởng như thế nào?
💡 Lời giải chi tiết:
K-means rất nhạy cảm với khởi tạo ban đầu, do đó các tâm cụm khác nhau có thể dẫn đến các kết quả phân cụm khác nhau. Kết luận Lý giải: Có thể dẫn đến việc thuật toán hội tụ về các tối ưu cục bộ khác nhau.