Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và xử lý các giá trị bị thiếu?
💡 Lời giải chi tiết:
Làm sạch dữ liệu là bước đầu tiên và quan trọng nhất nhằm xử lý dữ liệu không nhất quán, nhiễu và các giá trị bị thiếu để đảm bảo chất lượng cho các giai đoạn sau. Kết luận Lý giải: Làm sạch dữ liệu (Data Cleaning)
Câu 2:Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích chính nào sau đây?
💡 Lời giải chi tiết:
Binning là kỹ thuật chia các giá trị dữ liệu vào các 'thùng' (bins) nhỏ để làm mịn và giảm thiểu tác động của các giá trị nhiễu cục bộ. Kết luận Lý giải: Làm mịn dữ liệu để giảm nhiễu
Câu 3:Trong khai phá luật kết hợp, độ đo 'Support' (Độ hỗ trợ) của một tập mục A được hiểu là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ xác định tần suất xuất hiện của một tập mục cụ thể trong toàn bộ tập dữ liệu giao dịch để đánh giá mức độ phổ biến của nó. Kết luận Lý giải: Tỷ lệ các giao dịch chứa tập mục A trong tổng số các giao dịch của cơ sở dữ liệu
Câu 4:Thuật toán ID3 trong xây dựng cây quyết định sử dụng tiêu chí nào để lựa chọn thuộc tính phân tách tại mỗi nút?
💡 Lời giải chi tiết:
Thuật toán ID3 dựa trên khái niệm Entropy để tính toán độ tăng thông tin và chọn thuộc tính giúp phân loại dữ liệu tốt nhất tại mỗi bước. Kết luận Lý giải: Độ tăng thông tin (Information Gain)
Câu 5:Đặc điểm chính của thuật toán phân cụm K-means là gì?
💡 Lời giải chi tiết:
K-means là thuật toán phân cụm phân hoạch yêu cầu tham số đầu vào quan trọng nhất là số lượng cụm K mà người dùng mong muốn tìm thấy. Kết luận Lý giải: Yêu cầu người dùng xác định trước số lượng cụm K
Câu 6:Trong đánh giá mô hình phân loại, 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP: True Positive, FP: False Positive)?
💡 Lời giải chi tiết:
Theo định nghĩa trong thống kê và khai phá dữ liệu, Precision là tỷ lệ giữa số điểm thực sự dương trên tổng số điểm được mô hình dự đoán là dương. Kết luận Lý giải: TP / (TP + FP)
Câu 7:Sự khác biệt cơ bản giữa phân loại (Classification) và phân cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân loại sử dụng các nhãn lớp đã biết để huấn luyện mô hình (giám sát), trong khi phân cụm tự tìm ra cấu trúc nhóm từ dữ liệu chưa được dán nhãn (không giám sát). Kết luận Lý giải: Phân loại là học có giám sát, phân cụm là học không giám sát
Câu 8:Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?
💡 Lời giải chi tiết:
Tính chất 'Anti-monotone' của Apriori khẳng định rằng nếu một tập mục không đạt ngưỡng hỗ trợ tối thiểu thì không một tập siêu nào của nó có thể đạt ngưỡng đó. Kết luận Lý giải: Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến
Câu 9:Trong kỹ thuật DBSCAN, một điểm được gọi là 'Core point' (Điểm lõi) nếu thỏa mãn điều kiện nào?
💡 Lời giải chi tiết:
DBSCAN định nghĩa điểm lõi là điểm có mật độ dữ liệu xung quanh đủ cao, nghĩa là chứa ít nhất MinPts điểm trong phạm vi Eps. Kết luận Lý giải: Có ít nhất một số lượng điểm tối thiểu (MinPts) nằm trong vùng lân cận bán kính Eps
Câu 10:Kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định nhằm giải quyết vấn đề nào sau đây?
💡 Lời giải chi tiết:
Tỉa cành giúp loại bỏ các nhánh cây quá chi tiết, chỉ phản ánh nhiễu trong dữ liệu huấn luyện, từ đó giúp mô hình tổng quát hóa tốt hơn trên dữ liệu mới. Kết luận Lý giải: Hiện tượng quá khớp (Overfitting)
Câu 11:Phương pháp 'Min-Max Normalization' biến đổi dữ liệu về khoảng giá trị nào thường gặp nhất?
💡 Lời giải chi tiết:
Chuẩn hóa Min-Max thực hiện phép biến đổi tuyến tính để đưa các giá trị dữ liệu ban đầu về một khoảng xác định, phổ biến nhất là đoạn [0, 1]. Kết luận Lý giải: Từ 0 đến 1
Câu 12:Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?
💡 Lời giải chi tiết:
Cái tên 'Naive' (ngây ngô) xuất phát từ giả định rằng tất cả các thuộc tính dự báo đều độc lập với nhau, điều hiếm khi xảy ra trong thực tế nhưng giúp đơn giản hóa việc tính toán. Kết luận Lý giải: Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp
Câu 13:Trong hệ thống OLAP, thao tác 'Roll-up' có ý nghĩa gì?
💡 Lời giải chi tiết:
Thao tác Roll-up thực hiện việc tổng hợp dữ liệu dọc theo một phân cấp kích thước, ví dụ từ đơn vị ngày lên đơn vị tháng hoặc năm. Kết luận Lý giải: Đi từ dữ liệu chi tiết đến dữ liệu tổng quát hơn bằng cách gộp nhóm
Câu 14:Thuật toán K-Nearest Neighbors (KNN) được xếp vào loại 'Lazy Learner' (Người học lười) vì lý do nào?
💡 Lời giải chi tiết:
KNN không xây dựng một hàm mục tiêu tổng quát trong giai đoạn huấn luyện mà chỉ lưu trữ các mẫu và chỉ tính toán khi cần dự báo cho một điểm dữ liệu mới. Kết luận Lý giải: Nó trì hoãn việc xây dựng mô hình cho đến khi có truy vấn phân loại thực tế
Câu 15:Chỉ số Silhouette trong phân cụm được sử dụng để làm gì?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải: Đánh giá chất lượng phân cụm và sự phù hợp của các điểm trong cụm
Ngoại lai là những điểm dữ liệu không tuân theo các quy luật chung của tập dữ liệu, thường được dùng để phát hiện gian lận hoặc các sự cố bất thường. Kết luận Lý giải: Tìm kiếm các đối tượng dữ liệu có hành vi khác biệt đáng kể so với phần còn lại
Câu 17:Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori?
💡 Lời giải chi tiết:
FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và khai phá trực tiếp, giúp tránh việc phải tạo và kiểm tra hàng triệu tập ứng viên như Apriori. Kết luận Lý giải: Không cần tạo ra các tập ứng viên (candidate sets) và chỉ quét cơ sở dữ liệu 2 lần
Câu 18:Mô hình phân loại nào dựa trên việc tìm kiếm một 'siêu phẳng' (hyperplane) tối ưu để ngăn cách các lớp dữ liệu?
💡 Lời giải chi tiết:
Mục tiêu của SVM là tìm ra một siêu phẳng trong không gian nhiều chiều để phân tách các điểm dữ liệu của các lớp khác nhau với lề (margin) lớn nhất. Kết luận Lý giải: Máy vector hỗ trợ (Support Vector Machine - SVM)
Câu 19:Trong tiền xử lý dữ liệu, 'Data Integration' (Tích hợp dữ liệu) đối mặt với thách thức nào sau đây?
💡 Lời giải chi tiết:
Tích hợp dữ liệu đòi hỏi việc nhận diện cùng một đối tượng từ nhiều nguồn khác nhau mặc dù chúng có thể có tên gọi hoặc định dạng khác nhau. Kết luận Lý giải: Mâu thuẫn giá trị và sự không đồng nhất về thực thể (Entity Identification)
Câu 20:Chỉ số Gini thường được sử dụng trong thuật toán cây quyết định nào sau đây?
💡 Lời giải chi tiết:
Thuật toán CART sử dụng chỉ số Gini để đo lường độ tinh khiết của các nút, nhằm quyết định cách phân chia dữ liệu tại mỗi bước xây dựng cây. Kết luận Lý giải: CART (Classification and Regression Trees)
Câu 21:Trong khai phá văn bản, trọng số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?
💡 Lời giải chi tiết:
TF-IDF giúp làm nổi bật các từ có giá trị phân loại cao bằng cách tăng trọng số cho các từ xuất hiện nhiều trong một văn bản nhưng ít xuất hiện trong các văn bản khác. Kết luận Lý giải: Đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu
Câu 22:Phương pháp 'Cross-validation' (Kiểm tra chéo) thường được sử dụng nhằm mục đích gì?
💡 Lời giải chi tiết:
Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, Cross-validation giúp đảm bảo mô hình hoạt động ổn định trên nhiều tập dữ liệu khác nhau. Kết luận Lý giải: Để đánh giá hiệu suất của mô hình một cách khách quan và hạn chế quá khớp
Câu 23:Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'Single Linkage' xác định khoảng cách giữa hai cụm như thế nào?
💡 Lời giải chi tiết:
Single Linkage định nghĩa khoảng cách giữa hai cụm là khoảng cách ngắn nhất tìm được giữa bất kỳ một điểm nào của cụm thứ nhất và cụm thứ hai. Kết luận Lý giải: Khoảng cách giữa hai điểm gần nhau nhất của hai cụm
Câu 24:Ưu điểm của thuật toán Random Forest so với một cây quyết định đơn lẻ là gì?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học máy kết hợp (ensemble) giúp tăng cường độ chính xác và giảm nguy cơ quá khớp bằng cách lấy trung bình kết quả từ nhiều cây quyết định độc lập. Kết luận Lý giải: Giảm thiểu biến động (variance) và cải thiện độ chính xác bằng cách kết hợp nhiều cây
Câu 25:Kỹ thuật 'Principal Component Analysis' (PCA) được sử dụng trong giai đoạn nào của khai phá dữ liệu?
💡 Lời giải chi tiết:
PCA là một kỹ thuật thống kê giúp biến đổi các thuộc tính có liên quan thành một tập hợp các biến không liên quan (thành phần chính) nhằm giảm độ phức tạp của dữ liệu. Kết luận Lý giải: Giảm chiều dữ liệu (Dimension Reduction)