Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và dữ liệu không nhất quán?
💡 Lời giải chi tiết:
Theo quy trình KDD tiêu chuẩn, làm sạch dữ liệu là giai đoạn thực hiện các kỹ thuật để xử lý dữ liệu thiếu, khử nhiễu và khắc phục tình trạng không nhất quán trong tập dữ liệu thô. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)
Câu 2:Kỹ thuật nào dưới đây thường được sử dụng để giải quyết vấn đề dữ liệu có các thang đo (scale) khác nhau trước khi đưa vào mô hình khai phá?
💡 Lời giải chi tiết:
Chuẩn hóa dữ liệu giúp chuyển đổi các giá trị thuộc tính về một khoảng xác định (như 0 đến 1) để tránh việc các thuộc tính có miền giá trị lớn gây ảnh hưởng quá mức đến kết quả tính toán. Kết luận Lý giải Chuẩn hóa dữ liệu (Normalization)
Câu 3:Trong khai phá luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?
💡 Lời giải chi tiết:
Độ hỗ trợ phản ánh tần suất xuất hiện của một tập mục tiêu trong toàn bộ cơ sở dữ liệu giao dịch để xác định mức độ phổ biến của nó. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập A trên tổng số giao dịch
Câu 4:Thuật toán Apriori dựa trên tính chất cốt lõi nào để giảm bớt không gian tìm kiếm các tập mục tiêu phổ biến?
💡 Lời giải chi tiết:
Tính chất đơn điệu của Apriori khẳng định rằng nếu một tập mục tiêu là phổ biến thì tất cả các tập con của nó cũng phải đạt ngưỡng độ hỗ trợ tối thiểu. Kết luận Lý giải Mọi tập con của một tập mục tiêu phổ biến cũng phải là tập mục tiêu phổ biến
Câu 5:Điểm khác biệt cơ bản nhất giữa Phân lớp (Classification) và Gom cụm (Clustering) là gì?
💡 Lời giải chi tiết:
Phân lớp dựa trên các nhãn lớp có sẵn để huấn luyện mô hình dự đoán, trong khi gom cụm tự động tìm cấu trúc nhóm dựa trên sự tương đồng mà không cần nhãn mục tiêu. Kết luận Lý giải Phân lớp là học có giám sát (đã biết nhãn), còn gom cụm là học không giám sát (chưa biết nhãn)
Câu 6:Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường đại lượng nào?
💡 Lời giải chi tiết:
Entropy là một khái niệm trong lý thuyết thông tin dùng để xác định mức độ ngẫu nhiên hoặc không tinh khiết của các ví dụ trong một tập dữ liệu tại một nút cụ thể. Kết luận Lý giải Độ hỗn loạn hoặc độ không thuần khiết của thông tin trong tập dữ liệu
Câu 7:Giả định quan trọng nhất của thuật toán Naive Bayes là gì?
💡 Lời giải chi tiết:
Thuật toán được gọi là 'Naive' (ngây thơ) vì nó giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp là hoàn toàn độc lập với sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải Sự độc lập có điều kiện giữa các thuộc tính dự báo
Câu 8:Thuật toán K-Nearest Neighbors (KNN) được phân loại là phương pháp học nào?
💡 Lời giải chi tiết:
KNN được gọi là học lười vì nó không xây dựng một mô hình dự báo tường minh trong giai đoạn huấn luyện mà chỉ lưu trữ dữ liệu và thực hiện tính toán khi có truy vấn mới. Kết luận Lý giải Học lười (Lazy learning)
Câu 9:Mục tiêu chính của thuật toán Máy vectơ hỗ trợ (Support Vector Machine - SVM) là gì?
💡 Lời giải chi tiết:
SVM hoạt động bằng cách tìm kiếm một ranh giới quyết định (siêu phẳng) sao cho khoảng cách từ ranh giới đó đến các điểm dữ liệu gần nhất của mỗi lớp là lớn nhất. Kết luận Lý giải Tìm một siêu phẳng phân cách cực đại hóa lề (margin) giữa các lớp
Câu 10:Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu xảy ra khi nào?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học cả những nhiễu và chi tiết ngẫu nhiên trong tập huấn luyện, dẫn đến khả năng tổng quát hóa kém trên các dữ liệu chưa từng thấy. Kết luận Lý giải Mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập dữ liệu mới
Câu 11:Thuật toán K-means là một kỹ thuật gom cụm dựa trên nguyên lý nào?
💡 Lời giải chi tiết:
K-means chia tập dữ liệu thành K cụm bằng cách gán mỗi đối tượng vào cụm có trọng tâm gần nó nhất và cập nhật lại trọng tâm liên tục cho đến khi hội tụ. Kết luận Lý giải Phân hoạch dữ liệu dựa trên khoảng cách tới các trọng tâm (centroids)
Câu 12:Trong thuật toán DBSCAN, một điểm được gọi là 'Core Point' (điểm lõi) nếu thỏa mãn điều kiện nào?
💡 Lời giải chi tiết:
DBSCAN xác định điểm lõi dựa trên mật độ lân cận, yêu cầu số lượng điểm tối thiểu (MinPts) trong một phạm vi khoảng cách (Eps) cho trước. Kết luận Lý giải Có ít nhất 'MinPts' điểm nằm trong vùng lân cận bán kính 'Eps' của nó
Câu 13:Chỉ số Silhouette Coefficient được sử dụng để đánh giá chất lượng của tác vụ nào?
💡 Lời giải chi tiết:
Hệ số Silhouette đo lường mức độ giống nhau của một đối tượng với cụm của chính nó so với các cụm khác để đánh giá hiệu quả việc phân nhóm. Kết luận Lý giải Gom cụm dữ liệu
Câu 14:Độ đo 'Recall' (Độ triệu hồi) trong đánh giá mô hình phân lớp được tính như thế nào?
💡 Lời giải chi tiết:
Recall (còn gọi là Sensitivity) đo lường khả năng của mô hình trong việc tìm ra tất cả các trường hợp thực sự thuộc về lớp tích cực. Kết luận Lý giải Tỷ lệ số điểm Positive dự đoán đúng trên tổng số điểm Positive thực tế
Câu 15:Mục đích chính của kỹ thuật 'K-fold Cross-validation' là gì?
💡 Lời giải chi tiết:
Kiểm tra chéo K-fold chia dữ liệu thành K phần, luân phiên huấn luyện và kiểm tra để đảm bảo mọi điểm dữ liệu đều được dùng để kiểm tra, giúp đánh giá mô hình ổn định hơn. Kết luận Lý giải Đánh giá hiệu năng của mô hình một cách khách quan và giảm thiểu sai số do chọn tập dữ liệu
Câu 16:Kỹ thuật PCA (Principal Component Analysis) thường được dùng cho mục đích nào trong tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
PCA biến đổi các thuộc tính ban đầu có khả năng tương quan thành một tập nhỏ hơn các biến không tương quan gọi là các thành phần chính nhằm giảm độ phức tạp của dữ liệu. Kết luận Lý giải Giảm chiều dữ liệu (Dimensionality Reduction)
Câu 17:Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để làm gì?
💡 Lời giải chi tiết:
TF-IDF giúp làm nổi bật các từ mang tính đặc trưng của một văn bản bằng cách tăng trọng số cho từ xuất hiện nhiều trong văn bản đó nhưng ít xuất hiện ở các văn bản khác. Kết luận Lý giải Đánh giá mức độ quan trọng của một từ trong một văn bản dựa trên toàn bộ tập văn bản
Câu 18:Thuật toán gom cụm phân cấp (Hierarchical Clustering) thường được biểu diễn trực quan bằng sơ đồ nào?
💡 Lời giải chi tiết:
Dendrogram là một sơ đồ dạng cây hiển thị trình tự các bước hợp nhất hoặc phân chia các cụm dữ liệu trong gom cụm phân cấp. Kết luận Lý giải Biểu đồ Dendrogram
Câu 19:Dữ liệu ngoại lai (Outliers) trong khai phá dữ liệu thường được hiểu là gì?
💡 Lời giải chi tiết:
Ngoại lai là những điểm dữ liệu không tuân theo hành vi chung của tập dữ liệu, có thể là nhiễu hoặc chứa đựng thông tin đặc biệt quan trọng như hành vi gian lận. Kết luận Lý giải Những quan sát khác biệt đáng kể so với phần còn lại của dữ liệu
Câu 20:Thuật toán 'Random Forest' hoạt động dựa trên nguyên lý nào?
💡 Lời giải chi tiết:
Rừng ngẫu nhiên cải thiện độ chính xác và tính ổn định bằng cách xây dựng nhiều cây quyết định trên các mẫu dữ liệu khác nhau và lấy kết quả bỏ phiếu đa số. Kết luận Lý giải Kết hợp kết quả của nhiều cây quyết định độc lập (Ensemble Learning)
Câu 21:Chỉ số 'Lift' trong khai phá luật kết hợp (A -> B) lớn hơn 1 có ý nghĩa gì?
💡 Lời giải chi tiết:
Giá trị Lift > 1 cho thấy A và B xuất hiện cùng nhau thường xuyên hơn mức mong đợi nếu chúng độc lập, chứng tỏ có mối liên hệ tích cực giữa chúng. Kết luận Lý giải Sự xuất hiện của A và B có sự phụ thuộc tích cực vào nhau
Câu 22:Kỹ thuật 'Binning' (chia giỏ) thường được sử dụng trong bước nào của tiền xử lý dữ liệu?
💡 Lời giải chi tiết:
Binning là kỹ thuật nhóm các giá trị số liên tục vào các khoảng (giỏ) nhỏ để giảm bớt ảnh hưởng của các giá trị nhiễu hoặc sai sót nhỏ. Kết luận Lý giải Làm mịn dữ liệu để giảm nhiễu (Data Smoothing)
Câu 23:Trong đánh giá mô hình, 'F1-Score' là đại lượng được tính toán dựa trên sự kết hợp của hai chỉ số nào?
💡 Lời giải chi tiết:
F1-Score là trung bình điều hòa của Precision và Recall, được dùng làm chỉ số đại diện khi cần cân bằng giữa hai đại lượng này, đặc biệt trong bài toán mất cân bằng lớp. Kết luận Lý giải Precision (Độ chính xác) và Recall (Độ triệu hồi)
Câu 24:Hệ thống 'OLAP' (Online Analytical Processing) khác với 'Data Mining' ở điểm cơ bản nào?
💡 Lời giải chi tiết:
Trong khi OLAP hỗ trợ phân tích dữ liệu đa chiều để trả lời các câu hỏi thống kê định sẵn, Data Mining đi sâu vào việc phát hiện các mẫu và mối quan hệ chưa biết trước đó. Kết luận Lý giải OLAP dùng để tóm tắt báo cáo, còn Data Mining dùng để tìm kiếm các tri thức ẩn
Câu 25:Mục tiêu của 'Data Transformation' (Biến đổi dữ liệu) trong khai phá dữ liệu là gì?
💡 Lời giải chi tiết:
Biến đổi dữ liệu bao gồm các hoạt động như chuẩn hóa, kết hợp hoặc rời rạc hóa để giúp các mô hình toán học xử lý dữ liệu hiệu quả và chính xác hơn. Kết luận Lý giải Chuyển dữ liệu sang định dạng phù hợp nhất cho các thuật toán khai phá