Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc áp dụng các thuật toán thông minh để trích xuất các mẫu dữ liệu?

A. Tiền xử lý dữ liệu
B. Khai phá dữ liệu
C. Biến đổi dữ liệu
D. Lựa chọn dữ liệu

💡 Lời giải chi tiết:

Theo quy trình KDD chuẩn, khai phá dữ liệu là giai đoạn then chốt sử dụng các thuật toán để tìm ra các mẫu hoặc quy luật tiềm ẩn trong tập dữ liệu đã được chuẩn bị. Kết luận Lý giải Khai phá dữ liệu

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế bằng giá trị trung bình hoặc trung vị của thuộc tính đó?

A. Chuẩn hóa dữ liệu
B. Làm sạch dữ liệu
C. Rời rạc hóa dữ liệu
D. Nén dữ liệu

💡 Lời giải chi tiết:

Làm sạch dữ liệu bao gồm các kỹ thuật xử lý nhiễu và điền giá trị thiếu để đảm bảo chất lượng dữ liệu trước khi phân tích. Kết luận Lý giải Làm sạch dữ liệu

Câu 3: Trong khai phá luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến được định nghĩa là gì?

A. Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch
B. Xác suất có điều kiện của hệ quả khi biết tiền đề
C. Số lượng các mục khác nhau có trong một giao dịch
D. Tỷ lệ giữa độ tin cậy thực tế và độ tin cậy mong đợi

💡 Lời giải chi tiết:

Độ hỗ trợ đo lường tần suất xuất hiện của một tập mục tiêu trong cơ sở dữ liệu giao dịch dưới dạng tỷ lệ phần trăm. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập mục tiêu đó trên tổng số giao dịch

Câu 4: Thuật toán phân cụm K-means thuộc loại kỹ thuật phân cụm nào sau đây?

A. Phân cụm dựa trên mật độ
B. Phân cụm phân cấp
C. Phân cụm dựa trên phân hoạch
D. Phân cụm dựa trên lưới

💡 Lời giải chi tiết:

K-means là thuật toán điển hình của phương pháp phân hoạch, chia tập dữ liệu thành k cụm sao cho mỗi điểm thuộc về cụm có tâm gần nhất. Kết luận Lý giải Phân cụm dựa trên phân hoạch

Câu 5: Sự khác biệt chính giữa phân lớp (Classification) và hồi quy (Regression) trong khai phá dữ liệu là gì?

A. Phân lớp dùng cho biến rời rạc, hồi quy dùng cho biến liên tục
B. Hồi quy là học không giám sát, phân lớp là học có giám sát
C. Phân lớp không cần dữ liệu nhãn, hồi quy cần dữ liệu nhãn
D. Hồi quy chỉ áp dụng cho dữ liệu văn bản, phân lớp cho dữ liệu số

💡 Lời giải chi tiết:

Phân lớp dự đoán các nhãn lớp định tính hoặc rời rạc, trong khi hồi quy dự đoán các giá trị số thực liên tục. Kết luận Lý giải Phân lớp dùng cho biến rời rạc, hồi quy dùng cho biến liên tục

Câu 6: Hiện tượng quá khớp (Overfitting) trong mô hình học máy thường dẫn đến hệ quả nào?

A. Độ chính xác trên tập huấn luyện thấp và tập kiểm tra cao
B. Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp
C. Mô hình quá đơn giản để bắt kịp xu hướng dữ liệu
D. Tốc độ huấn luyện mô hình nhanh hơn bình thường

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình học quá chi tiết cả nhiễu trong dữ liệu huấn luyện, khiến nó mất khả năng tổng quát hóa trên dữ liệu mới. Kết luận Lý giải Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp

Câu 7: Kỹ thuật 'Min-Max Normalization' được sử dụng nhằm mục đích gì trong tiền xử lý dữ liệu?

A. Loại bỏ các thuộc tính dư thừa trong tập dữ liệu
B. Chuyển đổi các giá trị dữ liệu về một khoảng xác định (thường là 0 đến 1)
C. Phát hiện các điểm dữ liệu ngoại lai (outliers)
D. Gộp nhiều nguồn dữ liệu thành một kho dữ liệu duy nhất

💡 Lời giải chi tiết:

Chuẩn hóa Min-Max điều chỉnh thang đo của các thuộc tính để chúng có đóng góp tương đương trong các thuật toán dựa trên khoảng cách. Kết luận Lý giải Chuyển đổi các giá trị dữ liệu về một khoảng xác định (thường là 0 đến 1)

Câu 8: Trong cây quyết định, chỉ số Entropy được sử dụng để đo lường đại lượng nào?

A. Độ sâu tối đa của cây quyết định
B. Độ hỗn loạn hoặc độ không thuần khiết của thông tin
C. Số lượng các nút lá trong mô hình
D. Thời gian cần thiết để phân lớp một mẫu dữ liệu

💡 Lời giải chi tiết:

Entropy là thước đo toán học về mức độ không chắc chắn hoặc hỗn tạp của dữ liệu, được dùng để chọn thuộc tính phân chia tốt nhất. Kết luận Lý giải Độ hỗn loạn hoặc độ không thuần khiết của thông tin

Câu 9: Giả định cơ bản quan trọng nhất của thuật toán Naive Bayes là gì?

A. Các thuộc tính đầu vào có mối quan hệ phụ thuộc lẫn nhau
B. Tất cả các thuộc tính đều có phân phối chuẩn
C. Các thuộc tính đầu vào độc lập điều kiện với nhau khi biết lớp
D. Dữ liệu huấn luyện không chứa bất kỳ nhiễu nào

💡 Lời giải chi tiết:

Thuật toán Naive Bayes được gọi là 'ngây thơ' vì nó giả định rằng sự hiện diện của một thuộc tính không liên quan đến sự hiện diện của các thuộc tính khác. Kết luận Lý giải Các thuộc tính đầu vào độc lập điều kiện với nhau khi biết lớp

Câu 10: Đặc điểm nổi bật của thuật toán phân cụm DBSCAN so với K-means là gì?

A. Cần phải xác định trước số lượng cụm K
B. Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu
C. Chỉ hoạt động tốt với các cụm có hình dạng cầu
D. Sử dụng khoảng cách Euclidean làm tiêu chí duy nhất

💡 Lời giải chi tiết:

DBSCAN dựa trên mật độ để kết nối các điểm dữ liệu, cho phép tìm thấy các cụm lồng nhau hoặc có hình dạng phức tạp mà K-means thường bỏ qua. Kết luận Lý giải Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu

Câu 11: Chỉ số Lift trong luật kết hợp (A implies B) lớn hơn 1 cho biết điều gì?

A. Sự xuất hiện của A và B là độc lập với nhau
B. Sự xuất hiện của A có tác động tích cực đến khả năng xuất hiện của B
C. Sự xuất hiện của A làm giảm khả năng xuất hiện của B
D. Luật kết hợp này không có giá trị thống kê

💡 Lời giải chi tiết:

Lift đo lường mức độ phụ thuộc giữa hai tập mục tiêu; giá trị lớn hơn 1 chứng tỏ chúng xuất hiện cùng nhau nhiều hơn kỳ vọng nếu chúng độc lập. Kết luận Lý giải Sự xuất hiện của A có tác động tích cực đến khả năng xuất hiện của B

Câu 12: Trong đánh giá mô hình phân lớp, độ thu hồi (Recall) đo lường điều gì?

A. Tỷ lệ các dự đoán đúng trên tổng số các dự đoán
B. Tỷ lệ các trường hợp thực sự tích cực được mô hình dự đoán đúng
C. Tỷ lệ các trường hợp dự đoán tích cực là thực sự tích cực
D. Trung bình điều hòa giữa độ chính xác và độ nhạy

💡 Lời giải chi tiết:

Độ thu hồi (hay độ nhạy) tập trung vào khả năng tìm thấy tất cả các mẫu thuộc lớp tích cực có trong tập dữ liệu. Kết luận Lý giải Tỷ lệ các trường hợp thực sự tích cực được mô hình dự đoán đúng

Câu 13: Phân tích tương quan (Correlation Analysis) thường được sử dụng trong bước nào của tiền xử lý dữ liệu?

A. Làm sạch dữ liệu
B. Tích hợp dữ liệu để giảm thiểu dư thừa
C. Rời rạc hóa dữ liệu
D. Nén dữ liệu bằng wavelet

💡 Lời giải chi tiết:

Phân tích tương quan giúp xác định các thuộc tính trùng lặp hoặc phụ thuộc lẫn nhau để loại bỏ chúng khi tích hợp dữ liệu từ nhiều nguồn. Kết luận Lý giải Tích hợp dữ liệu để giảm thiểu dư thừa

Câu 14: Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng cho phương pháp khai phá nào?

A. Phân lớp bằng mạng Neural
B. Phân cụm phân cấp
C. Khai phá luật kết hợp Apriori
D. Phân tích thành phần chính PCA

💡 Lời giải chi tiết:

Dendrogram hiển thị cấu trúc hình cây của các phân cụm phân cấp, cho thấy quá trình hợp nhất hoặc chia tách các cụm dữ liệu. Kết luận Lý giải Phân cụm phân cấp

Câu 15: Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?

A. Tăng số lượng thuộc tính để mô hình chính xác hơn
B. Giảm chiều dữ liệu bằng cách giữ lại các biến có phương sai lớn nhất
C. Phát hiện các quy luật kết hợp giữa các mục giao dịch
D. Gán nhãn cho các dữ liệu chưa được phân loại

💡 Lời giải chi tiết:

PCA là kỹ thuật giảm chiều dữ liệu không giám sát giúp đơn giản hóa tập dữ liệu mà vẫn giữ được thông tin quan trọng nhất thông qua các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu bằng cách giữ lại các biến có phương sai lớn nhất

Câu 16: Trong quá trình xây dựng mô hình, tập dữ liệu kiểm tra (Test set) được sử dụng khi nào?

A. Trong khi huấn luyện để điều chỉnh trọng số mô hình
B. Sau khi mô hình đã hoàn thiện để đánh giá khả năng thực tế
C. Để chọn ra thuật toán khai phá dữ liệu tốt nhất
D. Để thay thế cho các giá trị bị thiếu trong dữ liệu gốc

💡 Lời giải chi tiết:

Tập kiểm tra phải là dữ liệu hoàn toàn mới đối với mô hình để đảm bảo đánh giá khách quan về hiệu suất tổng quát hóa. Kết luận Lý giải Sau khi mô hình đã hoàn thiện để đánh giá khả năng thực tế

Câu 17: Chỉ số Gini thường được áp dụng trong thuật toán xây dựng cây quyết định nào?

A. ID3
B. CART
C. C4.5
D. K-Nearest Neighbors

💡 Lời giải chi tiết:

Trong khi ID3 và C4.5 sử dụng Information Gain hoặc Gain Ratio, thuật toán CART sử dụng chỉ số Gini để đo lường độ tinh khiết khi phân chia nút. Kết luận Lý giải CART

Câu 18: Khái niệm 'Lời nguyền đa chiều' (Curse of Dimensionality) ám chỉ vấn đề gì?

A. Dữ liệu quá ít khiến mô hình không thể học được
B. Dữ liệu có quá nhiều chiều (thuộc tính) làm giảm hiệu quả phân tích
C. Sự khó khăn khi chuyển đổi dữ liệu từ dạng số sang văn bản
D. Lỗi xảy ra khi có quá nhiều giá trị giống nhau trong tập dữ liệu

💡 Lời giải chi tiết:

Khi số lượng thuộc tính tăng lên, dữ liệu trở nên thưa thớt trong không gian cao chiều, khiến các phép toán khoảng cách mất đi ý nghĩa phân biệt. Kết luận Lý giải Dữ liệu có quá nhiều chiều (thuộc tính) làm giảm hiệu quả phân tích

Câu 19: Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy Learner) vì lý do nào?

A. Nó sử dụng rất ít tài nguyên bộ nhớ khi hoạt động
B. Nó trì hoãn việc xây dựng mô hình cho đến khi có dữ liệu cần dự đoán
C. Nó chỉ thực hiện phân lớp cho các tập dữ liệu nhỏ
D. Nó không yêu cầu bất kỳ dữ liệu huấn luyện nào

💡 Lời giải chi tiết:

Khác với các phương pháp 'eager learners', KNN không tạo ra mô hình trừu tượng mà chỉ lưu trữ dữ liệu và thực hiện tính toán khi có yêu cầu truy vấn. Kết luận Lý giải Nó trì hoãn việc xây dựng mô hình cho đến khi có dữ liệu cần dự đoán

Câu 20: Phương pháp Z-score được sử dụng để phát hiện điểm ngoại lai dựa trên đại lượng nào?

A. Số lượng các cụm dữ liệu xung quanh điểm đó
B. Độ lệch chuẩn so với giá trị trung bình của tập dữ liệu
C. Mật độ của các điểm dữ liệu lân cận
D. Thứ tự xuất hiện của dữ liệu trong tệp tin

💡 Lời giải chi tiết:

Z-score chuẩn hóa dữ liệu và xác định một điểm là ngoại lai nếu nó nằm cách xa giá trị trung bình vượt quá một ngưỡng độ lệch chuẩn nhất định. Kết luận Lý giải Độ lệch chuẩn so với giá trị trung bình của tập dữ liệu

Câu 21: Kỹ thuật 'Bagging' trong học máy kết hợp nhiều mô hình cơ sở nhằm mục đích chính là gì?

A. Tăng tốc độ tính toán của thuật toán
B. Giảm phương sai và tránh hiện tượng quá khớp
C. Tự động gán nhãn cho dữ liệu không nhãn
D. Chuyển đổi dữ liệu phi cấu trúc thành cấu trúc

💡 Lời giải chi tiết:

Bagging (như trong Random Forest) huấn luyện nhiều mô hình trên các tập con dữ liệu khác nhau và lấy trung bình kết quả để tạo ra dự đoán ổn định hơn. Kết luận Lý giải Giảm phương sai và tránh hiện tượng quá khớp

Câu 22: Ma trận nhầm lẫn (Confusion Matrix) cung cấp thông tin gì về mô hình phân lớp?

A. Thời gian trung bình để xử lý một truy vấn
B. Sự phân bố của các dự đoán đúng và sai cho từng lớp
C. Kích thước của các cây quyết định được tạo ra
D. Mức độ quan trọng của các thuộc tính đầu vào

💡 Lời giải chi tiết:

Ma trận này hiển thị chi tiết số lượng mẫu thực tế của từng lớp so với nhãn mà mô hình dự đoán, giúp tính toán các chỉ số như Accuracy, Precision, Recall. Kết luận Lý giải Sự phân bố của các dự đoán đúng và sai cho từng lớp

Câu 23: Trong kiến trúc kho dữ liệu, quá trình ETL bao gồm các bước nào?

A. Exchange, Transfer, Linking
B. Extract, Transform, Load
C. Evaluate, Test, Log
D. Encrypt, Transmit, Locate

💡 Lời giải chi tiết:

ETL là quy trình chuẩn để trích xuất dữ liệu từ nguồn, biến đổi định dạng phù hợp và nạp vào kho dữ liệu để phân tích. Kết luận Lý giải Extract, Transform, Load

Câu 24: Ưu điểm chính của thuật toán FP-Growth so với Apriori trong khai phá luật kết hợp là gì?

A. Dễ cài đặt và lập trình hơn
B. Không cần tạo ra các tập ứng viên (candidate generation)
C. Có thể xử lý được dữ liệu có giá trị liên tục
D. Yêu cầu ít bộ nhớ RAM hơn khi chạy

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và tìm tập phổ biến mà không phải duyệt cơ sở dữ liệu nhiều lần hay tạo ứng viên như Apriori. Kết luận Lý giải Không cần tạo ra các tập ứng viên (candidate generation)

Câu 25: Hệ số Silhouette được dùng để đánh giá chất lượng của kỹ thuật nào?

A. Phân lớp dữ liệu văn bản
B. Phân cụm dữ liệu
C. Khai phá tập phổ biến
D. Hồi quy tuyến tính đa biến

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với các điểm trong cùng cụm so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải Phân cụm dữ liệu

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 185 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 202 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 219 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 236 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 253 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 270 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào tập trung vào việc áp dụng các thuật toán thông minh để trích xuất các mẫu dữ liệu?

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế bằng giá trị trung bình hoặc trung vị của thuộc tính đó?

Câu 3: Trong khai phá luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến được định nghĩa là gì?

Câu 4: Thuật toán phân cụm K-means thuộc loại kỹ thuật phân cụm nào sau đây?

Câu 5: Sự khác biệt chính giữa phân lớp (Classification) và hồi quy (Regression) trong khai phá dữ liệu là gì?

Câu 6: Hiện tượng quá khớp (Overfitting) trong mô hình học máy thường dẫn đến hệ quả nào?

Câu 7: Kỹ thuật 'Min-Max Normalization' được sử dụng nhằm mục đích gì trong tiền xử lý dữ liệu?

Câu 8: Trong cây quyết định, chỉ số Entropy được sử dụng để đo lường đại lượng nào?

Câu 9: Giả định cơ bản quan trọng nhất của thuật toán Naive Bayes là gì?

Câu 10: Đặc điểm nổi bật của thuật toán phân cụm DBSCAN so với K-means là gì?

Câu 11: Chỉ số Lift trong luật kết hợp (A implies B) lớn hơn 1 cho biết điều gì?

Câu 12: Trong đánh giá mô hình phân lớp, độ thu hồi (Recall) đo lường điều gì?

Câu 13: Phân tích tương quan (Correlation Analysis) thường được sử dụng trong bước nào của tiền xử lý dữ liệu?

Câu 14: Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng cho phương pháp khai phá nào?

Câu 15: Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?

Câu 16: Trong quá trình xây dựng mô hình, tập dữ liệu kiểm tra (Test set) được sử dụng khi nào?

Câu 17: Chỉ số Gini thường được áp dụng trong thuật toán xây dựng cây quyết định nào?

Câu 18: Khái niệm 'Lời nguyền đa chiều' (Curse of Dimensionality) ám chỉ vấn đề gì?

Câu 19: Thuật toán K-Nearest Neighbors (KNN) được gọi là phương pháp 'Học lười' (Lazy Learner) vì lý do nào?

Câu 20: Phương pháp Z-score được sử dụng để phát hiện điểm ngoại lai dựa trên đại lượng nào?

Câu 21: Kỹ thuật 'Bagging' trong học máy kết hợp nhiều mô hình cơ sở nhằm mục đích chính là gì?

Câu 22: Ma trận nhầm lẫn (Confusion Matrix) cung cấp thông tin gì về mô hình phân lớp?

Câu 23: Trong kiến trúc kho dữ liệu, quá trình ETL bao gồm các bước nào?

Câu 24: Ưu điểm chính của thuật toán FP-Growth so với Apriori trong khai phá luật kết hợp là gì?

Câu 25: Hệ số Silhouette được dùng để đánh giá chất lượng của kỹ thuật nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top