Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào chịu trách nhiệm chính trong việc áp dụng các thuật toán để trích xuất các mẫu tiềm ẩn?

A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Khai phá dữ liệu (Data Mining)
C. Lựa chọn dữ liệu (Data Selection)
D. Biểu diễn tri thức (Knowledge Representation)

💡 Lời giải chi tiết:

Theo quy trình tiêu chuẩn KDD, giai đoạn Khai phá dữ liệu là bước then chốt sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc tri thức từ dữ liệu. Kết luận Lý giải Khai phá dữ liệu (Data Mining)

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình của thuộc tính đó?

A. Làm sạch dữ liệu (Data Cleaning)
B. Giảm nhẹ dữ liệu (Data Reduction)
C. Tích hợp dữ liệu (Data Integration)
D. Chuyển đổi dữ liệu (Data Transformation)

💡 Lời giải chi tiết:

Làm sạch dữ liệu bao gồm các phương pháp xử lý dữ liệu nhiễu và lấp đầy các giá trị bị thiếu để đảm bảo chất lượng tập dữ liệu đầu vào. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)

Câu 3: Trong khai phá luật kết hợp, chỉ số nào cho biết xác suất mà một giao dịch chứa tập mục tiêu A cũng sẽ chứa tập mục tiêu B?

A. Độ hỗ trợ (Support)
B. Độ tin cậy (Confidence)
C. Độ nâng (Lift)
D. Tương quan (Correlation)

💡 Lời giải chi tiết:

Độ tin cậy (Confidence) đo lường khả năng xuất hiện của mục tiêu B trong các giao dịch đã chứa mục tiêu A. Kết luận Lý giải Độ tin cậy (Confidence)

Câu 4: Thuật toán phân lớp nào sau đây hoạt động dựa trên định lý Bayes và giả định về sự độc lập giữa các biến dự báo?

A. Cây quyết định (Decision Tree)
B. Mạng nơ-ron nhân tạo (ANN)
C. Naive Bayes
D. K-Nearest Neighbors (KNN)

💡 Lời giải chi tiết:

Naive Bayes là một mô hình phân loại xác suất dựa trên việc áp dụng định lý Bayes với giả định 'ngây thơ' rằng các đặc trưng là độc lập với nhau. Kết luận Lý giải Naive Bayes

Câu 5: Đặc điểm chính của thuật toán gom cụm K-means là gì?

A. Tạo ra một cấu trúc phân cấp các cụm
B. Dựa trên mật độ của các điểm dữ liệu
C. Phân chia dữ liệu vào K cụm dựa trên khoảng cách tới các trọng tâm
D. Có khả năng tìm ra các cụm có hình dạng bất kỳ

💡 Lời giải chi tiết:

K-means là thuật toán gom cụm dạng phân hoạch, lặp đi lặp lại việc gán đối tượng vào cụm có trọng tâm gần nhất. Kết luận Lý giải Phân chia dữ liệu vào K cụm dựa trên khoảng cách tới các trọng tâm

Câu 6: Phương pháp 'Min-Max normalization' thuộc về bước nào trong tiền xử lý dữ liệu?

A. Tích hợp dữ liệu
B. Chuyển đổi dữ liệu (Data Transformation)
C. Làm sạch dữ liệu
D. Rút gọn dữ liệu

💡 Lời giải chi tiết:

Chuẩn hóa dữ liệu như phương pháp Min-Max là một kỹ thuật chuyển đổi dữ liệu để đưa các giá trị về một khoảng xác định, thường là từ 0 đến 1. Kết luận Lý giải Chuyển đổi dữ liệu (Data Transformation)

Câu 7: Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori trong khai phá luật kết hợp?

A. Không cần quét cơ sở dữ liệu nhiều lần
B. Dễ cài đặt hơn
C. Sử dụng ít bộ nhớ hơn
D. Chỉ áp dụng được cho tập dữ liệu nhỏ

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và chỉ cần quét cơ sở dữ liệu hai lần, giúp tăng hiệu suất đáng kể so với Apriori. Kết luận Lý giải Không cần quét cơ sở dữ liệu nhiều lần

Câu 8: Trong phân lớp dữ liệu, hiện tượng mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập dữ liệu mới được gọi là gì?

A. Underfitting
B. Overfitting (Quá khớp)
C. Cross-validation
D. Pruning

💡 Lời giải chi tiết:

Overfitting xảy ra khi mô hình quá phức tạp, học cả nhiễu trong dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém. Kết luận Lý giải Overfitting (Quá khớp)

Câu 9: Thuật toán DBSCAN thuộc loại gom cụm nào?

A. Gom cụm phân hoạch (Partitioning)
B. Gom cụm phân cấp (Hierarchical)
C. Gom cụm dựa trên mật độ (Density-based)
D. Gom cụm dựa trên lưới (Grid-based)

💡 Lời giải chi tiết:

DBSCAN xác định các cụm dựa trên vùng có mật độ điểm dữ liệu cao và có khả năng phát hiện các điểm nhiễu. Kết luận Lý giải Gom cụm dựa trên mật độ (Density-based)

Câu 10: Chỉ số Gini Index thường được sử dụng làm tiêu chí để thực hiện việc gì trong thuật toán Decision Tree?

A. Xác định số lượng lá của cây
B. Lựa chọn thuộc tính phân chia tốt nhất
C. Tính toán độ sâu của cây
D. Cắt tỉa các nhánh của cây

💡 Lời giải chi tiết:

Gini Index đo lường độ không thuần nhất (impurity) của dữ liệu, được sử dụng trong thuật toán CART để chọn thuộc tính chia nút. Kết luận Lý giải Lựa chọn thuộc tính phân chia tốt nhất

Câu 11: Trong kỹ thuật đánh giá mô hình, 'Confusion Matrix' được sử dụng để làm gì?

A. Gom cụm dữ liệu tự động
B. Trực quan hóa sự phân bố của dữ liệu
C. Thống kê số lượng dự đoán đúng và sai cho từng lớp
D. Giảm số lượng thuộc tính đầu vào

💡 Lời giải chi tiết:

Ma trận nhầm lẫn (Confusion Matrix) là bảng thống kê chi tiết các kết quả dự báo đúng và sai của mô hình phân lớp so với thực tế. Kết luận Lý giải Thống kê số lượng dự đoán đúng và sai cho từng lớp

Câu 12: Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?

A. Phân loại dữ liệu thành các nhóm nhãn
B. Giảm chiều dữ liệu nhưng vẫn giữ lại tối đa thông tin quan trọng
C. Tăng số lượng đặc trưng từ các biến có sẵn
D. Tìm kiếm các luật kết hợp giữa các thuộc tính

💡 Lời giải chi tiết:

PCA là kỹ thuật giảm chiều dữ liệu bằng cách biến đổi các biến ban đầu thành một tập các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu nhưng vẫn giữ lại tối đa thông tin quan trọng

Câu 13: Thuật toán gom cụm nào bắt đầu bằng cách coi mỗi đối tượng là một cụm riêng biệt và sau đó tiến hành hợp nhất chúng?

A. K-means
B. DBSCAN
C. Gom cụm phân cấp kết tụ (Agglomerative)
D. Gom cụm phân cấp chia tách (Divisive)

💡 Lời giải chi tiết:

Gom cụm phân cấp kết tụ (Agglomerative Hierarchical Clustering) sử dụng cách tiếp cận từ dưới lên (bottom-up), bắt đầu từ từng điểm dữ liệu riêng lẻ. Kết luận Lý giải Gom cụm phân cấp kết tụ (Agglomerative)

Câu 14: Trong khai phá dữ liệu, 'Outlier' được định nghĩa là gì?

A. Các điểm dữ liệu nằm gần trọng tâm cụm
B. Các điểm dữ liệu có giá trị trùng lặp nhiều lần
C. Các đối tượng dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu
D. Các giá trị bị thiếu trong tập dữ liệu gốc

💡 Lời giải chi tiết:

Ngoại lệ (Outlier) là những quan sát không tuân theo quy luật chung hoặc có khoảng cách rất xa so với các điểm dữ liệu khác. Kết luận Lý giải Các đối tượng dữ liệu khác biệt đáng kể so với phần còn lại của tập dữ liệu

Câu 15: Thuật toán k-Nearest Neighbors (k-NN) được xếp vào loại mô hình học máy nào?

A. Học lười (Lazy learner)
B. Học tích cực (Eager learner)
C. Học không giám sát (Unsupervised learner)
D. Mạng nơ-ron sâu (Deep learner)

💡 Lời giải chi tiết:

k-NN được gọi là 'học lười' vì nó không xây dựng mô hình tổng quát hóa trong giai đoạn huấn luyện mà chỉ lưu trữ dữ liệu và tính toán khi có truy vấn. Kết luận Lý giải Học lười (Lazy learner)

Câu 16: Kỹ thuật 'Binning' thường được sử dụng trong bước tiền xử lý nào để làm mịn dữ liệu nhiễu?

A. Rút gọn dữ liệu
B. Làm sạch dữ liệu (Data Cleaning)
C. Tích hợp dữ liệu
D. Trích xuất dữ liệu

💡 Lời giải chi tiết:

Binning là kỹ thuật chia dữ liệu vào các 'thùng' (bins) để giảm bớt tác động của nhiễu bằng cách sử dụng giá trị trung bình hoặc trung vị của thùng. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)

Câu 17: Chỉ số 'Lift' trong khai phá luật kết hợp có giá trị bằng 1 có ý nghĩa gì?

A. Hai tập mục tiêu có tương quan dương mạnh
B. Hai tập mục tiêu độc lập với nhau
C. Hai tập mục tiêu luôn xuất hiện cùng nhau
D. Hai tập mục tiêu có tương quan âm

💡 Lời giải chi tiết:

Khi Lift = 1, xác suất xuất hiện đồng thời của A và B bằng tích các xác suất riêng lẻ, nghĩa là A và B không có sự phụ thuộc lẫn nhau. Kết luận Lý giải Hai tập mục tiêu độc lập với nhau

Câu 18: Thao tác nào trong mô hình OLAP cho phép người dùng xem dữ liệu ở mức chi tiết hơn (từ tổng quát đến cụ thể)?

A. Roll-up
B. Drill-down
C. Slice
D. Dice

💡 Lời giải chi tiết:

Thao tác Drill-down giúp di chuyển từ dữ liệu mức cao xuống mức dữ liệu chi tiết hơn theo các phân cấp chiều. Kết luận Lý giải Drill-down

Câu 19: Mục tiêu chính của phương pháp 'Pruning' (cắt tỉa) trong xây dựng cây quyết định là gì?

A. Tăng kích thước của cây để chính xác hơn
B. Giảm độ phức tạp và ngăn chặn hiện tượng quá khớp (overfitting)
C. Tăng số lượng các thuộc tính dùng để phân chia
D. Thay thế các giá trị nhiễu trong dữ liệu

💡 Lời giải chi tiết:

Cắt tỉa giúp loại bỏ các nhánh cây không mang lại nhiều thông tin dự báo, giúp mô hình đơn giản hơn và tránh học vẹt dữ liệu huấn luyện. Kết luận Lý giải Giảm độ phức tạp và ngăn chặn hiện tượng quá khớp (overfitting)

Câu 20: Kỹ thuật 'Cross-validation' (kiểm tra chéo) thường được sử dụng nhằm mục đích gì?

A. Tăng tốc độ huấn luyện mô hình
B. Đánh giá hiệu suất và tính ổn định của mô hình trên các tập dữ liệu khác nhau
C. Xóa bỏ hoàn toàn các ngoại lệ trong dữ liệu
D. Lựa chọn các tham số cho thuật toán gom cụm

💡 Lời giải chi tiết:

Kiểm tra chéo giúp ước lượng sai số của mô hình một cách khách quan hơn bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện, kiểm thử. Kết luận Lý giải Đánh giá hiệu suất và tính ổn định của mô hình trên các tập dữ liệu khác nhau

Câu 21: Thuật toán Support Vector Machine (SVM) tìm kiếm đối tượng nào để thực hiện việc phân lớp?

A. Một điểm trọng tâm của mỗi lớp
B. Một siêu phẳng (hyperplane) có lề (margin) tối đa
C. Một tập các luật kết hợp mạnh nhất
D. Một cây phân cấp các điểm dữ liệu

💡 Lời giải chi tiết:

SVM hướng tới việc tìm ra một siêu phẳng phân chia các lớp dữ liệu sao cho khoảng cách (lề) từ siêu phẳng đó đến các điểm dữ liệu gần nhất là lớn nhất. Kết luận Lý giải Một siêu phẳng (hyperplane) có lề (margin) tối đa

Câu 22: Khái niệm 'Curse of Dimensionality' (Lời nguyền đa chiều) ám chỉ vấn đề gì?

A. Dữ liệu có quá ít thuộc tính để phân tích
B. Khó khăn phát sinh khi không gian dữ liệu có quá nhiều chiều (thuộc tính)
C. Thời gian khai phá dữ liệu quá ngắn
D. Dữ liệu bị sai lệch do lỗi nhập liệu

💡 Lời giải chi tiết:

Khi số chiều tăng lên, dữ liệu trở nên thưa thớt và khoảng cách giữa các điểm không còn mang ý nghĩa phân biệt rõ ràng, gây khó khăn cho các thuật toán. Kết luận Lý giải Khó khăn phát sinh khi không gian dữ liệu có quá nhiều chiều (thuộc tính)

Câu 23: Trong khai phá dữ liệu văn bản, kỹ thuật TF-IDF được sử dụng để làm gì?

A. Tóm tắt tự động nội dung văn bản
B. Đánh giá tầm quan trọng của một từ trong một tài liệu so với toàn bộ kho ngữ liệu
C. Sửa lỗi chính tả trong văn bản
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác

💡 Lời giải chi tiết:

TF-IDF giúp xác định những từ khóa mang tính đặc trưng cho một tài liệu bằng cách kết hợp tần suất xuất hiện và độ hiếm của từ đó. Kết luận Lý giải Đánh giá tầm quan trọng của một từ trong một tài liệu so với toàn bộ kho ngữ liệu

Câu 24: Phân tích giỏ hàng (Market Basket Analysis) là một ứng dụng phổ biến của kỹ thuật nào?

A. Gom cụm dữ liệu
B. Khai phá luật kết hợp (Association Rule Mining)
C. Hồi quy tuyến tính
D. Phân tích chuỗi thời gian

💡 Lời giải chi tiết:

Phân tích giỏ hàng tìm kiếm các mối liên hệ giữa các mặt hàng mà khách hàng thường mua cùng nhau, dựa trên các luật kết hợp. Kết luận Lý giải Khai phá luật kết hợp (Association Rule Mining)

Câu 25: Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?

A. Phân lớp là học không giám sát, gom cụm là học có giám sát
B. Phân lớp dựa trên nhãn lớp có sẵn, gom cụm tự tìm cấu trúc trong dữ liệu chưa dán nhãn
C. Gom cụm chỉ áp dụng cho dữ liệu số, phân lớp cho dữ liệu chữ
D. Không có sự khác biệt về mặt bản chất thuật toán

💡 Lời giải chi tiết:

Phân lớp là quá trình gán nhãn cho dữ liệu dựa trên các mẫu đã biết, trong khi gom cụm nhóm các đối tượng tương đồng mà không cần nhãn trước. Kết luận Lý giải Phân lớp dựa trên nhãn lớp có sẵn, gom cụm tự tìm cấu trúc trong dữ liệu chưa dán nhãn

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 287 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 104 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 121 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 138 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 155 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 172 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình KDD (Knowledge Discovery in Databases), bước nào chịu trách nhiệm chính trong việc áp dụng các thuật toán để trích xuất các mẫu tiềm ẩn?

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình của thuộc tính đó?

Câu 3: Trong khai phá luật kết hợp, chỉ số nào cho biết xác suất mà một giao dịch chứa tập mục tiêu A cũng sẽ chứa tập mục tiêu B?

Câu 4: Thuật toán phân lớp nào sau đây hoạt động dựa trên định lý Bayes và giả định về sự độc lập giữa các biến dự báo?

Câu 5: Đặc điểm chính của thuật toán gom cụm K-means là gì?

Câu 6: Phương pháp 'Min-Max normalization' thuộc về bước nào trong tiền xử lý dữ liệu?

Câu 7: Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori trong khai phá luật kết hợp?

Câu 8: Trong phân lớp dữ liệu, hiện tượng mô hình hoạt động rất tốt trên tập huấn luyện nhưng kém trên tập dữ liệu mới được gọi là gì?

Câu 9: Thuật toán DBSCAN thuộc loại gom cụm nào?

Câu 10: Chỉ số Gini Index thường được sử dụng làm tiêu chí để thực hiện việc gì trong thuật toán Decision Tree?

Câu 11: Trong kỹ thuật đánh giá mô hình, 'Confusion Matrix' được sử dụng để làm gì?

Câu 12: Mục tiêu chính của phân tích thành phần chính (PCA) trong khai phá dữ liệu là gì?

Câu 13: Thuật toán gom cụm nào bắt đầu bằng cách coi mỗi đối tượng là một cụm riêng biệt và sau đó tiến hành hợp nhất chúng?

Câu 14: Trong khai phá dữ liệu, 'Outlier' được định nghĩa là gì?

Câu 15: Thuật toán k-Nearest Neighbors (k-NN) được xếp vào loại mô hình học máy nào?

Câu 16: Kỹ thuật 'Binning' thường được sử dụng trong bước tiền xử lý nào để làm mịn dữ liệu nhiễu?

Câu 17: Chỉ số 'Lift' trong khai phá luật kết hợp có giá trị bằng 1 có ý nghĩa gì?

Câu 18: Thao tác nào trong mô hình OLAP cho phép người dùng xem dữ liệu ở mức chi tiết hơn (từ tổng quát đến cụ thể)?

Câu 19: Mục tiêu chính của phương pháp 'Pruning' (cắt tỉa) trong xây dựng cây quyết định là gì?

Câu 20: Kỹ thuật 'Cross-validation' (kiểm tra chéo) thường được sử dụng nhằm mục đích gì?

Câu 21: Thuật toán Support Vector Machine (SVM) tìm kiếm đối tượng nào để thực hiện việc phân lớp?

Câu 22: Khái niệm 'Curse of Dimensionality' (Lời nguyền đa chiều) ám chỉ vấn đề gì?

Câu 23: Trong khai phá dữ liệu văn bản, kỹ thuật TF-IDF được sử dụng để làm gì?

Câu 24: Phân tích giỏ hàng (Market Basket Analysis) là một ứng dụng phổ biến của kỹ thuật nào?

Câu 25: Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top