Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình Khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào đóng vai trò then chốt trong việc áp dụng thuật toán để tìm ra các mẫu tiềm ẩn?

A. Chuẩn bị dữ liệu
B. Khai phá dữ liệu
C. Làm sạch dữ liệu
D. Hậu xử lý kết quả

💡 Lời giải chi tiết:

Theo quy trình KDD tiêu chuẩn, Khai phá dữ liệu (Data Mining) là giai đoạn sử dụng các thuật toán thông minh để trích xuất các mẫu hoặc quy luật có giá trị từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu.

Câu 2: Kỹ thuật nào trong tiền xử lý dữ liệu tập trung vào việc xử lý các giá trị bị thiếu và giảm thiểu dữ liệu nhiễu?

A. Làm sạch dữ liệu
B. Tích hợp dữ liệu
C. Giảm nhẹ dữ liệu
D. Biến đổi dữ liệu

💡 Lời giải chi tiết:

Làm sạch dữ liệu (Data Cleaning) là quá trình nhằm phát hiện và sửa lỗi, xử lý các giá trị bị thiếu và loại bỏ nhiễu để nâng cao chất lượng dữ liệu đầu vào. Kết luận Lý giải Làm sạch dữ liệu.

Câu 3: Trong khai phá luật kết hợp, chỉ số nào cho biết tần suất xuất hiện đồng thời của các mục trong một tập dữ liệu so với tổng số giao dịch?

A. Độ tin cậy (Confidence)
B. Độ nhấc (Lift)
C. Độ hỗ trợ (Support)
D. Độ tương quan (Correlation)

💡 Lời giải chi tiết:

Độ hỗ trợ (Support) là một tham số đo lường xác suất xảy ra của một tập mục trong toàn bộ các giao dịch của cơ sở dữ liệu. Kết luận Lý giải Độ hỗ trợ (Support).

Câu 4: Sự khác biệt cơ bản nhất giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

A. Phân lớp là học có giám sát còn Phân cụm là học không giám sát
B. Phân lớp áp dụng cho dữ liệu số còn Phân cụm áp dụng cho dữ liệu phân loại
C. Phân cụm yêu cầu tập dữ liệu huấn luyện có nhãn trước
D. Phân lớp không sử dụng các thuật toán thống kê

💡 Lời giải chi tiết:

Phân lớp là quá trình gán nhãn dựa trên dữ liệu đã biết (có giám sát), trong khi phân cụm nhóm các đối tượng dựa trên sự tương đồng mà không cần nhãn trước (không giám sát). Kết luận Lý giải Phân lớp là học có giám sát còn Phân cụm là học không giám sát.

Câu 5: Trong thuật toán Cây quyết định (Decision Tree), độ đo nào thường được sử dụng để xác định mức độ không thuần nhất (impurity) của một tập dữ liệu?

A. Khoảng cách Euclidean
B. Hệ số tương quan
C. Độ lợi thông tin (Information Gain)
D. Entropy

💡 Lời giải chi tiết:

Entropy là một đại lượng trong lý thuyết thông tin dùng để đo lường mức độ hỗn loạn hoặc không thuần nhất của các ví dụ trong một tập dữ liệu. Kết luận Lý giải Entropy.

Câu 6: Thuật toán K-means thực hiện phân cụm dựa trên nguyên lý cốt lõi nào?

A. Dựa trên mật độ của các điểm dữ liệu
B. Tối thiểu hóa khoảng cách giữa các điểm dữ liệu và trọng tâm cụm của chúng
C. Phân chia dữ liệu theo cấu trúc phân cấp từ dưới lên
D. Xây dựng các luật kết hợp giữa các thuộc tính

💡 Lời giải chi tiết:

Thuật toán K-means hoạt động bằng cách lặp lại việc gán các điểm dữ liệu vào cụm có trọng tâm gần nhất nhằm tối thiểu hóa tổng bình phương khoảng cách trong cụm. Kết luận Lý giải Tối thiểu hóa khoảng cách giữa các điểm dữ liệu và trọng tâm cụm của chúng.

Câu 7: Giả định quan trọng nhất của thuật toán Naive Bayes trong phân lớp dữ liệu là gì?

A. Các thuộc tính có mối quan hệ phụ thuộc lẫn nhau chặt chẽ
B. Dữ liệu phải tuân theo phân phối chuẩn hoàn toàn
C. Sự độc lập có điều kiện giữa các thuộc tính khi biết nhãn lớp
D. Kích thước tập dữ liệu huấn luyện phải cực kỳ lớn

💡 Lời giải chi tiết:

Naive Bayes dựa trên giả định 'ngây thơ' rằng các thuộc tính dự báo là độc lập với nhau khi đã biết giá trị của biến mục tiêu (lớp). Kết luận Lý giải Sự độc lập có điều kiện giữa các thuộc tính khi biết nhãn lớp.

Câu 8: Trong kiến trúc Kho dữ liệu (Data Warehouse), lược đồ nào có một bảng sự kiện (fact table) ở trung tâm và kết nối trực tiếp với các bảng chiều (dimension tables)?

A. Lược đồ Hình sao (Star Schema)
B. Lược đồ Bông tuyết (Snowflake Schema)
C. Lược đồ Chòm sao (Fact Constellation)
D. Lược đồ Phân cấp (Hierarchical Schema)

💡 Lời giải chi tiết:

Lược đồ Hình sao là cấu trúc đơn giản nhất trong kho dữ liệu, trong đó các bảng chiều bao quanh và kết nối trực tiếp với duy nhất một bảng sự kiện trung tâm. Kết luận Lý giải Lược đồ Hình sao (Star Schema).

Câu 9: Kỹ thuật Phân tích thành phần chính (PCA) được sử dụng chủ yếu cho mục đích nào trong khai phá dữ liệu?

A. Phân lớp dữ liệu văn bản
B. Giảm chiều dữ liệu
C. Tìm kiếm luật kết hợp
D. Tăng cường số lượng thuộc tính

💡 Lời giải chi tiết:

PCA là một phương pháp thống kê biến đổi một tập hợp các biến có thể tương quan thành một tập hợp ít biến hơn (các thành phần chính) nhằm giảm chiều dữ liệu mà vẫn giữ lại phần lớn thông tin. Kết luận Lý giải Giảm chiều dữ liệu.

Câu 10: Hiện tượng 'Quá khớp' (Overfitting) trong xây dựng mô hình khai phá dữ liệu thường xảy ra khi nào?

A. Mô hình quá đơn giản không học được các quy luật cơ bản
B. Tập dữ liệu huấn luyện có kích thước quá lớn
C. Mô hình học cả nhiễu và các chi tiết ngẫu nhiên trong dữ liệu huấn luyện
D. Tỷ lệ dữ liệu bị thiếu trong tập dữ liệu quá cao

💡 Lời giải chi tiết:

Quá khớp xảy ra khi một mô hình quá phức tạp, ghi nhớ cả các biến động ngẫu nhiên và nhiễu trong tập huấn luyện, dẫn đến khả năng dự báo kém trên dữ liệu mới. Kết luận Lý giải Mô hình học cả nhiễu và các chi tiết ngẫu nhiên trong dữ liệu huấn luyện.

Câu 11: Trong khai phá dữ liệu, một 'Outlier' (Dữ liệu ngoại lai) được định nghĩa như thế nào?

A. Dữ liệu bị thiếu giá trị tại một hoặc nhiều thuộc tính
B. Đối tượng dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu
C. Dữ liệu đại diện cho giá trị trung bình của toàn bộ tập hợp
D. Bản ghi dữ liệu xuất hiện thường xuyên nhất trong cơ sở dữ liệu

💡 Lời giải chi tiết:

Dữ liệu ngoại lai là những quan sát lệch xa so với các mẫu dữ liệu khác, thường do lỗi đo lường hoặc thể hiện một hiện tượng đặc biệt cần nghiên cứu. Kết luận Lý giải Đối tượng dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu.

Câu 12: Phương pháp nào thường được dùng để chuẩn hóa dữ liệu về khoảng [0, 1]?

A. Chuẩn hóa Z-score
B. Chuẩn hóa Min-Max
C. Rời rạc hóa dữ liệu
D. Lấy logarit dữ liệu

💡 Lời giải chi tiết:

Chuẩn hóa Min-Max thực hiện biến đổi tuyến tính dữ liệu gốc để đưa các giá trị về một khoảng cố định, thường là từ 0 đến 1. Kết luận Lý giải Chuẩn hóa Min-Max.

Câu 13: Nguyên lý 'Pruning' (Tỉa cành) trong thuật toán Apriori dựa trên tính chất nào của tập mục phổ biến?

A. Mọi tập con của một tập mục phổ biến đều phải là tập mục phổ biến
B. Nếu một tập mục là phổ biến thì mọi tập cha của nó cũng là phổ biến
C. Độ hỗ trợ của tập mục tăng lên khi số lượng mục tăng lên
D. Các mục không phổ biến sẽ tạo thành tập mục phổ biến khi kết hợp lại

💡 Lời giải chi tiết:

Tính chất Apriori khẳng định rằng nếu một tập mục không phổ biến thì mọi tập cha của nó cũng không phổ biến, do đó có thể cắt tỉa không gian tìm kiếm. Kết luận Lý giải Mọi tập con của một tập mục phổ biến đều phải là tập mục phổ biến.

Câu 14: Cấu trúc dữ liệu nào được sử dụng trong thuật toán FP-Growth để nén cơ sở dữ liệu mà không cần tạo ra các ứng viên (candidate generation)?

A. Ma trận kề
B. Bảng băm (Hash table)
C. Cây FP (FP-Tree)
D. Ngăn xếp (Stack)

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-Tree để lưu trữ thông tin về các tập mục phổ biến một cách nén gọn, cho phép khai phá luật kết hợp hiệu quả hơn Apriori. Kết luận Lý giải Cây FP (FP-Tree).

Câu 15: Trong phân cụm phân cấp (Hierarchical Clustering), sơ đồ hình cây biểu diễn quá trình hợp nhất hoặc chia tách các cụm được gọi là gì?

A. Scatter plot
B. Dendrogram
C. Histogram
D. Boxplot

💡 Lời giải chi tiết:

Dendrogram là một biểu đồ dạng cây thể hiện thứ tự và khoảng cách tại đó các cụm được kết hợp lại với nhau trong phân cụm phân cấp. Kết luận Lý giải Dendrogram.

Câu 16: Thuật toán DBSCAN thuộc loại kỹ thuật phân cụm nào?

A. Phân cụm dựa trên phân hoạch (Partitioning-based)
B. Phân cụm dựa trên lưới (Grid-based)
C. Phân cụm dựa trên mật độ (Density-based)
D. Phân cụm dựa trên mô hình (Model-based)

💡 Lời giải chi tiết:

DBSCAN tìm kiếm các vùng có mật độ điểm dữ liệu cao và tách biệt chúng khỏi các vùng có mật độ thấp để hình thành các cụm có hình dạng bất kỳ. Kết luận Lý giải Phân cụm dựa trên mật độ (Density-based).

Câu 17: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP là Positive đúng, FP là Positive sai)?

A. TP / (TP + FN)
B. TP / (TP + FP)
C. (TP + TN) / Tổng số mẫu
D. FP / (FP + TN)

💡 Lời giải chi tiết:

Độ chính xác (Precision) đo lường tỷ lệ các trường hợp được dự báo là Positive thực sự là Positive trong tổng số các mẫu được dự báo là Positive. Kết luận Lý giải TP / (TP + FP).

Câu 18: Thao tác OLAP nào thực hiện việc tổng hợp dữ liệu bằng cách di chuyển lên trên một phân cấp khái niệm (ví dụ: từ thành phố lên quốc gia)?

A. Drill-down
B. Slice
C. Dice
D. Roll-up

💡 Lời giải chi tiết:

Thao tác Roll-up (hoặc drill-up) làm giảm mức độ chi tiết của dữ liệu bằng cách gộp nhóm theo các chiều hoặc tăng mức phân cấp khái niệm. Kết luận Lý giải Roll-up.

Câu 19: Thao tác OLAP nào cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn (ví dụ: từ quý xuống tháng)?

A. Roll-up
B. Drill-down
C. Pivot
D. Slice

💡 Lời giải chi tiết:

Drill-down là thao tác ngược lại với roll-up, giúp chuyển từ dữ liệu tổng quát sang dữ liệu chi tiết hơn bằng cách hạ thấp mức phân cấp khái niệm. Kết luận Lý giải Drill-down.

Câu 20: Trong thuật toán cây quyết định CART, chỉ số nào được sử dụng để lựa chọn thuộc tính phân chia?

A. Độ lợi thông tin (Information Gain)
B. Tỷ lệ độ lợi (Gain Ratio)
C. Chỉ số Gini (Gini Index)
D. Khoảng cách Mahalanobis

💡 Lời giải chi tiết:

Thuật toán CART (Classification and Regression Trees) sử dụng chỉ số Gini để đo lường độ không thuần nhất của các nút và chọn điểm phân chia tối ưu. Kết luận Lý giải Chỉ số Gini (Gini Index).

Câu 21: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

A. Làm mịn dữ liệu để giảm nhiễu
B. Tăng độ phức tạp của thuộc tính số
C. Tích hợp nhiều nguồn dữ liệu khác nhau
D. Dự báo giá trị của các thuộc tính bị thiếu

💡 Lời giải chi tiết:

Binning là một kỹ thuật làm mịn dữ liệu bằng cách chia các giá trị thuộc tính số vào các khoảng (thùng) và thay thế giá trị thực bằng giá trị đại diện của khoảng đó để giảm nhiễu. Kết luận Lý giải Làm mịn dữ liệu để giảm nhiễu.

Câu 22: Sự khác biệt chính giữa Hồi quy (Regression) và Phân lớp (Classification) là gì?

A. Hồi quy dự báo giá trị liên tục, Phân lớp dự báo nhãn lớp rời rạc
B. Hồi quy là học không giám sát, Phân lớp là học có giám sát
C. Hồi quy chỉ dùng cho dữ liệu văn bản, Phân lớp chỉ dùng cho dữ liệu số
D. Phân lớp luôn cho kết quả chính xác hơn Hồi quy

💡 Lời giải chi tiết:

Phân lớp tập trung vào việc dự báo các nhãn danh mục (categorical), trong khi hồi quy hướng tới việc dự báo các giá trị số thực (numerical/continuous). Kết luận Lý giải Hồi quy dự báo giá trị liên tục, Phân lớp dự báo nhãn lớp rời rạc.

Câu 23: Phương pháp 'K-fold Cross Validation' được sử dụng nhằm mục đích gì?

A. Để tăng tốc độ huấn luyện mô hình
B. Để đánh giá hiệu suất mô hình một cách khách quan trên các phần dữ liệu khác nhau
C. Để nén dữ liệu đầu vào trước khi khai phá
D. Để tìm ra các luật kết hợp phổ biến nhất

💡 Lời giải chi tiết:

K-fold Cross Validation chia tập dữ liệu thành k phần bằng nhau và lặp lại việc huấn luyện/kiểm tra k lần để đảm bảo mô hình có khả năng tổng quát hóa tốt. Kết luận Lý giải Để đánh giá hiệu suất mô hình một cách khách quan trên các phần dữ liệu khác nhau.

Câu 24: Trong Máy vectơ hỗ trợ (SVM), khái niệm 'Hyperplane' (Siêu phẳng) dùng để chỉ cái gì?

A. Một điểm dữ liệu nằm xa trung tâm
B. Ranh giới quyết định phân chia các lớp dữ liệu trong không gian nhiều chiều
C. Một thuật toán tối ưu hóa tốc độ học của mạng nơ-ron
D. Tổng số lượng thuộc tính trong tập dữ liệu

💡 Lời giải chi tiết:

Trong SVM, siêu phẳng là một cấu trúc toán học đóng vai trò là ranh giới để phân tách các điểm dữ liệu thuộc các lớp khác nhau với lề rộng nhất có thể. Kết luận Lý giải Ranh giới quyết định phân chia các lớp dữ liệu trong không gian nhiều chiều.

Câu 25: Thuật toán Random Forest thuộc nhóm phương pháp khai phá dữ liệu nào?

A. Học tăng cường (Reinforcement Learning)
B. Học máy tập hợp (Ensemble Learning)
C. Phân cụm phân cấp
D. Khai phá đồ thị

💡 Lời giải chi tiết:

Random Forest là một phương pháp học tập hợp sử dụng nhiều cây quyết định phối hợp với nhau để cải thiện độ chính xác và giảm hiện tượng quá khớp. Kết luận Lý giải Học máy tập hợp (Ensemble Learning).

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 138 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 155 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 172 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 189 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 206 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 223 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình Khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào đóng vai trò then chốt trong việc áp dụng thuật toán để tìm ra các mẫu tiềm ẩn?

Câu 2: Kỹ thuật nào trong tiền xử lý dữ liệu tập trung vào việc xử lý các giá trị bị thiếu và giảm thiểu dữ liệu nhiễu?

Câu 3: Trong khai phá luật kết hợp, chỉ số nào cho biết tần suất xuất hiện đồng thời của các mục trong một tập dữ liệu so với tổng số giao dịch?

Câu 4: Sự khác biệt cơ bản nhất giữa Phân lớp (Classification) và Phân cụm (Clustering) là gì?

Câu 5: Trong thuật toán Cây quyết định (Decision Tree), độ đo nào thường được sử dụng để xác định mức độ không thuần nhất (impurity) của một tập dữ liệu?

Câu 6: Thuật toán K-means thực hiện phân cụm dựa trên nguyên lý cốt lõi nào?

Câu 7: Giả định quan trọng nhất của thuật toán Naive Bayes trong phân lớp dữ liệu là gì?

Câu 8: Trong kiến trúc Kho dữ liệu (Data Warehouse), lược đồ nào có một bảng sự kiện (fact table) ở trung tâm và kết nối trực tiếp với các bảng chiều (dimension tables)?

Câu 9: Kỹ thuật Phân tích thành phần chính (PCA) được sử dụng chủ yếu cho mục đích nào trong khai phá dữ liệu?

Câu 10: Hiện tượng 'Quá khớp' (Overfitting) trong xây dựng mô hình khai phá dữ liệu thường xảy ra khi nào?

Câu 11: Trong khai phá dữ liệu, một 'Outlier' (Dữ liệu ngoại lai) được định nghĩa như thế nào?

Câu 12: Phương pháp nào thường được dùng để chuẩn hóa dữ liệu về khoảng [0, 1]?

Câu 13: Nguyên lý 'Pruning' (Tỉa cành) trong thuật toán Apriori dựa trên tính chất nào của tập mục phổ biến?

Câu 14: Cấu trúc dữ liệu nào được sử dụng trong thuật toán FP-Growth để nén cơ sở dữ liệu mà không cần tạo ra các ứng viên (candidate generation)?

Câu 15: Trong phân cụm phân cấp (Hierarchical Clustering), sơ đồ hình cây biểu diễn quá trình hợp nhất hoặc chia tách các cụm được gọi là gì?

Câu 16: Thuật toán DBSCAN thuộc loại kỹ thuật phân cụm nào?

Câu 17: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP là Positive đúng, FP là Positive sai)?

Câu 18: Thao tác OLAP nào thực hiện việc tổng hợp dữ liệu bằng cách di chuyển lên trên một phân cấp khái niệm (ví dụ: từ thành phố lên quốc gia)?

Câu 19: Thao tác OLAP nào cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn (ví dụ: từ quý xuống tháng)?

Câu 20: Trong thuật toán cây quyết định CART, chỉ số nào được sử dụng để lựa chọn thuộc tính phân chia?

Câu 21: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

Câu 22: Sự khác biệt chính giữa Hồi quy (Regression) và Phân lớp (Classification) là gì?

Câu 23: Phương pháp 'K-fold Cross Validation' được sử dụng nhằm mục đích gì?

Câu 24: Trong Máy vectơ hỗ trợ (SVM), khái niệm 'Hyperplane' (Siêu phẳng) dùng để chỉ cái gì?

Câu 25: Thuật toán Random Forest thuộc nhóm phương pháp khai phá dữ liệu nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top