Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thường được thực hiện ngay sau khi dữ liệu đã được làm sạch và tích hợp?

A. Khai phá dữ liệu (Data Mining)
B. Lựa chọn và biến đổi dữ liệu (Selection and Transformation)
C. Đánh giá mẫu (Pattern Evaluation)
D. Trình diễn tri thức (Knowledge Presentation)

💡 Lời giải chi tiết:

Theo quy trình KDD tiêu chuẩn, sau khi dữ liệu được làm sạch và tích hợp, bước tiếp theo là lựa chọn các thuộc tính phù hợp và biến đổi chúng sang dạng thức thích hợp cho việc khai thác. Kết luận Lý giải Lựa chọn và biến đổi dữ liệu (Selection and Transformation).

Câu 2: Trong luật kết hợp, độ tin cậy (Confidence) của luật 'A kéo theo B' được định nghĩa như thế nào?

A. Xác suất có điều kiện P(A|B)
B. Xác suất đồng thời P(A giao B)
C. Xác suất có điều kiện P(B|A)
D. Xác suất biên P(A) cộng P(B)

💡 Lời giải chi tiết:

Độ tin cậy của một luật kết hợp đo lường tần suất các mục trong tập B xuất hiện trong các giao dịch chứa tập A, tương ứng với xác suất có điều kiện P(B|A). Kết luận Lý giải Xác suất có điều kiện P(B|A).

Câu 3: Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu thường dẫn đến hệ quả nào sau đây?

A. Độ chính xác trên tập huấn luyện thấp và tập kiểm tra cao
B. Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp
C. Độ chính xác trên cả hai tập dữ liệu đều rất thấp
D. Mô hình quá đơn giản và không nắm bắt được xu hướng dữ liệu

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình học quá chi tiết các nhiễu trong tập huấn luyện, khiến nó hoạt động cực tốt trên dữ liệu cũ nhưng kém hiệu quả trên dữ liệu mới. Kết luận Lý giải Độ chính xác trên tập huấn luyện cao nhưng tập kiểm tra thấp.

Câu 4: Thuật toán gom cụm K-means nhạy cảm nhất với yếu tố nào dưới đây?

A. Các điểm dữ liệu ngoại lai (Outliers)
B. Số lượng thuộc tính quá ít
C. Kích thước tập dữ liệu quá lớn
D. Sự phân bố dữ liệu theo hình cầu

💡 Lời giải chi tiết:

Do K-means sử dụng giá trị trung bình để cập nhật tâm cụm, một vài điểm ngoại lai nằm xa có thể làm lệch đáng kể vị trí của các tâm này. Kết luận Lý giải Các điểm dữ liệu ngoại lai (Outliers).

Câu 5: Kỹ thuật 'Binning' (chia giỏ) trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

A. Tăng cường số lượng thuộc tính
B. Làm trơn dữ liệu nhiễu (Data Smoothing)
C. Tích hợp dữ liệu từ nhiều nguồn
D. Mã hóa dữ liệu văn bản thành số

💡 Lời giải chi tiết:

Binning là một kỹ thuật làm trơn dữ liệu bằng cách chia các giá trị vào các khoảng (giỏ) và thay thế chúng bằng giá trị đại diện như trung bình hoặc trung vị. Kết luận Lý giải Làm trơn dữ liệu nhiễu (Data Smoothing).

Câu 6: Sự khác biệt chính giữa OLAP và OLTP là gì?

A. OLTP dùng cho phân tích, OLAP dùng cho giao dịch
B. OLAP hỗ trợ ra quyết định, OLTP hỗ trợ các nghiệp vụ hàng ngày
C. OLTP lưu trữ dữ liệu lịch sử lâu dài hơn OLAP
D. OLAP yêu cầu tính toàn vẹn dữ liệu cao hơn OLTP

💡 Lời giải chi tiết:

Hệ thống OLTP được thiết kế để xử lý nhanh các giao dịch hiện hành, trong khi OLAP tối ưu hóa việc truy vấn và phân tích dữ liệu đa chiều để hỗ trợ quyết định. Kết luận Lý giải OLAP hỗ trợ ra quyết định, OLTP hỗ trợ các nghiệp vụ hàng ngày.

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường điều gì?

A. Độ sâu tối đa của cây
B. Độ tinh khiết hoặc độ hỗn loạn của tập dữ liệu
C. Số lượng các nút lá trong cây
D. Thời gian huấn luyện mô hình

💡 Lời giải chi tiết:

Entropy là một khái niệm trong lý thuyết thông tin dùng để đo lường mức độ không chắc chắn hoặc độ hỗn loạn của các nhãn lớp trong một tập dữ liệu. Kết luận Lý giải Độ tinh khiết hoặc độ hỗn loạn của tập dữ liệu.

Câu 8: Tính chất 'Apriori' trong khai phá luật kết hợp khẳng định điều gì?

A. Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến
B. Nếu một tập mục không phổ biến, mọi tập con của nó là phổ biến
C. Độ tin cậy của luật luôn lớn hơn độ hỗ trợ
D. Các tập mục phổ biến luôn có ít nhất 3 phần tử

💡 Lời giải chi tiết:

Nguyên lý Apriori dựa trên tính đơn điệu giảm, phát biểu rằng mọi tập con không rỗng của một tập mục phổ biến đều phải là tập mục phổ biến. Kết luận Lý giải Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến.

Câu 9: Phương pháp chuẩn hóa 'Min-Max' biến đổi dữ liệu về khoảng giá trị nào sau đây (theo mặc định phổ biến)?

A. Từ âm vô cùng đến dương vô cùng
B. Khoảng từ -1 đến 1
C. Khoảng từ 0 đến 1
D. Khoảng có trung bình bằng 0 và độ lệch chuẩn bằng 1

💡 Lời giải chi tiết:

Chuẩn hóa Min-Max ánh xạ dữ liệu gốc vào một khoảng xác định, trong đó khoảng phổ biến nhất được sử dụng trong thực tế là từ 0 đến 1. Kết luận Lý giải Khoảng từ 0 đến 1.

Câu 10: Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng của phương pháp khai phá nào?

A. Phân lớp bằng mạng Neural
B. Gom cụm phân cấp (Hierarchical Clustering)
C. Khai phá luật kết hợp
D. Phân tích hồi quy tuyến tính

💡 Lời giải chi tiết:

Dendrogram là một biểu đồ dạng cây hiển thị trình tự hợp nhất hoặc chia cắt các cụm trong thuật toán gom cụm phân cấp. Kết luận Lý giải Gom cụm phân cấp (Hierarchical Clustering).

Câu 11: Trong kỹ thuật phát hiện ngoại lai, phương pháp Box-plot xác định một điểm là ngoại lai nếu nó nằm ngoài khoảng nào?

A. Khoảng giữa Q1 và Q3
B. Khoảng [Q1 - 1.5*IQR, Q3 + 1.5*IQR]
C. Khoảng [Trung bình - Độ lệch chuẩn, Trung bình + Độ lệch chuẩn]
D. Khoảng từ giá trị nhỏ nhất đến giá trị lớn nhất

💡 Lời giải chi tiết:

Theo quy tắc hàng rào của Tukey trong biểu đồ hộp, các giá trị nằm ngoài giới hạn 1.5 lần khoảng trải giữa (IQR) tính từ các tứ phân vị được coi là ngoại lai. Kết luận Lý giải Khoảng [Q1 - 1.5*IQR, Q3 + 1.5*IQR].

Câu 12: Nhiệm vụ chính của 'Phân lớp dữ liệu' (Classification) là gì?

A. Gán các đối tượng vào các nhóm chưa biết trước nhãn
B. Dự đoán giá trị số liên tục cho các đối tượng
C. Dự đoán nhãn lớp rời rạc cho các đối tượng mới
D. Tìm kiếm các luật mô tả sự phụ thuộc giữa các biến

💡 Lời giải chi tiết:

Phân lớp là một quá trình học có giám sát nhằm xây dựng mô hình dự đoán nhãn danh mục (lớp) cho các dữ liệu chưa biết dựa trên dữ liệu đã được gán nhãn. Kết luận Lý giải Dự đoán nhãn lớp rời rạc cho các đối tượng mới.

Câu 13: Khi xử lý dữ liệu bị thiếu (Missing values), phương pháp nào sau đây có thể gây sai lệch kết quả phân tích nhất nếu tỷ lệ thiếu lớn?

A. Sử dụng trung bình của thuộc tính để điền vào
B. Xóa bỏ các dòng chứa giá trị thiếu
C. Sử dụng một hằng số toàn cục như 'Unknown'
D. Sử dụng mô hình dự đoán để suy diễn giá trị thiếu

💡 Lời giải chi tiết:

Việc xóa bỏ các dòng dữ liệu có thể dẫn đến mất mát thông tin nghiêm trọng và làm thay đổi đặc trưng phân phối ban đầu của tập dữ liệu nếu dữ liệu thiếu không phải là ngẫu nhiên. Kết luận Lý giải Xóa bỏ các dòng chứa giá trị thiếu.

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được phân loại là kiểu người học nào?

A. Người học tích cực (Eager learner)
B. Người học lười biếng (Lazy learner)
C. Mô hình dựa trên xác suất Bayes
D. Mô hình giảm chiều dữ liệu

💡 Lời giải chi tiết:

KNN được gọi là 'Lazy learner' vì nó không xây dựng mô hình huấn luyện một cách rõ ràng mà chỉ lưu trữ dữ liệu và chỉ thực hiện tính toán khi có truy vấn phân lớp. Kết luận Lý giải Người học lười biếng (Lazy learner).

Câu 15: Chỉ số F1-score là giá trị trung bình nào của Precision (độ chính xác) và Recall (độ triệu hồi)?

A. Trung bình cộng (Arithmetic Mean)
B. Trung bình nhân (Geometric Mean)
C. Trung bình điều hòa (Harmonic Mean)
D. Trung bình có trọng số theo kích thước lớp

💡 Lời giải chi tiết:

F1-score được tính bằng công thức trung bình điều hòa giữa Precision và Recall nhằm cân bằng cả hai chỉ số này, đặc biệt hữu ích khi tập dữ liệu bị mất cân bằng lớp. Kết luận Lý giải Trung bình điều hòa (Harmonic Mean).

Câu 16: Đặc điểm nổi bật nhất của thuật toán gom cụm DBSCAN là gì?

A. Yêu cầu người dùng xác định trước số lượng cụm K
B. Chỉ có thể tìm thấy các cụm có hình dạng cầu
C. Có khả năng tìm thấy các cụm có hình dạng bất kỳ và xử lý nhiễu
D. Dựa trên việc xây dựng cây phân cấp từ dưới lên

💡 Lời giải chi tiết:

DBSCAN là thuật toán gom cụm dựa trên mật độ, cho phép phát hiện các cụm có hình dạng phức tạp và loại bỏ hiệu quả các điểm nhiễu (outliers). Kết luận Lý giải Có khả năng tìm thấy các cụm có hình dạng bất kỳ và xử lý nhiễu.

Câu 17: Trong khai phá luật kết hợp, nếu chỉ số Lift của luật 'A kéo theo B' lớn hơn 1, điều đó có ý nghĩa gì?

A. Sự xuất hiện của A và B là độc lập với nhau
B. Sự xuất hiện của A có tác động tích cực đến sự xuất hiện của B
C. Sự xuất hiện của A làm giảm khả năng xuất hiện của B
D. Luật này không có ý nghĩa thống kê

💡 Lời giải chi tiết:

Lift lớn hơn 1 chỉ ra rằng tập mục A và B có mối tương quan dương, nghĩa là việc mua A làm tăng xác suất mua kèm B so với việc mua B ngẫu nhiên. Kết luận Lý giải Sự xuất hiện của A có tác động tích cực đến sự xuất hiện của B.

Câu 18: Mục đích chính của kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định là gì?

A. Làm cho cây trở nên sâu hơn và phức tạp hơn
B. Tăng độ chính xác trên tập dữ liệu huấn luyện
C. Giảm thiểu hiện tượng quá khớp (Overfitting)
D. Tăng số lượng các nút điều kiện trong cây

💡 Lời giải chi tiết:

Tỉa cành giúp loại bỏ các nhánh cây phản ánh nhiễu hoặc các chi tiết quá đặc thù trong dữ liệu huấn luyện, từ đó cải thiện khả năng tổng quát hóa của mô hình. Kết luận Lý giải Giảm thiểu hiện tượng quá khớp (Overfitting).

Câu 19: Trong kho dữ liệu, lược đồ 'Snowflake' (bông tuyết) khác với lược đồ 'Star' (sao) ở điểm nào?

A. Lược đồ Snowflake không có bảng sự kiện (Fact table)
B. Lược đồ Snowflake thực hiện chuẩn hóa các bảng chiều (Dimension tables)
C. Lược đồ Star có cấu trúc phức tạp và khó truy vấn hơn
D. Lược đồ Snowflake lưu trữ ít dữ liệu lịch sử hơn

💡 Lời giải chi tiết:

Lược đồ Snowflake là một biến thể của lược đồ sao, trong đó các bảng chiều được chuẩn hóa thành nhiều bảng phụ để giảm bớt sự dư thừa dữ liệu. Kết luận Lý giải Lược đồ Snowflake thực hiện chuẩn hóa các bảng chiều (Dimension tables).

Câu 20: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào trong tiền xử lý dữ liệu?

A. Làm sạch dữ liệu
B. Tích hợp dữ liệu
C. Giảm chiều dữ liệu (Dimension Reduction)
D. Biến đổi dữ liệu (Transformation)

💡 Lời giải chi tiết:

PCA là phương pháp biến đổi các biến có tương quan thành một tập hợp ít hơn các biến không tương quan gọi là các thành phần chính, giúp giảm độ phức tạp của dữ liệu. Kết luận Lý giải Giảm chiều dữ liệu (Dimension Reduction).

Câu 21: Vai trò của hàm kích hoạt (Activation Function) trong mạng Neural nhân tạo là gì?

A. Tính tổng trọng số của các tín hiệu đầu vào
B. Giúp mạng có thể học được các mối quan hệ phi tuyến tính
C. Lưu trữ các giá trị trọng số của mô hình
D. Tăng tốc độ truy xuất dữ liệu từ bộ nhớ

💡 Lời giải chi tiết:

Nếu không có hàm kích hoạt phi tuyến, mạng Neural dù có bao nhiêu lớp cũng chỉ hoạt động tương đương như một mô hình hồi quy tuyến tính đơn giản. Kết luận Lý giải Giúp mạng có thể học được các mối quan hệ phi tuyến tính.

Câu 22: Thuật toán Random Forest hoạt động dựa trên nguyên lý nào sau đây?

A. Xây dựng một cây quyết định duy nhất cực kỳ phức tạp
B. Sử dụng kết hợp nhiều cây quyết định để đưa ra kết quả cuối cùng
C. Tìm kiếm siêu phẳng tối ưu để phân tách dữ liệu
D. Tính toán xác suất hậu nghiệm dựa trên định lý Bayes

💡 Lời giải chi tiết:

Random Forest là một phương pháp học máy kết hợp (ensemble learning) tạo ra nhiều cây quyết định trong quá trình huấn luyện và lấy kết quả trung bình hoặc bỏ phiếu. Kết luận Lý giải Sử dụng kết hợp nhiều cây quyết định để đưa ra kết quả cuối cùng.

Câu 23: Kỹ thuật 'Anonymization' (vô danh hóa) trong khai phá dữ liệu nhằm mục đích chính là gì?

A. Tăng tốc độ xử lý của thuật toán
B. Bảo vệ quyền riêng tư cá nhân trong dữ liệu
C. Loại bỏ các thuộc tính không quan trọng
D. Tạo ra thêm nhiều dữ liệu giả lập

💡 Lời giải chi tiết:

Vô danh hóa dữ liệu là quá trình loại bỏ hoặc mã hóa các thông tin định danh cá nhân (PII) để đảm bảo không thể truy vết ngược lại cá thể cụ thể khi phân tích. Kết luận Lý giải Bảo vệ quyền riêng tư cá nhân trong dữ liệu.

Câu 24: Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để đánh giá điều gì?

A. Tổng số từ có trong một văn bản
B. Tầm quan trọng của một từ trong một tài liệu so với toàn bộ tập văn bản
C. Tốc độ xuất hiện của các từ mới trong dòng dữ liệu
D. Độ dài trung bình của các câu trong tài liệu

💡 Lời giải chi tiết:

TF-IDF giúp xác định những từ mang tính đặc trưng cho một tài liệu bằng cách cân bằng giữa tần suất xuất hiện tại chỗ và tần suất xuất hiện phổ biến trong toàn bộ kho dữ liệu. Kết luận Lý giải Tầm quan trọng của một từ trong một tài liệu so với toàn bộ tập văn bản.

Câu 25: Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?

A. Đánh giá chất lượng của kết quả gom cụm
B. Tính toán độ sâu của cây quyết định
C. Đo lường độ hỗ trợ của luật kết hợp
D. Chuẩn hóa dữ liệu về phân phối chuẩn

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định xem các cụm có được phân chia tốt hay không. Kết luận Lý giải Đánh giá chất lượng của kết quả gom cụm.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 105 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 122 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 138 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 155 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 173 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 189 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thường được thực hiện ngay sau khi dữ liệu đã được làm sạch và tích hợp?

Câu 2: Trong luật kết hợp, độ tin cậy (Confidence) của luật 'A kéo theo B' được định nghĩa như thế nào?

Câu 3: Hiện tượng 'Overfitting' (Quá khớp) trong phân lớp dữ liệu thường dẫn đến hệ quả nào sau đây?

Câu 4: Thuật toán gom cụm K-means nhạy cảm nhất với yếu tố nào dưới đây?

Câu 5: Kỹ thuật 'Binning' (chia giỏ) trong tiền xử lý dữ liệu thường được sử dụng cho mục đích gì?

Câu 6: Sự khác biệt chính giữa OLAP và OLTP là gì?

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường điều gì?

Câu 8: Tính chất 'Apriori' trong khai phá luật kết hợp khẳng định điều gì?

Câu 9: Phương pháp chuẩn hóa 'Min-Max' biến đổi dữ liệu về khoảng giá trị nào sau đây (theo mặc định phổ biến)?

Câu 10: Biểu đồ Dendrogram là công cụ trực quan hóa đặc trưng của phương pháp khai phá nào?

Câu 11: Trong kỹ thuật phát hiện ngoại lai, phương pháp Box-plot xác định một điểm là ngoại lai nếu nó nằm ngoài khoảng nào?

Câu 12: Nhiệm vụ chính của 'Phân lớp dữ liệu' (Classification) là gì?

Câu 13: Khi xử lý dữ liệu bị thiếu (Missing values), phương pháp nào sau đây có thể gây sai lệch kết quả phân tích nhất nếu tỷ lệ thiếu lớn?

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được phân loại là kiểu người học nào?

Câu 15: Chỉ số F1-score là giá trị trung bình nào của Precision (độ chính xác) và Recall (độ triệu hồi)?

Câu 16: Đặc điểm nổi bật nhất của thuật toán gom cụm DBSCAN là gì?

Câu 17: Trong khai phá luật kết hợp, nếu chỉ số Lift của luật 'A kéo theo B' lớn hơn 1, điều đó có ý nghĩa gì?

Câu 18: Mục đích chính của kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định là gì?

Câu 19: Trong kho dữ liệu, lược đồ 'Snowflake' (bông tuyết) khác với lược đồ 'Star' (sao) ở điểm nào?

Câu 20: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào trong tiền xử lý dữ liệu?

Câu 21: Vai trò của hàm kích hoạt (Activation Function) trong mạng Neural nhân tạo là gì?

Câu 22: Thuật toán Random Forest hoạt động dựa trên nguyên lý nào sau đây?

Câu 23: Kỹ thuật 'Anonymization' (vô danh hóa) trong khai phá dữ liệu nhằm mục đích chính là gì?

Câu 24: Trong khai phá dữ liệu văn bản, chỉ số TF-IDF dùng để đánh giá điều gì?

Câu 25: Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top