Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình Khám phá tri thức từ Cơ sở dữ liệu (KDD), bước nào thực hiện việc áp dụng các thuật toán để trích xuất các mẫu (patterns)?

A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Tích hợp dữ liệu (Data Integration)
C. Khai phá dữ liệu (Data Mining)
D. Lựa chọn dữ liệu (Data Selection)

💡 Lời giải chi tiết:

Theo quy trình chuẩn KDD, khai phá dữ liệu là giai đoạn cốt lõi sử dụng các phương pháp thông minh để rút ra những mẫu tiềm năng từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu (Data Mining)

Câu 2: Kỹ thuật 'Data Cleaning' (Làm sạch dữ liệu) thường giải quyết vấn đề nào sau đây trong tập dữ liệu?

A. Dữ liệu thiếu giá trị và dữ liệu nhiễu
B. Tăng kích thước của tập dữ liệu mẫu
C. Chuyển đổi dữ liệu từ dạng số sang dạng chữ
D. Nén dữ liệu để tiết kiệm không gian lưu trữ

💡 Lời giải chi tiết:

Làm sạch dữ liệu là quá trình xử lý các giá trị bị khuyết, lọc nhiễu và sửa đổi các dữ liệu không nhất quán nhằm nâng cao chất lượng đầu vào cho mô hình. Kết luận Lý giải Dữ liệu thiếu giá trị và dữ liệu nhiễu

Câu 3: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một luật A kéo theo B được định nghĩa như thế nào?

A. Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch
B. Tỷ lệ các giao dịch chứa B trong số các giao dịch đã chứa A
C. Xác suất để A xảy ra khi biết rằng B đã xảy ra
D. Số lượng các mặt hàng trung bình trong một giao dịch

💡 Lời giải chi tiết:

Độ hỗ trợ đo lường tần suất xuất hiện đồng thời của cả hai tập mục hàng A và B trong toàn bộ cơ sở dữ liệu giao dịch. Kết luận Lý giải Tỷ lệ các giao dịch chứa cả A và B trên tổng số giao dịch

Câu 4: Độ tin cậy (Confidence) của luật kết hợp 'A kéo theo B' bằng 80% có ý nghĩa gì?

A. 80% các giao dịch trong cơ sở dữ liệu có chứa cả A và B
B. 80% các giao dịch chứa A thì cũng chứa B
C. 80% các giao dịch chứa B thì cũng chứa A
D. và B xuất hiện cùng nhau trong 80 giao dịch

💡 Lời giải chi tiết:

Độ tin cậy xác định xác suất có điều kiện để tập mục B xuất hiện trong một giao dịch khi biết rằng tập mục A đã hiện diện. Kết luận Lý giải 80% các giao dịch chứa A thì cũng chứa B

Câu 5: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

A. Nếu một tập mục là phổ biến thì tất cả các tập con của nó cũng phải phổ biến
B. Nếu một tập mục là phổ biến thì tất cả các tập cha của nó cũng phải phổ biến
C. Một tập mục không phổ biến thì các tập con của nó có thể phổ biến
D. Chỉ cần kiểm tra các tập mục có độ dài lớn nhất

💡 Lời giải chi tiết:

Tính chất Apriori khẳng định rằng mọi tập con phi rỗng của một tập mục phổ biến đều phải là tập mục phổ biến, giúp loại bỏ sớm các ứng viên không tiềm năng. Kết luận Lý giải Nếu một tập mục là phổ biến thì tất cả các tập con của nó cũng phải phổ biến

Câu 6: Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?

A. Phân lớp là học có giám sát, gom cụm là học không giám sát
B. Phân lớp là học không giám sát, gom cụm là học có giám sát
C. Phân lớp chỉ áp dụng cho dữ liệu văn bản, gom cụm cho dữ liệu số
D. Cả hai đều yêu cầu nhãn lớp có sẵn cho mọi bản ghi

💡 Lời giải chi tiết:

Phân lớp sử dụng các nhãn lớp đã biết để huấn luyện mô hình (có giám sát), trong khi gom cụm tự động nhóm các đối tượng dựa trên đặc điểm tương đồng mà không cần nhãn trước (không giám sát). Kết luận Lý giải Phân lớp là học có giám sát, gom cụm là học không giám sát

Câu 7: Trong cây quyết định (Decision Tree), tiêu chí 'Information Gain' (Độ lợi thông tin) thường dựa trên khái niệm nào sau đây?

A. Entropy
B. Khoảng cách Euclidean
C. Hệ số tương quan
D. Phương sai

💡 Lời giải chi tiết:

Độ lợi thông tin đo lường sự sụt giảm của Entropy (độ hỗn loạn) sau khi dữ liệu được phân tách dựa trên một thuộc tính cụ thể. Kết luận Lý giải Entropy

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy xảy ra khi nào?

A. Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra
B. Mô hình quá đơn giản nên không học được xu hướng của dữ liệu
C. Tập dữ liệu huấn luyện quá nhỏ so với số lượng thuộc tính
D. Mô hình có độ chính xác thấp trên cả tập huấn luyện và tập kiểm tra

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình học cả những nhiễu và chi tiết ngẫu nhiên trong dữ liệu huấn luyện, dẫn đến khả năng tổng quát hóa kém đối với dữ liệu mới. Kết luận Lý giải Mô hình hoạt động rất tốt trên dữ liệu huấn luyện nhưng kém trên dữ liệu kiểm tra

Câu 9: Thuật toán K-means thuộc loại kỹ thuật nào trong khai phá dữ liệu?

A. Gom cụm phân hoạch (Partitioning Clustering)
B. Gom cụm phân cấp (Hierarchical Clustering)
C. Phân lớp dựa trên luật (Rule-based Classification)
D. Khai phá chuỗi phổ biến (Sequential Pattern Mining)

💡 Lời giải chi tiết:

K-means là thuật toán gom cụm phân hoạch điển hình, chia tập dữ liệu thành K cụm sao cho tổng bình phương khoảng cách từ các điểm đến tâm cụm là nhỏ nhất. Kết luận Lý giải Gom cụm phân hoạch (Partitioning Clustering)

Câu 10: Trong thuật toán K-Nearest Neighbors (KNN), giá trị 'k' đại diện cho điều gì?

A. Số lượng láng giềng gần nhất được dùng để bỏ phiếu
B. Số lượng các cụm dữ liệu cần tìm
C. Số lượng các thuộc tính quan trọng nhất của dữ liệu
D. Số lần lặp tối đa của thuật toán

💡 Lời giải chi tiết:

Tham số k trong KNN xác định số lượng các điểm dữ liệu gần nhất trong không gian thuộc tính được sử dụng để xác định nhãn lớp cho một điểm dữ liệu mới. Kết luận Lý giải Số lượng láng giềng gần nhất được dùng để bỏ phiếu

Câu 11: Đặc điểm chính của thuật toán Naive Bayes là giả định điều gì về các thuộc tính?

A. Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp
B. Các thuộc tính luôn phụ thuộc tuyến tính vào nhau
C. Các thuộc tính phải tuân theo phân phối chuẩn hoàn toàn
D. Các thuộc tính không có giá trị khuyết

💡 Lời giải chi tiết:

Thuật toán Naive Bayes dựa trên giả định 'ngây thơ' rằng sự hiện diện của một thuộc tính cụ thể là độc lập với sự hiện diện của bất kỳ thuộc tính nào khác khi đã biết lớp. Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp

Câu 12: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max đưa giá trị về khoảng nào thông thường?

A. Khoảng từ 0 đến 1
B. Khoảng từ -1 đến 1
C. Khoảng từ 1 đến 10
D. Khoảng không giới hạn

💡 Lời giải chi tiết:

Chuẩn hóa Min-Max thực hiện biến đổi tuyến tính dữ liệu gốc để tất cả các giá trị mới nằm trong một phạm vi xác định, thường là từ 0 đến 1. Kết luận Lý giải Khoảng từ 0 đến 1

Câu 13: Trong hệ thống OLAP, thao tác 'Drill-down' (Khoan sâu) có tác dụng gì?

A. Đi từ dữ liệu tổng quát đến dữ liệu chi tiết hơn
B. Đi từ dữ liệu chi tiết đến dữ liệu tổng quát hơn
C. Xoay khối dữ liệu để xem ở các góc độ khác nhau
D. Trích xuất một phần dữ liệu dựa trên một điều kiện lọc

💡 Lời giải chi tiết:

Thao tác Drill-down cho phép người dùng xem dữ liệu ở mức độ chi tiết cao hơn bằng cách di chuyển xuống các cấp thấp hơn trong phân cấp của một chiều dữ liệu. Kết luận Lý giải Đi từ dữ liệu tổng quát đến dữ liệu chi tiết hơn

Câu 14: Mục tiêu chính của việc 'Dimensionality Reduction' (Giảm chiều dữ liệu) là gì?

A. Giảm số lượng biến ngẫu nhiên cần xem xét mà vẫn giữ lại thông tin quan trọng
B. Tăng số lượng bản ghi để mô hình học tốt hơn
C. Xóa bỏ toàn bộ dữ liệu bị nhiễu trong tập tin
D. Chuyển đổi dữ liệu định tính thành dữ liệu định lượng

💡 Lời giải chi tiết:

Giảm chiều dữ liệu giúp đơn giản hóa mô hình, giảm chi phí tính toán và hạn chế hiện tượng quá khớp bằng cách loại bỏ các thuộc tính dư thừa hoặc ít quan trọng. Kết luận Lý giải Giảm chiều dữ liệu nhằm giảm số lượng biến ngẫu nhiên cần xem xét mà vẫn giữ lại thông tin quan trọng

Câu 15: Thuật toán DBSCAN có ưu điểm nổi bật nào so với K-means?

A. Có thể phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt
B. Luôn yêu cầu người dùng nhập trước số lượng cụm K
C. Hoạt động cực nhanh trên các tập dữ liệu cực lớn với chiều cao
D. Đảm bảo mọi điểm dữ liệu đều phải thuộc về một cụm nào đó

💡 Lời giải chi tiết:

DBSCAN dựa trên mật độ để định nghĩa các cụm, cho phép nó tìm ra các hình dạng phức tạp và tự động nhận diện các điểm dữ liệu thưa thớt là nhiễu. Kết luận Lý giải Có thể phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt

Câu 16: Chỉ số 'Lift' trong khai phá luật kết hợp dùng để làm gì?

A. Đo lường mức độ phụ thuộc giữa hai tập mục A và B
B. Xác định tổng số lượng các mặt hàng trong kho
C. Tính toán thời gian cần thiết để chạy thuật toán Apriori
D. Đo lường độ dài của luật kết hợp dài nhất

💡 Lời giải chi tiết:

Chỉ số Lift đánh giá xem việc xuất hiện của tập mục A có thực sự làm tăng khả năng xuất hiện của tập mục B hay không so với việc chúng xuất hiện độc lập. Kết luận Lý giải Đo lường mức độ phụ thuộc giữa hai tập mục A và B

Câu 17: Trong cây quyết định, việc 'Pruning' (Tỉa cành) được thực hiện nhằm mục đích gì?

A. Giảm độ phức tạp của cây và tránh hiện tượng quá khớp
B. Làm cho cây cao hơn để chứa được nhiều quy tắc hơn
C. Tăng độ lợi thông tin tại mỗi nút lá của cây
D. Chuyển cây quyết định thành mạng nơ-ron nhân tạo

💡 Lời giải chi tiết:

Tỉa cành là kỹ thuật loại bỏ các nhánh không quan trọng hoặc có độ tin cậy thấp để cải thiện khả năng dự báo của cây trên dữ liệu mới. Kết luận Lý giải Giảm độ phức tạp của cây và tránh hiện tượng quá khớp

Câu 18: Phương pháp 'k-fold Cross-Validation' dùng để làm gì?

A. Đánh giá hiệu năng của mô hình một cách khách quan trên toàn bộ dữ liệu
B. Tăng số lượng thuộc tính cho tập dữ liệu huấn luyện
C. Gom cụm dữ liệu thành k nhóm khác nhau
D. Nén dữ liệu xuống k lần so với kích thước ban đầu

💡 Lời giải chi tiết:

Kiểm chứng chéo k-fold chia dữ liệu thành k phần, luân phiên huấn luyện và kiểm tra để đảm bảo mọi điểm dữ liệu đều được dùng cho cả hai mục đích, giúp đánh giá mô hình chính xác hơn. Kết luận Lý giải Đánh giá hiệu năng của mô hình một cách khách quan trên toàn bộ dữ liệu

Câu 19: Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được tính như thế nào?

A. Tỷ lệ số mẫu dự báo đúng là tích cực trên tổng số mẫu dự báo là tích cực
B. Tỷ lệ số mẫu dự báo đúng trên tổng số mẫu thực tế
C. Tỷ lệ số mẫu thực tế là tích cực được dự báo đúng
D. Tỷ lệ số mẫu dự báo sai trên tổng số mẫu huấn luyện

💡 Lời giải chi tiết:

Precision đo lường tỷ lệ các trường hợp mô hình dự báo là dương tính (Positive) mà thực sự đúng là dương tính trong thực tế. Kết luận Lý giải Tỷ lệ số mẫu dự báo đúng là tích cực trên tổng số mẫu dự báo là tích cực

Câu 20: Thuật toán 'Random Forest' hoạt động dựa trên nguyên lý nào?

A. Kết hợp kết quả dự báo của nhiều cây quyết định độc lập
B. Xây dựng một cây quyết định duy nhất có độ sâu tối đa
C. Sử dụng khoảng cách giữa các điểm để phân lớp
D. Sử dụng một mạng nơ-ron có nhiều lớp ẩn

💡 Lời giải chi tiết:

Random Forest là một phương pháp học máy kết hợp (ensemble learning) tạo ra nhiều cây quyết định trong quá trình huấn luyện và lấy kết quả trung bình hoặc bỏ phiếu đa số. Kết luận Lý giải Kết hợp kết quả dự báo của nhiều cây quyết định độc lập

Câu 21: Dữ liệu 'Outlier' (Dữ liệu ngoại lai) là gì?

A. Những quan sát có giá trị khác biệt đáng kể so với phần còn lại của tập dữ liệu
B. Những bản ghi nằm ở trung tâm của các cụm dữ liệu
C. Các thuộc tính không có giá trị thực tế trong bài toán
D. Những dữ liệu đã được chuẩn hóa về khoảng từ 0 đến 1

💡 Lời giải chi tiết:

Ngoại lai là những điểm dữ liệu lệch xa khỏi xu hướng chung của tập dữ liệu, thường do sai số đo lường hoặc các hiện tượng đặc biệt. Kết luận Lý giải Những quan sát có giá trị khác biệt đáng kể so với phần còn lại của tập dữ liệu

Câu 22: Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?

A. Đánh giá chất lượng của việc gom cụm
B. Đo lường độ lợi thông tin trong cây quyết định
C. Xác định số lượng thuộc tính tối ưu cho mô hình phân lớp
D. Tính toán xác suất hậu nghiệm trong thuật toán Bayes

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định xem các cụm có được phân tách tốt hay không. Kết luận Lý giải Đánh giá chất lượng của việc gom cụm

Câu 23: Trong khai phá dữ liệu, 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào?

A. Khai phá luật kết hợp (Association Rule Mining)
B. Phân tích hồi quy tuyến tính (Linear Regression)
C. Gom cụm phân cấp (Hierarchical Clustering)
D. Phân lớp bằng máy vectơ hỗ trợ (SVM)

💡 Lời giải chi tiết:

Phân tích giỏ hàng nhằm tìm ra các quy luật về những mặt hàng thường được khách hàng mua cùng nhau, đây là ứng dụng điển hình của khai phá luật kết hợp. Kết luận Lý giải Khai phá luật kết hợp (Association Rule Mining)

Câu 24: Mục đích của bước 'Data Integration' (Tích hợp dữ liệu) là gì?

A. Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất
B. Chia nhỏ cơ sở dữ liệu lớn thành các phần nhỏ hơn để dễ xử lý
C. Loại bỏ các bản ghi không có nhãn lớp trong tập huấn luyện
D. Chuyển đổi dữ liệu số thành các khoảng rời rạc

💡 Lời giải chi tiết:

Tích hợp dữ liệu giúp giải quyết các xung đột về cấu trúc và giá trị khi gộp dữ liệu từ các hệ thống lưu trữ khác nhau vào một nguồn duy nhất. Kết luận Lý giải Kết hợp dữ liệu từ nhiều nguồn khác nhau thành một kho dữ liệu thống nhất

Câu 25: Chỉ số 'F1-Score' được tính dựa trên hai đại lượng nào?

A. Precision và Recall
B. Support và Confidence
C. Accuracy và Gini Index
D. Entropy và Information Gain

💡 Lời giải chi tiết:

F1-Score là trung bình điều hòa giữa Precision (độ chính xác) và Recall (độ triệu hồi), cung cấp một cái nhìn tổng thể về hiệu năng của mô hình phân lớp. Kết luận Lý giải Precision và Recall

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 206 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 223 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 185 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 202 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 219 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 236 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình Khám phá tri thức từ Cơ sở dữ liệu (KDD), bước nào thực hiện việc áp dụng các thuật toán để trích xuất các mẫu (patterns)?

Câu 2: Kỹ thuật 'Data Cleaning' (Làm sạch dữ liệu) thường giải quyết vấn đề nào sau đây trong tập dữ liệu?

Câu 3: Trong khai phá luật kết hợp, chỉ số 'Support' (Độ hỗ trợ) của một luật A kéo theo B được định nghĩa như thế nào?

Câu 4: Độ tin cậy (Confidence) của luật kết hợp 'A kéo theo B' bằng 80% có ý nghĩa gì?

Câu 5: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

Câu 6: Sự khác biệt chính giữa phân lớp (Classification) và gom cụm (Clustering) là gì?

Câu 7: Trong cây quyết định (Decision Tree), tiêu chí 'Information Gain' (Độ lợi thông tin) thường dựa trên khái niệm nào sau đây?

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy xảy ra khi nào?

Câu 9: Thuật toán K-means thuộc loại kỹ thuật nào trong khai phá dữ liệu?

Câu 10: Trong thuật toán K-Nearest Neighbors (KNN), giá trị 'k' đại diện cho điều gì?

Câu 11: Đặc điểm chính của thuật toán Naive Bayes là giả định điều gì về các thuộc tính?

Câu 12: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu bằng phương pháp Min-Max đưa giá trị về khoảng nào thông thường?

Câu 13: Trong hệ thống OLAP, thao tác 'Drill-down' (Khoan sâu) có tác dụng gì?

Câu 14: Mục tiêu chính của việc 'Dimensionality Reduction' (Giảm chiều dữ liệu) là gì?

Câu 15: Thuật toán DBSCAN có ưu điểm nổi bật nào so với K-means?

Câu 16: Chỉ số 'Lift' trong khai phá luật kết hợp dùng để làm gì?

Câu 17: Trong cây quyết định, việc 'Pruning' (Tỉa cành) được thực hiện nhằm mục đích gì?

Câu 18: Phương pháp 'k-fold Cross-Validation' dùng để làm gì?

Câu 19: Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được tính như thế nào?

Câu 20: Thuật toán 'Random Forest' hoạt động dựa trên nguyên lý nào?

Câu 21: Dữ liệu 'Outlier' (Dữ liệu ngoại lai) là gì?

Câu 22: Hệ số Silhouette (Silhouette Coefficient) được sử dụng để làm gì?

Câu 23: Trong khai phá dữ liệu, 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào?

Câu 24: Mục đích của bước 'Data Integration' (Tích hợp dữ liệu) là gì?

Câu 25: Chỉ số 'F1-Score' được tính dựa trên hai đại lượng nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top