Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc kết hợp dữ liệu từ nhiều nguồn lưu trữ khác nhau vào một kho dữ liệu thống nhất?

A. Làm sạch dữ liệu
B. Tích hợp dữ liệu
C. Biến đổi dữ liệu
D. Lựa chọn dữ liệu

💡 Lời giải chi tiết:

Theo quy trình KDD chuẩn, tích hợp dữ liệu là giai đoạn kết hợp các nguồn dữ liệu rời rạc để tạo ra một cái nhìn toàn diện và đồng nhất. Kết luận Lý giải: Tích hợp dữ liệu

Câu 2: Trong khai phá luật kết hợp, độ đo nào thể hiện tần suất xuất hiện đồng thời của các tập mục trong toàn bộ cơ sở dữ liệu?

A. Độ tin cậy (Confidence)
B. Độ nhấc (Lift)
C. Độ hỗ trợ (Support)
D. Độ tinh khiết (Purity)

💡 Lời giải chi tiết:

Độ hỗ trợ xác định mức độ phổ biến của một tập mục dựa trên tỷ lệ giao dịch chứa tập mục đó trên tổng số giao dịch. Kết luận Lý giải: Độ hỗ trợ (Support)

Câu 3: Sự khác biệt bản chất nhất giữa kỹ thuật phân lớp (Classification) và phân cụm (Clustering) là gì?

A. Phân lớp dùng cho dữ liệu số, phân cụm dùng cho dữ liệu chữ
B. Phân lớp là học có giám sát, phân cụm là học không giám sát
C. Phân lớp yêu cầu ít dữ liệu hơn phân cụm
D. Phân lớp luôn cho kết quả chính xác hơn phân cụm

💡 Lời giải chi tiết:

Phân lớp dựa trên các nhãn lớp đã biết trước để gán nhãn cho mẫu mới, trong khi phân cụm tự tìm ra cấu trúc nhóm mà không cần nhãn. Kết luận Lý giải: Phân lớp là học có giám sát, phân cụm là học không giám sát

Câu 4: Thuật toán cây quyết định ID3 sử dụng tiêu chí nào để lựa chọn thuộc tính phân chia tại mỗi nút?

A. Chỉ số Gini
B. Độ lệch chuẩn
C. Khoảng cách Euclidean
D. Tăng thông tin (Information Gain)

💡 Lời giải chi tiết:

Thuật toán ID3 ưu tiên chọn thuộc tính làm giảm độ hỗn loạn (entropy) nhiều nhất, tức là có độ tăng thông tin cao nhất. Kết luận Lý giải: Tăng thông tin (Information Gain)

Câu 5: Hoạt động nào sau đây thường được thực hiện trong giai đoạn làm sạch dữ liệu (Data Cleaning)?

A. Xử lý các giá trị bị thiếu và khử nhiễu
B. Xây dựng các khối dữ liệu đa chiều
C. Tạo ra các thuộc tính mới từ thuộc tính cũ
D. Phân loại các khách hàng tiềm năng

💡 Lời giải chi tiết:

Làm sạch dữ liệu tập trung vào việc sửa chữa hoặc loại bỏ các dữ liệu sai lệch, không nhất quán hoặc bị thiếu để nâng cao chất lượng. Kết luận Lý giải: Xử lý các giá trị bị thiếu và khử nhiễu

Câu 6: Đâu là một nhược điểm lớn của thuật toán phân cụm K-Means?

A. Không thể xử lý được dữ liệu có kích thước lớn
B. Quá phức tạp để cài đặt và thực thi
C. Nhạy cảm với việc lựa chọn các tâm cụm khởi tạo ban đầu
D. Luôn tạo ra các cụm có hình dạng bất kỳ

💡 Lời giải chi tiết:

Kết quả cuối cùng của K-Means phụ thuộc rất nhiều vào vị trí các tâm cụm được chọn ngẫu nhiên lúc bắt đầu, dễ dẫn đến tối ưu cục bộ. Kết luận Lý giải: Nhạy cảm với việc lựa chọn các tâm cụm khởi tạo ban đầu

Câu 7: Kỹ thuật Phân tích thành phần chính (PCA) thường được sử dụng với mục đích gì trong tiền xử lý dữ liệu?

A. Tích hợp dữ liệu từ nhiều nguồn
B. Giảm chiều dữ liệu (Dimensionality Reduction)
C. Chuẩn hóa dữ liệu về khoảng [0, 1]
D. Phát hiện các điểm ngoại lệ

💡 Lời giải chi tiết:

PCA biến đổi một tập hợp các biến có tương quan thành một tập hợp các biến không tương quan gọi là thành phần chính để giảm số lượng thuộc tính. Kết luận Lý giải: Giảm chiều dữ liệu (Dimensionality Reduction)

Câu 8: Giả định cốt lõi của thuật toán phân loại Naive Bayes là gì?

A. Các điểm dữ liệu phải tuân theo phân phối chuẩn
B. Tập dữ liệu huấn luyện phải có kích thước rất lớn
C. Các thuộc tính dự báo hoàn toàn độc lập với nhau khi biết nhãn lớp
D. Các lớp phải có số lượng mẫu bằng nhau

💡 Lời giải chi tiết:

Naive Bayes giả định tính độc lập có điều kiện giữa các thuộc tính để đơn giản hóa việc tính toán xác suất hậu nghiệm. Kết luận Lý giải: Các thuộc tính dự báo hoàn toàn độc lập với nhau khi biết nhãn lớp

Câu 9: Trong phân tích luật kết hợp, nếu giá trị Lift của luật 'A kéo theo B' bằng 1, điều này ám chỉ điều gì?

A. và B có mối liên hệ mật thiết
B. Sự xuất hiện của A và B là độc lập với nhau
C. luôn xuất hiện khi có B
D. luôn xuất hiện khi có A

💡 Lời giải chi tiết:

Giá trị Lift bằng 1 cho thấy xác suất xuất hiện đồng thời của A và B đúng bằng tích xác suất riêng lẻ, nghĩa là chúng không liên quan đến nhau. Kết luận Lý giải: Sự xuất hiện của A và B là độc lập với nhau

Câu 10: Mục đích quan trọng nhất của việc chuẩn hóa dữ liệu (Data Normalization) là gì?

A. Giảm dung lượng lưu trữ của cơ sở dữ liệu
B. Loại bỏ hoàn toàn các điểm ngoại lệ
C. Đưa các thuộc tính về cùng một thang đo để tránh sai lệch kết quả
D. Chuyển đổi dữ liệu định tính sang định lượng

💡 Lời giải chi tiết:

Chuẩn hóa giúp cân bằng tầm ảnh hưởng của các biến có đơn vị hoặc miền giá trị khác nhau trong các thuật toán tính khoảng cách. Kết luận Lý giải: Đưa các thuộc tính về cùng một thang đo để tránh sai lệch kết quả

Câu 11: Thuật toán FP-Growth có ưu điểm vượt trội nào so với thuật toán Apriori truyền thống?

A. Không cần tạo ra các tập ứng viên (candidate generation)
B. Dễ dàng thực hiện song song hóa hơn
C. Có thể xử lý được dữ liệu bị thiếu
D. Đảm bảo tìm được nhiều luật kết hợp hơn

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây nén để khai phá tập mục phổ biến mà không cần bước sinh ứng viên tốn kém như Apriori. Kết luận Lý giải: Không cần tạo ra các tập ứng viên (candidate generation)

Câu 12: Thuật toán phân cụm DBSCAN thuộc nhóm phương pháp phân cụm nào sau đây?

A. Phân cụm phân hoạch
B. Phân cụm dựa trên mật độ
C. Phân cụm dựa trên mô hình
D. Phân cụm phân cấp

💡 Lời giải chi tiết:

DBSCAN (Density-Based Spatial Clustering of Applications with Noise) tìm kiếm các vùng có mật độ điểm cao để tạo thành cụm. Kết luận Lý giải: Phân cụm dựa trên mật độ

Câu 13: Hiện tượng Overfitting (Quá khớp) trong xây dựng mô hình khai phá dữ liệu có đặc điểm gì?

A. Mô hình hoạt động kém trên cả tập huấn luyện và tập kiểm tra
B. Mô hình quá đơn giản nên không học được các quy luật
C. Mô hình khớp rất tốt với dữ liệu huấn luyện nhưng kém trên dữ liệu mới
D. Mô hình chỉ sử dụng một vài thuộc tính quan trọng nhất

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình học cả những nhiễu hoặc đặc điểm riêng biệt của tập huấn luyện thay vì học quy luật tổng quát. Kết luận Lý giải: Mô hình khớp rất tốt với dữ liệu huấn luyện nhưng kém trên dữ liệu mới

Câu 14: Chỉ số F1-Score được tính toán dựa trên hai đại lượng nào sau đây?

A. Accuracy và Error Rate
B. Precision (Độ chính xác) và Recall (Độ triệu hồi)
C. Support và Confidence
D. Sensitivity và Specificity

💡 Lời giải chi tiết:

F1-Score là trung bình điều hòa của Precision và Recall, cung cấp một cái nhìn cân bằng về hiệu năng phân loại. Kết luận Lý giải: Precision (Độ chính xác) và Recall (Độ triệu hồi)

Câu 15: Trong hệ thống kho dữ liệu và OLAP, thao tác 'Slice' (Cắt lát) có ý nghĩa như thế nào?

A. Chuyển đổi dữ liệu chi tiết thành dữ liệu tổng quát
B. Xoay khối dữ liệu để xem từ các góc độ khác nhau
C. Chọn một giá trị cụ thể trên một chiều để tạo ra khối dữ liệu con
D. Kết hợp hai chiều dữ liệu lại với nhau

💡 Lời giải chi tiết:

Cắt lát (Slice) là việc cố định một giá trị trên một chiều của khối dữ liệu (Data Cube) để quan sát dữ liệu ở mức chi tiết hơn theo chiều đó. Kết luận Lý giải: Chọn một giá trị cụ thể trên một chiều để tạo ra khối dữ liệu con

Câu 16: Thuật toán K-Nearest Neighbors (KNN) quyết định nhãn của một mẫu mới dựa trên yếu tố nào?

A. Xác suất xuất hiện của mẫu trong toàn bộ tập dữ liệu
B. Đa số nhãn lớp của K láng giềng gần nhất
C. Vị trí của mẫu so với tâm của các cụm dữ liệu
D. Các quy tắc 'Nếu - Thì' được rút ra từ cây quyết định

💡 Lời giải chi tiết:

KNN là một thuật toán học lười (lazy learning) gán nhãn cho đối tượng mới dựa trên sự tương đồng về khoảng cách với các mẫu trong tập huấn luyện. Kết luận Lý giải: Đa số nhãn lớp của K láng giềng gần nhất

Câu 17: Độ tin cậy (Confidence) của luật kết hợp 'X kéo theo Y' được tính bằng công thức nào?

A. Số giao dịch chứa cả X và Y chia cho tổng số giao dịch
B. Số giao dịch chứa cả X và Y chia cho số giao dịch chứa X
C. Số giao dịch chứa cả X và Y chia cho số giao dịch chứa Y
D. Số giao dịch chứa X chia cho số giao dịch chứa Y

💡 Lời giải chi tiết:

Độ tin cậy đo lường khả năng Y xuất hiện trong các giao dịch mà X đã xuất hiện. Kết luận Lý giải: Số giao dịch chứa cả X và Y chia cho số giao dịch chứa X

Câu 18: Thuật toán cây quyết định CART (Classification and Regression Trees) sử dụng chỉ số nào để đánh giá độ tinh khiết của nút?

A. Chỉ số Gini (Gini Index)
B. Độ tăng thông tin (Information Gain)
C. Entropy
D. Khoảng cách Minkowski

💡 Lời giải chi tiết:

CART sử dụng Gini Index để chọn ra điểm chia tốt nhất giúp tối đa hóa độ tinh khiết của các tập con được tạo ra. Kết luận Lý giải: Chỉ số Gini (Gini Index)

Câu 19: Đặc điểm cơ bản của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

A. Luôn yêu cầu người dùng nhập số lượng cụm K trước
B. Tạo ra một cấu trúc cây biểu diễn các cụm lồng nhau
C. Chỉ áp dụng được cho dữ liệu có hai chiều không gian
D. Hoạt động dựa trên việc gán xác suất cho các điểm

💡 Lời giải chi tiết:

Phân cụm phân cấp xây dựng một sơ đồ hình cây (dendrogram) cho thấy mối quan hệ phân tầng giữa các đối tượng dữ liệu. Kết luận Lý giải: Tạo ra một cấu trúc cây biểu diễn các cụm lồng nhau

Câu 20: Kỹ thuật 'Data Cube Aggregation' (Tổng hợp khối dữ liệu) thuộc về giai đoạn nào trong tiền xử lý dữ liệu?

A. Làm sạch dữ liệu
B. Tích hợp dữ liệu
C. Giảm bớt dữ liệu (Data Reduction)
D. Rời rạc hóa dữ liệu

💡 Lời giải chi tiết:

Tổng hợp khối dữ liệu giúp thu gọn kích thước dữ liệu bằng cách thay thế các giá trị chi tiết bằng các giá trị tổng quát hơn. Kết luận Lý giải: Giảm bớt dữ liệu (Data Reduction)

Câu 21: Trong ma trận nhầm lẫn (Confusion Matrix), trường hợp 'False Positive' (FP) xảy ra khi nào?

A. Thực tế là tích cực và dự báo cũng là tích cực
B. Thực tế là tiêu cực và dự báo cũng là tiêu cực
C. Thực tế là tiêu cực nhưng mô hình dự báo là tích cực
D. Thực tế là tích cực nhưng mô hình dự báo là tiêu cực

💡 Lời giải chi tiết:

False Positive (Dương tính giả) là lỗi loại I khi mô hình dự báo sai về sự hiện diện của một đặc điểm. Kết luận Lý giải: Thực tế là tiêu cực nhưng mô hình dự báo là tích cực

Câu 22: Tại sao thuật toán Random Forest thường đạt hiệu quả cao hơn so với một cây quyết định đơn lẻ?

A. Vì nó sử dụng toàn bộ thuộc tính tại mọi nút chia
B. Vì nó kết hợp kết quả dự báo của nhiều cây quyết định độc lập
C. Vì nó không bao giờ gặp hiện tượng quá khớp
D. Vì nó yêu cầu ít tài nguyên tính toán hơn

💡 Lời giải chi tiết:

Random Forest là một phương pháp ensemble sử dụng kỹ thuật bagging để giảm phương sai và tăng tính ổn định của dự báo. Kết luận Lý giải: Vì nó kết hợp kết quả dự báo của nhiều cây quyết định độc lập

Câu 23: Ứng dụng 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào trong khai phá dữ liệu?

A. Phân cụm dữ liệu
B. Hồi quy tuyến tính
C. Khai phá luật kết hợp (Association Rule Mining)
D. Phát hiện điểm ngoại lệ

💡 Lời giải chi tiết:

Phân tích giỏ hàng nhằm tìm ra các sản phẩm thường được khách hàng mua cùng nhau dựa trên lịch sử giao dịch. Kết luận Lý giải: Khai phá luật kết hợp (Association Rule Mining)

Câu 24: Trong khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

A. Đếm tổng số từ trong một tài liệu
B. Xác định trọng số của một từ dựa trên mức độ quan trọng của nó trong văn bản
C. Sửa lỗi chính tả tự động trong văn bản
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác

💡 Lời giải chi tiết:

TF-IDF giúp làm nổi bật các từ mang nhiều thông tin đặc trưng cho tài liệu đồng thời giảm nhẹ vai trò của các từ xuất hiện quá phổ biến. Kết luận Lý giải: Xác định trọng số của một từ dựa trên mức độ quan trọng của nó trong văn bản

Câu 25: Kỹ thuật 'K-fold Cross-Validation' được sử dụng chủ yếu nhằm mục đích gì?

A. Làm sạch các giá trị nhiễu trong tập dữ liệu
B. Tăng tốc độ huấn luyện của mô hình
C. Đánh giá khả năng tổng quát hóa của mô hình trên các tập dữ liệu khác nhau
D. Lựa chọn các tham số tối ưu cho thuật toán phân cụm

💡 Lời giải chi tiết:

Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, kỹ thuật này giúp ước lượng hiệu năng mô hình một cách khách quan. Kết luận Lý giải: Đánh giá khả năng tổng quát hóa của mô hình trên các tập dữ liệu khác nhau

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 12 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 172 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 189 lượt làm

Làm ngay

Bộ 14 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 206 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 223 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 185 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 202 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình khám phá tri thức từ dữ liệu (KDD), bước nào thực hiện việc kết hợp dữ liệu từ nhiều nguồn lưu trữ khác nhau vào một kho dữ liệu thống nhất?

Câu 2: Trong khai phá luật kết hợp, độ đo nào thể hiện tần suất xuất hiện đồng thời của các tập mục trong toàn bộ cơ sở dữ liệu?

Câu 3: Sự khác biệt bản chất nhất giữa kỹ thuật phân lớp (Classification) và phân cụm (Clustering) là gì?

Câu 4: Thuật toán cây quyết định ID3 sử dụng tiêu chí nào để lựa chọn thuộc tính phân chia tại mỗi nút?

Câu 5: Hoạt động nào sau đây thường được thực hiện trong giai đoạn làm sạch dữ liệu (Data Cleaning)?

Câu 6: Đâu là một nhược điểm lớn của thuật toán phân cụm K-Means?

Câu 7: Kỹ thuật Phân tích thành phần chính (PCA) thường được sử dụng với mục đích gì trong tiền xử lý dữ liệu?

Câu 8: Giả định cốt lõi của thuật toán phân loại Naive Bayes là gì?

Câu 9: Trong phân tích luật kết hợp, nếu giá trị Lift của luật 'A kéo theo B' bằng 1, điều này ám chỉ điều gì?

Câu 10: Mục đích quan trọng nhất của việc chuẩn hóa dữ liệu (Data Normalization) là gì?

Câu 11: Thuật toán FP-Growth có ưu điểm vượt trội nào so với thuật toán Apriori truyền thống?

Câu 12: Thuật toán phân cụm DBSCAN thuộc nhóm phương pháp phân cụm nào sau đây?

Câu 13: Hiện tượng Overfitting (Quá khớp) trong xây dựng mô hình khai phá dữ liệu có đặc điểm gì?

Câu 14: Chỉ số F1-Score được tính toán dựa trên hai đại lượng nào sau đây?

Câu 15: Trong hệ thống kho dữ liệu và OLAP, thao tác 'Slice' (Cắt lát) có ý nghĩa như thế nào?

Câu 16: Thuật toán K-Nearest Neighbors (KNN) quyết định nhãn của một mẫu mới dựa trên yếu tố nào?

Câu 17: Độ tin cậy (Confidence) của luật kết hợp 'X kéo theo Y' được tính bằng công thức nào?

Câu 18: Thuật toán cây quyết định CART (Classification and Regression Trees) sử dụng chỉ số nào để đánh giá độ tinh khiết của nút?

Câu 19: Đặc điểm cơ bản của phương pháp phân cụm phân cấp (Hierarchical Clustering) là gì?

Câu 20: Kỹ thuật 'Data Cube Aggregation' (Tổng hợp khối dữ liệu) thuộc về giai đoạn nào trong tiền xử lý dữ liệu?

Câu 21: Trong ma trận nhầm lẫn (Confusion Matrix), trường hợp 'False Positive' (FP) xảy ra khi nào?

Câu 22: Tại sao thuật toán Random Forest thường đạt hiệu quả cao hơn so với một cây quyết định đơn lẻ?

Câu 23: Ứng dụng 'Market Basket Analysis' (Phân tích giỏ hàng) thường sử dụng kỹ thuật nào trong khai phá dữ liệu?

Câu 24: Trong khai phá dữ liệu văn bản (Text Mining), chỉ số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

Câu 25: Kỹ thuật 'K-fold Cross-Validation' được sử dụng chủ yếu nhằm mục đích gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top