Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Lưu ý: Nội dung trong bài Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và xử lý các giá trị bị thiếu?

A. Biến đổi dữ liệu (Data Transformation)
B. Làm sạch dữ liệu (Data Cleaning)
C. Tích hợp dữ liệu (Data Integration)
D. Lựa chọn dữ liệu (Data Selection)

💡 Lời giải chi tiết:

Làm sạch dữ liệu là bước đầu tiên và quan trọng nhất nhằm xử lý dữ liệu không nhất quán, nhiễu và các giá trị bị thiếu để đảm bảo chất lượng cho các giai đoạn sau. Kết luận Lý giải: Làm sạch dữ liệu (Data Cleaning)

Câu 2: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích chính nào sau đây?

A. Làm mịn dữ liệu để giảm nhiễu
B. Nén dữ liệu để tiết kiệm không gian lưu trữ
C. Kết hợp nhiều nguồn dữ liệu khác nhau
D. Phát hiện các quy luật kết hợp giữa các thuộc tính

💡 Lời giải chi tiết:

Binning là kỹ thuật chia các giá trị dữ liệu vào các 'thùng' (bins) nhỏ để làm mịn và giảm thiểu tác động của các giá trị nhiễu cục bộ. Kết luận Lý giải: Làm mịn dữ liệu để giảm nhiễu

Câu 3: Trong khai phá luật kết hợp, độ đo 'Support' (Độ hỗ trợ) của một tập mục A được hiểu là gì?

A. Xác suất có điều kiện để mục B xuất hiện khi đã có mục A
B. Tỷ lệ các giao dịch chứa tập mục A trong tổng số các giao dịch của cơ sở dữ liệu
C. Mức độ tin cậy của quy luật kết hợp giữa A và B
D. Số lượng tối thiểu các mặt hàng cần có trong một giao dịch

💡 Lời giải chi tiết:

Độ hỗ trợ xác định tần suất xuất hiện của một tập mục cụ thể trong toàn bộ tập dữ liệu giao dịch để đánh giá mức độ phổ biến của nó. Kết luận Lý giải: Tỷ lệ các giao dịch chứa tập mục A trong tổng số các giao dịch của cơ sở dữ liệu

Câu 4: Thuật toán ID3 trong xây dựng cây quyết định sử dụng tiêu chí nào để lựa chọn thuộc tính phân tách tại mỗi nút?

A. Chỉ số Gini (Gini Index)
B. Độ tăng thông tin (Information Gain)
C. Sai số bình phương trung bình (MSE)
D. Khoảng cách Euclidean

💡 Lời giải chi tiết:

Thuật toán ID3 dựa trên khái niệm Entropy để tính toán độ tăng thông tin và chọn thuộc tính giúp phân loại dữ liệu tốt nhất tại mỗi bước. Kết luận Lý giải: Độ tăng thông tin (Information Gain)

Câu 5: Đặc điểm chính của thuật toán phân cụm K-means là gì?

A. Là thuật toán phân cụm dựa trên mật độ dữ liệu
B. Yêu cầu người dùng xác định trước số lượng cụm K
C. Có khả năng phát hiện các cụm có hình dạng bất kỳ
D. Không bị ảnh hưởng bởi các giá trị ngoại lai (outliers)

💡 Lời giải chi tiết:

K-means là thuật toán phân cụm phân hoạch yêu cầu tham số đầu vào quan trọng nhất là số lượng cụm K mà người dùng mong muốn tìm thấy. Kết luận Lý giải: Yêu cầu người dùng xác định trước số lượng cụm K

Câu 6: Trong đánh giá mô hình phân loại, 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP: True Positive, FP: False Positive)?

A. TP / (TP + FN)
B. TP / (TP + FP)
C. (TP + TN) / Tổng số mẫu
D. FP / (FP + TN)

💡 Lời giải chi tiết:

Theo định nghĩa trong thống kê và khai phá dữ liệu, Precision là tỷ lệ giữa số điểm thực sự dương trên tổng số điểm được mô hình dự đoán là dương. Kết luận Lý giải: TP / (TP + FP)

Câu 7: Sự khác biệt cơ bản giữa phân loại (Classification) và phân cụm (Clustering) là gì?

A. Phân loại là học không giám sát, phân cụm là học có giám sát
B. Phân loại là học có giám sát, phân cụm là học không giám sát
C. Phân loại dành cho dữ liệu số, phân cụm dành cho dữ liệu phân loại
D. Không có sự khác biệt về bản chất giữa hai phương pháp này

💡 Lời giải chi tiết:

Phân loại sử dụng các nhãn lớp đã biết để huấn luyện mô hình (giám sát), trong khi phân cụm tự tìm ra cấu trúc nhóm từ dữ liệu chưa được dán nhãn (không giám sát). Kết luận Lý giải: Phân loại là học có giám sát, phân cụm là học không giám sát

Câu 8: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

A. Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến
B. Nếu một tập mục không phổ biến, mọi tập siêu của nó vẫn có thể phổ biến
C. Chỉ những tập mục có độ tin cậy cao mới được xét là phổ biến
D. Tất cả các tập mục đều có khả năng trở thành tập mục phổ biến như nhau

💡 Lời giải chi tiết:

Tính chất 'Anti-monotone' của Apriori khẳng định rằng nếu một tập mục không đạt ngưỡng hỗ trợ tối thiểu thì không một tập siêu nào của nó có thể đạt ngưỡng đó. Kết luận Lý giải: Nếu một tập mục là phổ biến, mọi tập con của nó cũng phải phổ biến

Câu 9: Trong kỹ thuật DBSCAN, một điểm được gọi là 'Core point' (Điểm lõi) nếu thỏa mãn điều kiện nào?

A. Nằm ở biên của một cụm dữ liệu
B. Có ít nhất một số lượng điểm tối thiểu (MinPts) nằm trong vùng lân cận bán kính Eps
C. Không có điểm nào nằm trong vùng lân cận bán kính Eps của nó
D. Là điểm có giá trị trung bình của toàn bộ tập dữ liệu

💡 Lời giải chi tiết:

DBSCAN định nghĩa điểm lõi là điểm có mật độ dữ liệu xung quanh đủ cao, nghĩa là chứa ít nhất MinPts điểm trong phạm vi Eps. Kết luận Lý giải: Có ít nhất một số lượng điểm tối thiểu (MinPts) nằm trong vùng lân cận bán kính Eps

Câu 10: Kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định nhằm giải quyết vấn đề nào sau đây?

A. Thiếu hụt dữ liệu huấn luyện
B. Hiện tượng quá khớp (Overfitting)
C. Tốc độ huấn luyện chậm
D. Dữ liệu bị mất cân bằng lớp

💡 Lời giải chi tiết:

Tỉa cành giúp loại bỏ các nhánh cây quá chi tiết, chỉ phản ánh nhiễu trong dữ liệu huấn luyện, từ đó giúp mô hình tổng quát hóa tốt hơn trên dữ liệu mới. Kết luận Lý giải: Hiện tượng quá khớp (Overfitting)

Câu 11: Phương pháp 'Min-Max Normalization' biến đổi dữ liệu về khoảng giá trị nào thường gặp nhất?

A. Từ -1 đến 1
B. Từ 0 đến 1
C. Từ 0 đến vô cùng
D. Giữ nguyên giá trị trung bình là 0 và độ lệch chuẩn là 1

💡 Lời giải chi tiết:

Chuẩn hóa Min-Max thực hiện phép biến đổi tuyến tính để đưa các giá trị dữ liệu ban đầu về một khoảng xác định, phổ biến nhất là đoạn [0, 1]. Kết luận Lý giải: Từ 0 đến 1

Câu 12: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

A. Các thuộc tính phải có phân phối chuẩn
B. Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp
C. Các thuộc tính phải có trọng số bằng nhau
D. Các thuộc tính phải là dữ liệu dạng số

💡 Lời giải chi tiết:

Cái tên 'Naive' (ngây ngô) xuất phát từ giả định rằng tất cả các thuộc tính dự báo đều độc lập với nhau, điều hiếm khi xảy ra trong thực tế nhưng giúp đơn giản hóa việc tính toán. Kết luận Lý giải: Các thuộc tính độc lập có điều kiện với nhau khi biết nhãn lớp

Câu 13: Trong hệ thống OLAP, thao tác 'Roll-up' có ý nghĩa gì?

A. Đi từ dữ liệu chi tiết đến dữ liệu tổng quát hơn bằng cách gộp nhóm
B. Đi từ dữ liệu tổng quát xuống dữ liệu chi tiết hơn
C. Xoay khối dữ liệu để xem dưới các góc độ khác nhau
D. Cắt một lát mỏng từ khối dữ liệu đa chiều

💡 Lời giải chi tiết:

Thao tác Roll-up thực hiện việc tổng hợp dữ liệu dọc theo một phân cấp kích thước, ví dụ từ đơn vị ngày lên đơn vị tháng hoặc năm. Kết luận Lý giải: Đi từ dữ liệu chi tiết đến dữ liệu tổng quát hơn bằng cách gộp nhóm

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được xếp vào loại 'Lazy Learner' (Người học lười) vì lý do nào?

A. Nó không cần dữ liệu để huấn luyện
B. Nó trì hoãn việc xây dựng mô hình cho đến khi có truy vấn phân loại thực tế
C. Nó sử dụng rất ít tài nguyên bộ nhớ khi hoạt động
D. Nó luôn chọn phương án phân loại đơn giản nhất

💡 Lời giải chi tiết:

KNN không xây dựng một hàm mục tiêu tổng quát trong giai đoạn huấn luyện mà chỉ lưu trữ các mẫu và chỉ tính toán khi cần dự báo cho một điểm dữ liệu mới. Kết luận Lý giải: Nó trì hoãn việc xây dựng mô hình cho đến khi có truy vấn phân loại thực tế

Câu 15: Chỉ số Silhouette trong phân cụm được sử dụng để làm gì?

A. Xác định tọa độ tâm của các cụm
B. Đánh giá chất lượng phân cụm và sự phù hợp của các điểm trong cụm
C. Tính toán khoảng cách giữa hai cụm xa nhất
D. Tìm kiếm các luật kết hợp trong từng cụm

💡 Lời giải chi tiết:

Hệ số Silhouette đo lường mức độ tương đồng của một đối tượng với cụm của chính nó so với các cụm khác, giúp xác định số lượng cụm tối ưu. Kết luận Lý giải: Đánh giá chất lượng phân cụm và sự phù hợp của các điểm trong cụm

Câu 16: Trong khai phá dữ liệu, 'Outlier Detection' (Phát hiện ngoại lai) nhằm mục đích gì?

A. Tìm kiếm các mẫu dữ liệu phổ biến nhất
B. Tìm kiếm các đối tượng dữ liệu có hành vi khác biệt đáng kể so với phần còn lại
C. Dự đoán giá trị tương lai của một biến số
D. Giảm số lượng thuộc tính trong tập dữ liệu

💡 Lời giải chi tiết:

Ngoại lai là những điểm dữ liệu không tuân theo các quy luật chung của tập dữ liệu, thường được dùng để phát hiện gian lận hoặc các sự cố bất thường. Kết luận Lý giải: Tìm kiếm các đối tượng dữ liệu có hành vi khác biệt đáng kể so với phần còn lại

Câu 17: Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori?

A. Dễ cài đặt và lập trình hơn
B. Không cần tạo ra các tập ứng viên (candidate sets) và chỉ quét cơ sở dữ liệu 2 lần
C. Có thể xử lý được cả dữ liệu dạng số và dạng chữ
D. Luôn cho ra nhiều luật kết hợp hơn Apriori

💡 Lời giải chi tiết:

FP-Growth sử dụng cấu trúc cây FP-tree để nén dữ liệu và khai phá trực tiếp, giúp tránh việc phải tạo và kiểm tra hàng triệu tập ứng viên như Apriori. Kết luận Lý giải: Không cần tạo ra các tập ứng viên (candidate sets) và chỉ quét cơ sở dữ liệu 2 lần

Câu 18: Mô hình phân loại nào dựa trên việc tìm kiếm một 'siêu phẳng' (hyperplane) tối ưu để ngăn cách các lớp dữ liệu?

A. Mạng nơ-ron nhân tạo
B. Máy vector hỗ trợ (Support Vector Machine - SVM)
C. Cây quyết định (Decision Tree)
D. Hồi quy tuyến tính

💡 Lời giải chi tiết:

Mục tiêu của SVM là tìm ra một siêu phẳng trong không gian nhiều chiều để phân tách các điểm dữ liệu của các lớp khác nhau với lề (margin) lớn nhất. Kết luận Lý giải: Máy vector hỗ trợ (Support Vector Machine - SVM)

Câu 19: Trong tiền xử lý dữ liệu, 'Data Integration' (Tích hợp dữ liệu) đối mặt với thách thức nào sau đây?

A. Mất cân bằng giữa các lớp dữ liệu
B. Mâu thuẫn giá trị và sự không đồng nhất về thực thể (Entity Identification)
C. Cây quyết định quá sâu
D. Thuật toán phân cụm không hội tụ

💡 Lời giải chi tiết:

Tích hợp dữ liệu đòi hỏi việc nhận diện cùng một đối tượng từ nhiều nguồn khác nhau mặc dù chúng có thể có tên gọi hoặc định dạng khác nhau. Kết luận Lý giải: Mâu thuẫn giá trị và sự không đồng nhất về thực thể (Entity Identification)

Câu 20: Chỉ số Gini thường được sử dụng trong thuật toán cây quyết định nào sau đây?

A. ID3
B. CART (Classification and Regression Trees)
C. C4.5
D. Apriori

💡 Lời giải chi tiết:

Thuật toán CART sử dụng chỉ số Gini để đo lường độ tinh khiết của các nút, nhằm quyết định cách phân chia dữ liệu tại mỗi bước xây dựng cây. Kết luận Lý giải: CART (Classification and Regression Trees)

Câu 21: Trong khai phá văn bản, trọng số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

A. Đếm tổng số từ trong một văn bản
B. Đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu
C. Kiểm tra lỗi chính tả trong văn bản
D. Dịch văn bản từ ngôn ngữ này sang ngôn ngữ khác

💡 Lời giải chi tiết:

TF-IDF giúp làm nổi bật các từ có giá trị phân loại cao bằng cách tăng trọng số cho các từ xuất hiện nhiều trong một văn bản nhưng ít xuất hiện trong các văn bản khác. Kết luận Lý giải: Đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu

Câu 22: Phương pháp 'Cross-validation' (Kiểm tra chéo) thường được sử dụng nhằm mục đích gì?

A. Để tăng tốc độ huấn luyện mô hình
B. Để đánh giá hiệu suất của mô hình một cách khách quan và hạn chế quá khớp
C. Để nén dữ liệu trước khi đưa vào mô hình
D. Để thay thế bước làm sạch dữ liệu

💡 Lời giải chi tiết:

Bằng cách chia dữ liệu thành nhiều phần và luân phiên huấn luyện/kiểm tra, Cross-validation giúp đảm bảo mô hình hoạt động ổn định trên nhiều tập dữ liệu khác nhau. Kết luận Lý giải: Để đánh giá hiệu suất của mô hình một cách khách quan và hạn chế quá khớp

Câu 23: Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'Single Linkage' xác định khoảng cách giữa hai cụm như thế nào?

A. Khoảng cách giữa hai điểm gần nhau nhất của hai cụm
B. Khoảng cách giữa hai điểm xa nhau nhất của hai cụm
C. Khoảng cách giữa hai trọng tâm của hai cụm
D. Khoảng cách trung bình giữa tất cả các cặp điểm của hai cụm

💡 Lời giải chi tiết:

Single Linkage định nghĩa khoảng cách giữa hai cụm là khoảng cách ngắn nhất tìm được giữa bất kỳ một điểm nào của cụm thứ nhất và cụm thứ hai. Kết luận Lý giải: Khoảng cách giữa hai điểm gần nhau nhất của hai cụm

Câu 24: Ưu điểm của thuật toán Random Forest so với một cây quyết định đơn lẻ là gì?

A. Dễ giải thích và trực quan hơn
B. Giảm thiểu biến động (variance) và cải thiện độ chính xác bằng cách kết hợp nhiều cây
C. Yêu cầu ít dữ liệu huấn luyện hơn
D. Tốc độ dự báo nhanh hơn đáng kể

💡 Lời giải chi tiết:

Random Forest là một phương pháp học máy kết hợp (ensemble) giúp tăng cường độ chính xác và giảm nguy cơ quá khớp bằng cách lấy trung bình kết quả từ nhiều cây quyết định độc lập. Kết luận Lý giải: Giảm thiểu biến động (variance) và cải thiện độ chính xác bằng cách kết hợp nhiều cây

Câu 25: Kỹ thuật 'Principal Component Analysis' (PCA) được sử dụng trong giai đoạn nào của khai phá dữ liệu?

A. Làm sạch dữ liệu
B. Giảm chiều dữ liệu (Dimension Reduction)
C. Khai phá luật kết hợp
D. Đánh giá mô hình

💡 Lời giải chi tiết:

PCA là một kỹ thuật thống kê giúp biến đổi các thuộc tính có liên quan thành một tập hợp các biến không liên quan (thành phần chính) nhằm giảm độ phức tạp của dữ liệu. Kết luận Lý giải: Giảm chiều dữ liệu (Dimension Reduction)

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 3 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 219 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 236 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 253 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 270 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 287 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 104 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình khám phá tri thức từ cơ sở dữ liệu (KDD), bước nào tập trung vào việc loại bỏ dữ liệu nhiễu và xử lý các giá trị bị thiếu?

Câu 2: Kỹ thuật 'Binning' trong tiền xử lý dữ liệu thường được sử dụng cho mục đích chính nào sau đây?

Câu 3: Trong khai phá luật kết hợp, độ đo 'Support' (Độ hỗ trợ) của một tập mục A được hiểu là gì?

Câu 4: Thuật toán ID3 trong xây dựng cây quyết định sử dụng tiêu chí nào để lựa chọn thuộc tính phân tách tại mỗi nút?

Câu 5: Đặc điểm chính của thuật toán phân cụm K-means là gì?

Câu 6: Trong đánh giá mô hình phân loại, 'Precision' (Độ chính xác) được tính bằng công thức nào (với TP: True Positive, FP: False Positive)?

Câu 7: Sự khác biệt cơ bản giữa phân loại (Classification) và phân cụm (Clustering) là gì?

Câu 8: Thuật toán Apriori dựa trên tính chất nào để giảm bớt không gian tìm kiếm các tập mục phổ biến?

Câu 9: Trong kỹ thuật DBSCAN, một điểm được gọi là 'Core point' (Điểm lõi) nếu thỏa mãn điều kiện nào?

Câu 10: Kỹ thuật 'Pruning' (Tỉa cành) trong cây quyết định nhằm giải quyết vấn đề nào sau đây?

Câu 11: Phương pháp 'Min-Max Normalization' biến đổi dữ liệu về khoảng giá trị nào thường gặp nhất?

Câu 12: Thuật toán Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 13: Trong hệ thống OLAP, thao tác 'Roll-up' có ý nghĩa gì?

Câu 14: Thuật toán K-Nearest Neighbors (KNN) được xếp vào loại 'Lazy Learner' (Người học lười) vì lý do nào?

Câu 15: Chỉ số Silhouette trong phân cụm được sử dụng để làm gì?

Câu 16: Trong khai phá dữ liệu, 'Outlier Detection' (Phát hiện ngoại lai) nhằm mục đích gì?

Câu 17: Thuật toán FP-Growth có ưu điểm nổi bật nào so với thuật toán Apriori?

Câu 18: Mô hình phân loại nào dựa trên việc tìm kiếm một 'siêu phẳng' (hyperplane) tối ưu để ngăn cách các lớp dữ liệu?

Câu 19: Trong tiền xử lý dữ liệu, 'Data Integration' (Tích hợp dữ liệu) đối mặt với thách thức nào sau đây?

Câu 20: Chỉ số Gini thường được sử dụng trong thuật toán cây quyết định nào sau đây?

Câu 21: Trong khai phá văn bản, trọng số TF-IDF (Term Frequency-Inverse Document Frequency) dùng để làm gì?

Câu 22: Phương pháp 'Cross-validation' (Kiểm tra chéo) thường được sử dụng nhằm mục đích gì?

Câu 23: Trong thuật toán phân cụm phân cấp (Hierarchical Clustering), phương pháp 'Single Linkage' xác định khoảng cách giữa hai cụm như thế nào?

Câu 24: Ưu điểm của thuật toán Random Forest so với một cây quyết định đơn lẻ là gì?

Câu 25: Kỹ thuật 'Principal Component Analysis' (PCA) được sử dụng trong giai đoạn nào của khai phá dữ liệu?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top