Quay lại danh mục Trắc nghiệm Khai phá dữ liệu

Trang chủ
Trắc nghiệm
Trắc nghiệm Khai phá dữ liệu
Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào trực tiếp thực hiện việc trích xuất các mẫu tiềm năng bằng các thuật toán thông minh?

A. Tiền xử lý dữ liệu (Data Preprocessing)
B. Biến đổi dữ liệu (Data Transformation)
C. Khai phá dữ liệu (Data Mining)
D. Lựa chọn dữ liệu (Data Selection)

💡 Lời giải chi tiết:

Theo quy trình chuẩn KDD, bước Khai phá dữ liệu là giai đoạn áp dụng các thuật toán chuyên biệt để phát hiện các mẫu, xu hướng hoặc quy luật từ dữ liệu đã qua xử lý. Kết luận Lý giải Khai phá dữ liệu (Data Mining)

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình hoặc giá trị phổ biến nhất?

A. Làm sạch dữ liệu (Data Cleaning)
B. Giảm nhẹ dữ liệu (Data Reduction)
C. Rời rạc hóa dữ liệu (Data Discretization)
D. Tích hợp dữ liệu (Data Integration)

💡 Lời giải chi tiết:

Làm sạch dữ liệu bao gồm các kỹ thuật như điền giá trị thiếu, làm mượt dữ liệu nhiễu và xử lý các điểm dữ liệu không nhất quán. Kết luận Lý giải Làm sạch dữ liệu (Data Cleaning)

Câu 3: Trong phân tích luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?

A. Tỷ lệ các giao dịch chứa tập A trên tổng số giao dịch
B. Xác suất có điều kiện của tập B khi đã biết tập A
C. Số lượng các thuộc tính có trong tập A
D. Tỷ lệ các giao dịch chỉ chứa tập A mà không chứa tập khác

💡 Lời giải chi tiết:

Độ hỗ trợ phản ánh tần suất xuất hiện của một tập mục tiêu trong toàn bộ cơ sở dữ liệu giao dịch đang xét. Kết luận Lý giải Tỷ lệ các giao dịch chứa tập A trên tổng số giao dịch

Câu 4: Trong một luật kết hợp 'A kéo theo B', độ tin cậy (Confidence) được tính toán dựa trên công thức nào?

A. Tỷ lệ giao dịch chứa B trên tổng số giao dịch
B. Tỷ lệ giao dịch chứa cả A và B trên số giao dịch chứa A
C. Tỷ lệ giao dịch chứa cả A và B trên tổng số giao dịch
D. Tỷ lệ giao dịch chứa A trên số giao dịch chứa B

💡 Lời giải chi tiết:

Độ tin cậy đo lường khả năng xuất hiện của mục B trong các giao dịch mà mục A đã xuất hiện. Kết luận Lý giải Tỷ lệ giao dịch chứa cả A và B trên số giao dịch chứa A

Câu 5: Giá trị 'Lift' trong luật kết hợp lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?

A. và B có mối quan hệ phụ thuộc lẫn nhau một cách tiêu cực
B. Sự xuất hiện của A làm giảm khả năng xuất hiện của B
C. và B hoàn toàn độc lập với nhau
D. và B có mối quan hệ phụ thuộc tích cực (có xu hướng xuất hiện cùng nhau)

💡 Lời giải chi tiết:

Giá trị Lift lớn hơn 1 chứng tỏ sự xuất hiện của mục này làm tăng xác suất xuất hiện của mục kia so với khi chúng độc lập. Kết luận Lý giải A và B có mối quan hệ phụ thuộc tích cực (có xu hướng xuất hiện cùng nhau)

Câu 6: Nguyên lý nào là cơ sở của thuật toán Apriori để giảm bớt không gian tìm kiếm các tập phổ biến?

A. Nếu một tập là phổ biến, mọi tập con của nó cũng phải phổ biến
B. Nếu một tập không phổ biến, mọi tập con của nó vẫn có thể phổ biến
C. Nếu một tập là phổ biến, mọi tập cha của nó cũng phải phổ biến
D. Độ hỗ trợ của một tập luôn lớn hơn độ hỗ trợ của tập con của nó

💡 Lời giải chi tiết:

Tính chất đơn điệu của tập phổ biến khẳng định rằng tất cả các tập con của một tập mục phổ biến đều phải đạt ngưỡng hỗ trợ tối thiểu. Kết luận Lý giải Nếu một tập là phổ biến, mọi tập con của nó cũng phải phổ biến

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường yếu tố nào?

A. Độ chính xác của mô hình phân lớp
B. Độ tinh khiết hoặc tính không ổn định của dữ liệu tại một nút
C. Thời gian chạy của thuật toán
D. Số lượng các nhánh của cây

💡 Lời giải chi tiết:

Entropy là một đại lượng trong lý thuyết thông tin dùng để đo lường mức độ hỗn loạn hoặc độ không thuần khiết của các ví dụ trong một tập dữ liệu. Kết luận Lý giải Độ tinh khiết hoặc tính không ổn định của dữ liệu tại một nút

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

A. Mô hình quá đơn giản không học được xu hướng của dữ liệu
B. Dữ liệu huấn luyện quá ít so với số lượng thuộc tính
C. Mô hình học quá chi tiết cả nhiễu của dữ liệu huấn luyện dẫn đến kém hiệu quả trên dữ liệu mới
D. Tỷ lệ dữ liệu kiểm tra lớn hơn nhiều so với dữ liệu huấn luyện

💡 Lời giải chi tiết:

Quá khớp xảy ra khi mô hình quá phức tạp, ghi nhớ chính xác các biến động ngẫu nhiên và nhiễu trong tập huấn luyện thay vì học quy luật tổng quát. Kết luận Lý giải Mô hình học quá chi tiết cả nhiễu của dữ liệu huấn luyện dẫn đến kém hiệu quả trên dữ liệu mới

Câu 9: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

A. Các thuộc tính có mối tương quan chặt chẽ với nhau
B. Các thuộc tính độc lập có điều kiện với nhau khi biết lớp
C. Các thuộc tính phải có phân phối chuẩn
D. Các thuộc tính luôn có trọng số bằng nhau

💡 Lời giải chi tiết:

Naive Bayes giả định rằng sự hiện diện của một thuộc tính cụ thể trong một lớp không liên quan đến sự hiện diện của bất kỳ thuộc tính nào khác. Kết luận Lý giải Các thuộc tính độc lập có điều kiện với nhau khi biết lớp

Câu 10: Thuật toán K-Nearest Neighbors (KNN) được phân loại vào nhóm học máy nào sau đây?

A. Học lười (Lazy Learner)
B. Học tích cực (Eager Learner)
C. Học không giám sát (Unsupervised Learning)
D. Học bán giám sát (Semi-supervised Learning)

💡 Lời giải chi tiết:

KNN được gọi là học lười vì nó không xây dựng mô hình huấn luyện rõ ràng mà chỉ lưu trữ dữ liệu và thực hiện tính toán khi có truy vấn mới. Kết luận Lý giải Học lười (Lazy Learner)

Câu 11: Mục tiêu chính của các thuật toán phân cụm (Clustering) trong khai phá dữ liệu là gì?

A. Gán nhãn cho dữ liệu dựa trên các ví dụ đã biết trước
B. Dự đoán giá trị số của một biến phụ thuộc
C. Nhóm các đối tượng tương tự nhau vào cùng một cụm và khác biệt với các cụm khác
D. Tìm kiếm các luật kết hợp giữa các mặt hàng trong giỏ hàng

💡 Lời giải chi tiết:

Phân cụm là phương pháp học không giám sát nhằm chia tập dữ liệu thành các nhóm sao cho sự tương đồng trong nhóm là tối đa và giữa các nhóm là tối thiểu. Kết luận Lý giải Nhóm các đối tượng tương tự nhau vào cùng một cụm và khác biệt với các cụm khác

Câu 12: Trong thuật toán K-means, việc xác định các đối tượng thuộc về cụm nào dựa trên tiêu chí nào?

A. Độ mật độ của vùng chứa đối tượng
B. Khoảng cách từ đối tượng đó đến trọng tâm (centroid) của các cụm
C. Số lượng láng giềng xung quanh đối tượng
D. Thứ tự xuất hiện của đối tượng trong tập dữ liệu

💡 Lời giải chi tiết:

K-means gán mỗi điểm dữ liệu vào cụm có trọng tâm gần nó nhất theo một thước đo khoảng cách (thường là Euclid). Kết luận Lý giải Khoảng cách từ đối tượng đó đến trọng tâm (centroid) của các cụm

Câu 13: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ cấu trúc dạng cây được gọi là gì?

A. Biểu đồ Venn
B. Sơ đồ Dendrogram
C. Cây quyết định
D. Biểu đồ Pareto

💡 Lời giải chi tiết:

Dendrogram là một biểu đồ dạng cây hiển thị trình tự các bước hợp nhất hoặc chia tách trong phân cụm phân cấp. Kết luận Lý giải Sơ đồ Dendrogram

Câu 14: Đặc điểm nổi bật của thuật toán DBSCAN so với K-means là gì?

A. Yêu cầu người dùng nhập trước số lượng cụm K
B. Chỉ hoạt động tốt với các cụm có dạng hình cầu
C. Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt
D. Luôn hội tụ về một tối ưu toàn cục duy nhất

💡 Lời giải chi tiết:

DBSCAN dựa trên mật độ để phân cụm, giúp nó nhận diện được các hình dạng phức tạp và loại bỏ các điểm dữ liệu thưa thớt (nhiễu). Kết luận Lý giải Có khả năng phát hiện các cụm có hình dạng bất kỳ và xử lý nhiễu tốt

Câu 15: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính như thế nào?

A. Tỷ lệ dự đoán đúng trên tổng số dự đoán thuộc lớp đó
B. Tỷ lệ dự đoán đúng trên tổng số mẫu thực tế thuộc lớp đó
C. Tỷ lệ tổng số mẫu được phân lớp đúng trên toàn bộ dữ liệu
D. Trung bình điều hòa giữa độ chính xác và độ triệu hồi

💡 Lời giải chi tiết:

Precision đo lường tỷ lệ các trường hợp thực sự tích cực trong số tất cả các trường hợp mà mô hình đã dự đoán là tích cực. Kết luận Lý giải Tỷ lệ dự đoán đúng trên tổng số dự đoán thuộc lớp đó

Câu 16: Chỉ số F1-score là đại lượng kết hợp giữa hai thông số nào sau đây?

A. Accuracy và Error Rate
B. Support và Confidence
C. Precision và Recall
D. Sensitivity và Specificity

💡 Lời giải chi tiết:

F1-score là trung bình điều hòa của Precision và Recall, được dùng khi cần sự cân bằng giữa hai chỉ số này. Kết luận Lý giải Precision và Recall

Câu 17: Kỹ thuật 'Rời rạc hóa dữ liệu' (Data Discretization) thường được thực hiện ở giai đoạn nào?

A. Khai phá luật kết hợp
B. Tiền xử lý và biến đổi dữ liệu
C. Đánh giá mẫu
D. Thu thập dữ liệu thô

💡 Lời giải chi tiết:

Rời rạc hóa là quá trình chuyển đổi các giá trị liên tục thành các khoảng giá trị rời rạc, thuộc bước biến đổi dữ liệu trong tiền xử lý. Kết luận Lý giải Tiền xử lý và biến đổi dữ liệu

Câu 18: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào?

A. Phân lớp dữ liệu
B. Giảm chiều dữ liệu (Dimensionality Reduction)
C. Làm sạch dữ liệu nhiễu
D. Khai phá chuỗi thời gian

💡 Lời giải chi tiết:

PCA giúp biến đổi một tập hợp các biến có tương quan thành một tập hợp nhỏ hơn các biến không tương quan gọi là các thành phần chính. Kết luận Lý giải Giảm chiều dữ liệu (Dimensionality Reduction)

Câu 19: Kỹ thuật 'Ensemble Learning' như Random Forest hoạt động dựa trên nguyên lý gì?

A. Sử dụng một mô hình duy nhất nhưng chạy nhiều lần
B. Kết hợp dự đoán của nhiều mô hình yếu để tạo ra một mô hình mạnh
C. Tăng số lượng thuộc tính để mô hình học tốt hơn
D. Chỉ tập trung vào việc giảm thiểu sai số trên tập kiểm tra

💡 Lời giải chi tiết:

Random Forest kết hợp nhiều cây quyết định độc lập thông qua kỹ thuật bagging để cải thiện độ chính xác và giảm quá khớp. Kết luận Lý giải Kết hợp dự đoán của nhiều mô hình yếu để tạo ra một mô hình mạnh

Câu 20: Trong khai phá dữ liệu web (Web Mining), việc phân tích cấu trúc các liên kết giữa các trang web được gọi là gì?

A. Web Content Mining
B. Web Usage Mining
C. Web Structure Mining
D. Web Personalization

💡 Lời giải chi tiết:

Web Structure Mining tập trung vào việc khám phá tri thức từ sơ đồ liên kết (hyperlinks) giữa các trang web. Kết luận Lý giải Web Structure Mining

Câu 21: Khái niệm 'Data Warehouse' có mối quan hệ như thế nào với 'Data Mining'?

A. Data Warehouse là một thuật toán của Data Mining
B. Data Mining là một bước để xây dựng Data Warehouse
C. Data Warehouse cung cấp nguồn dữ liệu tích cực và sạch cho Data Mining
D. Hai khái niệm này hoàn toàn không có liên quan

💡 Lời giải chi tiết:

Kho dữ liệu (Data Warehouse) đóng vai trò là hạ tầng lưu trữ dữ liệu đã được tích hợp và làm sạch, tạo điều kiện thuận lợi cho các hoạt động khai phá. Kết luận Lý giải Data Warehouse cung cấp nguồn dữ liệu tích cực và sạch cho Data Mining

Câu 22: Đâu là một ví dụ về thuật toán học có giám sát (Supervised Learning)?

A. K-means Clustering
B. Hồi quy tuyến tính (Linear Regression)
C. Phân tích thành phần chính (PCA)
D. Thuật toán Apriori

💡 Lời giải chi tiết:

Hồi quy tuyến tính yêu cầu dữ liệu có nhãn (giá trị mục tiêu) để huấn luyện mô hình dự đoán, do đó thuộc nhóm học có giám sát. Kết luận Lý giải Hồi quy tuyến tính (Linear Regression)

Câu 23: Trong quá trình đánh giá mô hình, phương pháp 'K-fold Cross-validation' giúp giải quyết vấn đề gì?

A. Tăng tốc độ huấn luyện mô hình
B. Giảm thiểu sự phụ thuộc của hiệu suất mô hình vào cách chia tập dữ liệu
C. Tự động chọn ra thuật toán tốt nhất
D. Loại bỏ hoàn toàn các điểm dữ liệu nhiễu

💡 Lời giải chi tiết:

Kiểm tra chéo K-fold đảm bảo mọi điểm dữ liệu đều có cơ hội xuất hiện trong cả tập huấn luyện và tập kiểm tra, giúp đánh giá mô hình khách quan hơn. Kết luận Lý giải Giảm thiểu sự phụ thuộc của hiệu suất mô hình vào cách chia tập dữ liệu

Câu 24: Điểm dữ liệu nào được coi là 'Outlier' (Điểm biên/ngoại lệ)?

A. Điểm dữ liệu nằm gần trọng tâm của cụm
B. Điểm dữ liệu có giá trị trùng lặp nhiều lần
C. Điểm dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu
D. Điểm dữ liệu bị thiếu giá trị thuộc tính

💡 Lời giải chi tiết:

Ngoại lệ là những quan sát lệch lạc hẳn so với xu hướng chung hoặc phân phối của các dữ liệu khác trong cùng tập hợp. Kết luận Lý giải Điểm dữ liệu có đặc điểm khác biệt đáng kể so với phần còn lại của tập dữ liệu

Câu 25: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu về khoảng [0, 1] nhằm mục đích chính là gì?

A. Loại bỏ các thuộc tính không quan trọng
B. Giúp các thuộc tính có đơn vị đo khác nhau đóng góp công bằng vào mô hình
C. Làm cho dữ liệu trở nên rời rạc
D. Tăng dung lượng lưu trữ của dữ liệu

💡 Lời giải chi tiết:

Chuẩn hóa đưa các thuộc tính về cùng một thang đo để tránh việc các thuộc tính có giá trị lớn lấn át các thuộc tính có giá trị nhỏ trong tính toán. Kết luận Lý giải Giúp các thuộc tính có đơn vị đo khác nhau đóng góp công bằng vào mô hình

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 6 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 270 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 287 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 104 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 121 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 138 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Bộ trắc nghiệm 155 lượt làm

Làm ngay

Bộ 5 - Trắc nghiệm Khai phá dữ liệu online có đáp án

Kết quả của bạn:

Câu 1: Trong quy trình Khám phá tri thức từ dữ liệu (KDD), bước nào trực tiếp thực hiện việc trích xuất các mẫu tiềm năng bằng các thuật toán thông minh?

Câu 2: Kỹ thuật nào sau đây được sử dụng để giải quyết vấn đề dữ liệu bị thiếu bằng cách thay thế chúng bằng giá trị trung bình hoặc giá trị phổ biến nhất?

Câu 3: Trong phân tích luật kết hợp, độ hỗ trợ (Support) của một tập phổ biến A được định nghĩa là gì?

Câu 4: Trong một luật kết hợp 'A kéo theo B', độ tin cậy (Confidence) được tính toán dựa trên công thức nào?

Câu 5: Giá trị 'Lift' trong luật kết hợp lớn hơn 1 cho biết điều gì về mối quan hệ giữa hai tập mục A và B?

Câu 6: Nguyên lý nào là cơ sở của thuật toán Apriori để giảm bớt không gian tìm kiếm các tập phổ biến?

Câu 7: Trong cây quyết định (Decision Tree), chỉ số Entropy được sử dụng để đo lường yếu tố nào?

Câu 8: Hiện tượng 'Overfitting' (Quá khớp) trong học máy và khai phá dữ liệu thường xảy ra khi nào?

Câu 9: Thuật toán phân lớp Naive Bayes dựa trên giả định quan trọng nào về các thuộc tính dữ liệu?

Câu 10: Thuật toán K-Nearest Neighbors (KNN) được phân loại vào nhóm học máy nào sau đây?

Câu 11: Mục tiêu chính của các thuật toán phân cụm (Clustering) trong khai phá dữ liệu là gì?

Câu 12: Trong thuật toán K-means, việc xác định các đối tượng thuộc về cụm nào dựa trên tiêu chí nào?

Câu 13: Thuật toán phân cụm phân cấp (Hierarchical Clustering) tạo ra sơ đồ cấu trúc dạng cây được gọi là gì?

Câu 14: Đặc điểm nổi bật của thuật toán DBSCAN so với K-means là gì?

Câu 15: Trong đánh giá mô hình phân lớp, chỉ số 'Precision' (Độ chính xác) được tính như thế nào?

Câu 16: Chỉ số F1-score là đại lượng kết hợp giữa hai thông số nào sau đây?

Câu 17: Kỹ thuật 'Rời rạc hóa dữ liệu' (Data Discretization) thường được thực hiện ở giai đoạn nào?

Câu 18: Phân tích thành phần chính (PCA) là một kỹ thuật thuộc nhóm nào?

Câu 19: Kỹ thuật 'Ensemble Learning' như Random Forest hoạt động dựa trên nguyên lý gì?

Câu 20: Trong khai phá dữ liệu web (Web Mining), việc phân tích cấu trúc các liên kết giữa các trang web được gọi là gì?

Câu 21: Khái niệm 'Data Warehouse' có mối quan hệ như thế nào với 'Data Mining'?

Câu 22: Đâu là một ví dụ về thuật toán học có giám sát (Supervised Learning)?

Câu 23: Trong quá trình đánh giá mô hình, phương pháp 'K-fold Cross-validation' giúp giải quyết vấn đề gì?

Câu 24: Điểm dữ liệu nào được coi là 'Outlier' (Điểm biên/ngoại lệ)?

Câu 25: Kỹ thuật 'Normalization' (Chuẩn hóa) dữ liệu về khoảng [0, 1] nhằm mục đích chính là gì?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top