Bộ 5 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong mô hình 5Vs của Big Data, đặc tính 'Veracity' tập trung vào khía cạnh nào của dữ liệu kinh doanh?
💡 Lời giải chi tiết:
Theo phân tích phổ biến, 'Veracity' đề cập đến chất lượng và sự tin cậy của dữ liệu để đảm bảo các quyết định kinh doanh không bị sai lệch. Kết luận Lý giải Độ tin cậy và tính chính xác của dữ liệu
Câu 2:Mô hình hồi quy tuyến tính (Linear Regression) thường được sử dụng trong kinh doanh nhằm mục đích chính là gì?
💡 Lời giải chi tiết:
Hồi quy tuyến tính là một kỹ thuật thống kê dùng để mô hình hóa mối quan hệ và dự đoán giá trị định lượng của biến mục tiêu. Kết luận Lý giải Dự báo giá trị của một biến phụ thuộc dựa trên các biến độc lập
Câu 3:Trong khoa học dữ liệu, kỹ thuật 'Clustering' (Phân cụm) thuộc loại học máy nào?
💡 Lời giải chi tiết:
Phân cụm là kỹ thuật học không giám sát vì nó tìm kiếm các cấu trúc tiềm ẩn trong dữ liệu mà không cần nhãn mục tiêu có sẵn. Kết luận Lý giải Học không giám sát (Unsupervised Learning)
Câu 4:Bài toán dự đoán một khách hàng có rời bỏ dịch vụ (Churn) hay không thường được xử lý bằng dạng mô hình nào?
💡 Lời giải chi tiết:
Dự báo khách hàng rời bỏ là bài toán phân lớp vì kết quả đầu ra là các nhóm rời rạc như 'Rời bỏ' hoặc 'Ở lại'. Kết luận Lý giải Mô hình phân lớp (Classification)
Câu 5:Chỉ số 'Recall' trong đánh giá mô hình phân loại gian lận tài chính có ý nghĩa gì?
💡 Lời giải chi tiết:
Recall đo lường khả năng của mô hình trong việc tìm ra tất cả các mẫu thuộc lớp tích cực, đặc biệt quan trọng để không bỏ sót gian lận. Kết luận Lý giải Tỷ lệ các trường hợp thực sự gian lận được mô hình phát hiện đúng
Câu 6:Sự khác biệt cơ bản về mục tiêu giữa Kinh tế lượng (Econometrics) và Khoa học dữ liệu (Data Science) là gì?
💡 Lời giải chi tiết:
Kinh tế lượng truyền thống chú trọng việc kiểm chứng các lý thuyết kinh tế và quan hệ nhân quả, trong khi Khoa học dữ liệu hiện đại tập trung vào hiệu suất dự báo. Kết luận Lý giải Kinh tế lượng tập trung vào suy diễn nhân quả, Khoa học dữ liệu ưu tiên độ chính xác dự báo
Câu 7:Giai đoạn nào được coi là bước đầu tiên và quan trọng nhất trong quy trình CRISP-DM?
💡 Lời giải chi tiết:
Để dự án thành công, việc xác định rõ mục tiêu kinh doanh và các yêu cầu thực tế là tiền đề bắt buộc trước khi thực hiện các bước kỹ thuật. Kết luận Lý giải Hiểu về kinh doanh (Business Understanding)
Câu 8:Trong phân tích luật kết hợp (Market Basket Analysis), chỉ số 'Lift' lớn hơn 1 ám chỉ điều gì?
💡 Lời giải chi tiết:
Chỉ số Lift lớn hơn 1 cho thấy mối quan hệ tích cực giữa hai mặt hàng, nghĩa là chúng thường được mua cùng nhau nhiều hơn mức ngẫu nhiên. Kết luận Lý giải Sự xuất hiện của mặt hàng A làm tăng khả năng mua mặt hàng B
Câu 9:Tại sao việc chia dữ liệu thành tập huấn luyện (Train) và tập kiểm tra (Test) lại cần thiết?
💡 Lời giải chi tiết:
Việc kiểm tra trên tập dữ liệu độc lập giúp xác định xem mô hình có bị quá khớp (overfitting) hay có khả năng dự báo tốt trên thực tế hay không. Kết luận Lý giải Để đánh giá khả năng tổng quát hóa của mô hình trên dữ liệu mới
Câu 10:Kiểm định A/B (A/B Testing) thường được ứng dụng trong Marketing kỹ thuật số nhằm mục đích gì?
💡 Lời giải chi tiết:
A/B Testing cho phép doanh nghiệp đưa ra quyết định dựa trên dữ liệu bằng cách thử nghiệm các biến thể khác nhau trên các nhóm khách hàng. Kết luận Lý giải So sánh hiệu quả giữa hai phiên bản của một chiến dịch để tối ưu hóa tỷ lệ chuyển đổi
Câu 11:Trong mô hình phân tích khách hàng RFM, chữ 'M' đại diện cho yếu tố nào?
💡 Lời giải chi tiết:
Mô hình RFM sử dụng Monetary để đánh giá giá trị kinh tế mà một khách hàng mang lại cho doanh nghiệp thông qua tổng số tiền họ đã chi trả. Kết luận Lý giải Monetary (Giá trị tiền tệ/Tổng mức chi tiêu)
Câu 12:Chiến lược định giá động (Dynamic Pricing) dựa trên khoa học dữ liệu chủ yếu sử dụng yếu tố nào để điều chỉnh giá?
💡 Lời giải chi tiết:
Định giá động sử dụng các thuật toán để phân tích dữ liệu thị trường tức thời nhằm tối ưu hóa doanh thu theo điều kiện cung cầu thực tế. Kết luận Lý giải Sự biến động của cung cầu và hành vi khách hàng trong thời gian thực
Câu 13:Kỹ thuật Phân tích cảm xúc (Sentiment Analysis) thường được áp dụng trong kinh doanh để làm gì?
💡 Lời giải chi tiết:
Phân tích cảm xúc sử dụng xử lý ngôn ngữ tự nhiên để trích xuất sắc thái biểu cảm tích cực hay tiêu cực từ các văn bản của khách hàng. Kết luận Lý giải Hiểu thái độ của khách hàng đối với thương hiệu qua các đánh giá trực tuyến
Câu 14:Phân tích thành phần chính (PCA) thường được sử dụng trong bước tiền xử lý dữ liệu với mục đích gì?
💡 Lời giải chi tiết:
PCA giúp đơn giản hóa tập dữ liệu có nhiều biến tương quan bằng cách chuyển đổi chúng thành các thành phần không tương quan yếu hơn. Kết luận Lý giải Giảm chiều dữ liệu trong khi vẫn giữ lại phần lớn thông tin quan trọng
Câu 15:Hiện tượng 'Underfitting' (Dưới khớp) xảy ra khi nào trong quá trình huấn luyện mô hình?
💡 Lời giải chi tiết:
Underfitting xảy ra khi mô hình không đủ khả năng nắm bắt quy luật của dữ liệu, dẫn đến sai số cao trên cả tập huấn luyện và kiểm tra. Kết luận Lý giải Mô hình quá đơn giản để học được cấu trúc của dữ liệu
Câu 16:Thuật toán 'Random Forest' được phân loại vào nhóm phương pháp nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp Ensemble Learning kết hợp nhiều cây quyết định để cải thiện độ chính xác và giảm Overfitting. Kết luận Lý giải Học máy kết hợp (Ensemble Learning)
Câu 17:Hệ thống phát hiện gian lận thẻ tín dụng thường sử dụng kỹ thuật 'Anomaly Detection' nhằm mục đích gì?
💡 Lời giải chi tiết:
Phát hiện bất thường tập trung vào việc tìm kiếm các điểm dữ liệu không tuân theo các quy luật phổ biến để cảnh báo rủi ro gian lận. Kết luận Lý giải Nhận diện các giao dịch bất thường khác xa với hành vi thông thường
Câu 18:Sự khác biệt chính giữa Kho dữ liệu (Data Warehouse) và Hồ dữ liệu (Data Lake) là gì?
💡 Lời giải chi tiết:
Data Warehouse được thiết kế cho các dữ liệu đã được xử lý và làm sạch cho mục đích báo cáo, trong khi Data Lake giữ dữ liệu ở dạng nguyên bản để phân tích linh hoạt. Kết luận Lý giải Data Warehouse lưu trữ dữ liệu đã cấu trúc, Data Lake lưu trữ dữ liệu thô ở mọi định dạng
Câu 19:Mô hình hồi quy Logistic (Logistic Regression) thường cho kết quả đầu ra là gì?
💡 Lời giải chi tiết:
Dù tên là hồi quy, Logistic Regression được dùng cho bài toán phân lớp và trả về xác suất của biến mục tiêu nhị phân. Kết luận Lý giải Xác suất thuộc về một lớp cụ thể (nằm trong khoảng từ 0 đến 1)
Câu 20:Biểu đồ nhiệt (Heatmap) thường được sử dụng trong phân tích dữ liệu kinh doanh để thể hiện điều gì?
💡 Lời giải chi tiết:
Heatmap sử dụng các phổ màu khác nhau để trực quan hóa mức độ lớn nhỏ hoặc mật độ của dữ liệu trên một không gian hai chiều. Kết luận Lý giải Mức độ tập trung hoặc cường độ của dữ liệu thông qua màu sắc
Câu 21:Đặc điểm 'Black Box' (Hộp đen) thường được dùng để mô tả nhược điểm của loại mô hình nào?
💡 Lời giải chi tiết:
Mạng nơ-ron sâu có cấu trúc phức tạp khiến con người rất khó giải thích cụ thể logic bên trong dẫn đến kết quả đầu ra. Kết luận Lý giải Mạng nơ-ron sâu (Deep Learning)
Câu 22:Yếu tố 'Seasonality' (Tính thời vụ) trong phân tích chuỗi thời gian kinh tế đề cập đến điều gì?
💡 Lời giải chi tiết:
Tính thời vụ phản ánh các quy luật lặp lại trong dữ liệu kinh tế gắn liền với các khoảng thời gian cụ thể trong năm. Kết luận Lý giải Các biến động lặp lại theo chu kỳ cố định (như tuần, tháng, quý)
Câu 23:Hệ thống gợi ý (Recommendation Systems) sử dụng kỹ thuật 'Collaborative Filtering' dựa trên thông tin nào?
💡 Lời giải chi tiết:
Lọc cộng tác đưa ra gợi ý bằng cách phân tích sự tương đồng trong lịch sử hành vi giữa người dùng này và các người dùng khác. Kết luận Lý giải Hành vi và sở thích tương đồng giữa các người dùng
Câu 24:Quy định GDPR của Liên minh Châu Âu ảnh hưởng như thế nào đến khoa học dữ liệu?
💡 Lời giải chi tiết:
GDPR đặt ra các tiêu chuẩn nghiêm ngặt về cách thức thu thập, lưu trữ và xử lý dữ liệu cá nhân, buộc các nhà khoa học dữ liệu phải tuân thủ tính minh bạch. Kết luận Lý giải Thắt chặt quyền riêng tư và bảo vệ dữ liệu cá nhân của người dùng
Câu 25:Trong kỹ thuật Feature Engineering, việc thực hiện 'One-hot Encoding' nhằm mục đích gì?
💡 Lời giải chi tiết:
One-hot Encoding tạo ra các cột nhị phân mới cho mỗi giá trị của biến phân loại để thuật toán học máy có thể hiểu được quan hệ giữa chúng. Kết luận Lý giải Chuyển đổi các biến phân loại thành dạng số mà máy tính có thể xử lý được