Bộ 9 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong quy trình chuẩn CRISP-DM, bước nào được coi là quan trọng nhất để đảm bảo mô hình giải quyết đúng vấn đề của doanh nghiệp?
💡 Lời giải chi tiết:
Theo quy trình CRISP-DM, việc xác định rõ mục tiêu và yêu cầu từ góc độ kinh doanh là nền tảng bắt buộc để định hướng toàn bộ dự án khoa học dữ liệu. Kết luận Lý giải: Thấu hiểu kinh doanh (Business Understanding)
Câu 2:Đặc điểm 'Velocity' trong mô hình 5Vs của Big Data đề cập đến khía cạnh nào?
💡 Lời giải chi tiết:
Trong khoa học dữ liệu, Velocity biểu thị tốc độ mà dữ liệu được sinh ra và yêu cầu phải được xử lý nhanh chóng để mang lại giá trị kịp thời. Kết luận Lý giải: Tốc độ tạo ra và xử lý dữ liệu theo thời gian thực
Câu 3:Thuật toán K-means thường được ứng dụng phổ biến nhất vào nhiệm vụ nào trong kinh doanh?
💡 Lời giải chi tiết:
K-means là thuật toán học không giám sát dùng để nhóm các đối tượng có đặc điểm tương đồng, giúp doanh nghiệp chia khách hàng thành các nhóm riêng biệt để tiếp thị hiệu quả. Kết luận Lý giải: Phân đoạn khách hàng (Customer Segmentation)
Câu 4:Trong phân tích hồi quy tuyến tính, hệ số R-squared (hệ số xác định) đại diện cho điều gì?
💡 Lời giải chi tiết:
R-squared là chỉ số thống kê đo lường mức độ phù hợp của mô hình bằng cách cho biết bao nhiêu phần trăm sự thay đổi của biến mục tiêu được giải thích bởi các biến đầu vào. Kết luận Lý giải: Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập
Câu 5:Mục tiêu chính của phương pháp A/B Testing trong thương mại điện tử là gì?
💡 Lời giải chi tiết:
A/B Testing cho phép doanh nghiệp thử nghiệm hai biến thể khác nhau để xác định phiên bản nào mang lại hiệu quả cao hơn về mặt hành vi người dùng hoặc doanh thu. Kết luận Lý giải: Tối ưu hóa tỷ lệ chuyển đổi bằng cách so sánh hai phiên bản
Câu 6:Hiện tượng 'Overfitting' (Quá khớp) xảy ra khi nào trong quá trình huấn luyện mô hình?
💡 Lời giải chi tiết:
Overfitting là tình trạng mô hình quá khớp với dữ liệu cũ (bao gồm cả nhiễu) khiến nó mất đi khả năng tổng quát hóa khi gặp dữ liệu thực tế mới. Kết luận Lý giải: Mô hình học quá chi tiết cả nhiễu trong dữ liệu huấn luyện dẫn đến kém hiệu quả trên dữ liệu mới
Câu 7:Trong phân tích kinh doanh, Customer Lifetime Value (CLV) được định nghĩa là gì?
💡 Lời giải chi tiết:
CLV là một chỉ số quan trọng trong khoa học dữ liệu kinh doanh nhằm dự báo giá trị kinh tế dài hạn mà một cá nhân đóng góp cho công ty. Kết luận Lý giải: Tổng lợi nhuận dự kiến mà một khách hàng mang lại trong suốt quá trình giao dịch với doanh nghiệp
Câu 8:Phương pháp 'Collaborative Filtering' thường được sử dụng trong hệ thống nào?
💡 Lời giải chi tiết:
Collaborative Filtering (Lọc cộng tác) dựa trên hành vi tương đồng giữa các người dùng để đưa ra các gợi ý sản phẩm phù hợp, phổ biến trên Amazon hoặc Netflix. Kết luận Lý giải: Hệ thống gợi ý sản phẩm (Recommendation Systems)
Câu 9:Trong kinh tế lượng và khoa học dữ liệu, biến giả (Dummy variable) được dùng để làm gì?
💡 Lời giải chi tiết:
Biến giả là công cụ cho phép đưa các yếu tố không phải dạng số như giới tính, khu vực địa lý hoặc trạng thái vào mô hình toán học dưới dạng giá trị 0 hoặc 1. Kết luận Lý giải: Đại diện cho các biến định tính trong các mô hình định lượng
Câu 10:Chỉ số 'Precision' trong đánh giá mô hình phân loại (Classification) đo lường điều gì?
💡 Lời giải chi tiết:
Precision (Độ chính xác) tập trung vào chất lượng của các dự đoán tích cực, xác định xem trong số những lần mô hình nói là 'đúng' thì có bao nhiêu lần thực sự đúng. Kết luận Lý giải: Tỷ lệ các trường hợp dự đoán tích cực là đúng trên tổng số trường hợp được dự đoán là tích cực
Câu 11:Phân tích giỏ hàng (Market Basket Analysis) sử dụng thuật toán nào để tìm mối liên quan giữa các sản phẩm?
💡 Lời giải chi tiết:
Thuật toán Apriori là phương pháp kinh điển trong khai thác luật kết hợp để tìm ra các cặp sản phẩm thường được mua cùng nhau trong các giao dịch. Kết luận Lý giải: Thuật toán Apriori
Câu 12:Tại sao việc xử lý giá trị ngoại lai (Outliers) lại quan trọng trong phân tích kinh tế?
💡 Lời giải chi tiết:
Giá trị ngoại lai có thể kéo đường hồi quy về phía chúng, dẫn đến những kết luận sai lầm về mối quan hệ giữa các biến số kinh tế. Kết luận Lý giải: Vì chúng có thể làm sai lệch đáng kể kết quả của các mô hình thống kê như hồi quy
Câu 13:Phương pháp 'Sentiment Analysis' (Phân tích cảm xúc) thường được ứng dụng để làm gì trong kinh doanh?
💡 Lời giải chi tiết:
Sentiment Analysis sử dụng xử lý ngôn ngữ tự nhiên để trích xuất cảm xúc từ văn bản, giúp doanh nghiệp hiểu được phản hồi tích cực hay tiêu cực của người tiêu dùng. Kết luận Lý giải: Đánh giá thái độ của khách hàng đối với thương hiệu qua mạng xã hội
Câu 14:Trong kinh tế học thực nghiệm, kỹ thuật 'Difference-in-Differences' (DiD) chủ yếu dùng để làm gì?
💡 Lời giải chi tiết:
DiD là một phương pháp thống kê so sánh sự thay đổi theo thời gian giữa nhóm đối chứng và nhóm can thiệp để xác định tác động thực sự của một chính sách kinh tế. Kết luận Lý giải: Ước lượng tác động nhân quả của một chính sách hoặc sự can thiệp
Câu 15:Lợi ích chính của việc sử dụng mô hình 'Random Forest' thay vì một 'Decision Tree' đơn lẻ là gì?
💡 Lời giải chi tiết:
Bằng cách kết hợp kết quả từ nhiều cây quyết định, Random Forest cải thiện độ ổn định và độ chính xác của dự báo so với một cây duy nhất. Kết luận Lý giải: Giảm thiểu phương sai và hạn chế hiện tượng overfitting
Câu 16:Thuật ngữ 'Data Lake' trong kiến trúc dữ liệu doanh nghiệp dùng để chỉ điều gì?
💡 Lời giải chi tiết:
Data Lake cho phép lưu trữ dữ liệu cấu trúc và phi cấu trúc ở quy mô lớn mà không cần phải định nghĩa cấu trúc từ trước như kho dữ liệu truyền thống. Kết luận Lý giải: Kho lưu trữ tập trung chứa lượng lớn dữ liệu thô ở định dạng nguyên bản
Câu 17:Trong bối cảnh kinh doanh, 'Churn Prediction' là bài toán nhằm mục đích gì?
💡 Lời giải chi tiết:
Churn Prediction giúp doanh nghiệp chủ động nhận diện nhóm khách hàng sắp rời bỏ để thực hiện các chiến dịch giữ chân kịp thời. Kết luận Lý giải: Xác định những khách hàng có khả năng sẽ ngừng sử dụng dịch vụ
Câu 18:Mục đích của việc 'Chuẩn hóa dữ liệu' (Data Normalization) trước khi đưa vào các thuật toán học máy là gì?
💡 Lời giải chi tiết:
Chuẩn hóa giúp ngăn chặn việc các biến có giá trị lớn lấn át các biến khác trong quá trình tính toán của thuật toán, đặc biệt là các thuật toán dựa trên khoảng cách. Kết luận Lý giải: Đưa các biến có thang đo khác nhau về cùng một khoảng giá trị
Câu 19:Trong khoa học dữ liệu, thành phần 'Feature Engineering' đóng vai trò gì?
💡 Lời giải chi tiết:
Feature Engineering là quá trình sử dụng kiến thức chuyên môn để biến đổi dữ liệu thành các đầu vào có ý nghĩa hơn, giúp mô hình học hiệu quả hơn. Kết luận Lý giải: Tạo ra các đặc trưng mới từ dữ liệu thô để cải thiện hiệu suất mô hình
Câu 20:Quy định GDPR của Liên minh Châu Âu ảnh hưởng như thế nào đến việc thu thập dữ liệu khách hàng?
💡 Lời giải chi tiết:
GDPR thiết lập các tiêu chuẩn nghiêm ngặt về bảo mật và quyền sở hữu dữ liệu, buộc các tổ chức phải minh bạch trong việc xử lý thông tin cá nhân. Kết luận Lý giải: Yêu cầu doanh nghiệp phải có sự đồng ý rõ ràng và bảo vệ quyền riêng tư của cá nhân
Câu 21:Sự khác biệt chính giữa Business Intelligence (BI) và Data Science (DS) là gì?
💡 Lời giải chi tiết:
Trong khi BI chủ yếu sử dụng dữ liệu lịch sử để báo cáo trạng thái hiện tại, DS kết hợp thống kê và học máy để đưa ra các dự báo và khuyến nghị hành động. Kết luận Lý giải: BI tập trung vào phân tích quá khứ, DS tập trung vào dự báo tương lai
Câu 22:Trong phân tích chuỗi thời gian (Time Series), yếu tố 'Seasonality' đại diện cho điều gì?
💡 Lời giải chi tiết:
Tính mùa vụ phản ánh các mẫu hành vi lặp lại đều đặn trong kinh doanh, ví dụ như nhu cầu mua sắm tăng cao vào mỗi dịp cuối năm. Kết luận Lý giải: Các biến động lặp lại theo chu kỳ cố định (như tuần, tháng, quý)
Câu 23:Thuật toán Hồi quy Logistic (Logistic Regression) thường cho kết quả đầu ra là gì?
💡 Lời giải chi tiết:
Mặc dù có tên là hồi quy, Logistic Regression được sử dụng cho các bài toán phân loại bằng cách dự báo xác suất xảy ra của một sự kiện (ví dụ: có hay không). Kết luận Lý giải: Xác suất thuộc về một lớp dữ liệu (nhãn phân loại)
Câu 24:Tại sao các ngân hàng thường sử dụng 'Anomaly Detection' (Phát hiện bất thường)?
💡 Lời giải chi tiết:
Phát hiện bất thường cho phép hệ thống lọc ra các giao dịch sai lệch so với hành vi chi tiêu thông thường để ngăn chặn rủi ro tài chính. Kết luận Lý giải: Để nhận diện các giao dịch đáng ngờ có dấu hiệu gian lận
Câu 25:Trong học máy, 'Bias-Variance Trade-off' đề cập đến vấn đề gì?
💡 Lời giải chi tiết:
Đây là thách thức trong việc tìm kiếm một mô hình có độ phức tạp vừa đủ để không quá đơn giản (High Bias) cũng không quá nhạy cảm với nhiễu (High Variance). Kết luận Lý giải: Sự đánh đổi giữa độ phức tạp của mô hình và khả năng dự báo