Bộ 14 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong lĩnh vực khoa học dữ liệu, thành phần nào sau đây đóng vai trò là 'nguyên liệu' đầu vào cốt lõi để tạo ra giá trị kinh doanh?
💡 Lời giải chi tiết:
Dữ liệu được coi là nền tảng và nguyên liệu thô mà từ đó các quy trình khoa học dữ liệu trích xuất tri thức phục vụ ra quyết định trong kinh tế. Kết luận Lý giải Dữ liệu (Data).
Câu 2:Mô hình học máy nào sau đây thường được sử dụng nhất để dự báo một giá trị liên tục, chẳng hạn như doanh thu bán hàng tháng tới?
💡 Lời giải chi tiết:
Hồi quy tuyến tính là phương pháp thống kê và học máy cơ bản dùng để dự đoán giá trị của một biến phụ thuộc định lượng dựa trên các biến độc lập. Kết luận Lý giải Hồi quy tuyến tính (Linear Regression).
Câu 3:Trong phân tích khách hàng, kỹ thuật nào giúp doanh nghiệp chia nhóm khách hàng có đặc điểm hành vi tương đồng mà không cần biết trước nhãn nhóm?
💡 Lời giải chi tiết:
Phân cụm là một kỹ thuật học không giám sát giúp phát hiện các cấu trúc tự nhiên và nhóm các đối tượng tương đồng trong tập dữ liệu. Kết luận Lý giải Phân cụm (Clustering).
Câu 4:Chỉ số 'R-squared' (Hệ số xác định) trong mô hình hồi quy có ý nghĩa chính là gì?
💡 Lời giải chi tiết:
R-squared đo lường phần trăm sự biến động của biến mục tiêu mà mô hình có thể giải thích được, phản ánh mức độ phù hợp của mô hình với dữ liệu thực tế. Kết luận Lý giải Tỷ lệ biến thiên của biến phụ thuộc được giải thích bởi các biến độc lập trong mô hình.
Câu 5:Khi xây dựng mô hình dự báo nợ xấu ngân hàng, nếu mô hình hoạt động rất tốt trên tập dữ liệu huấn luyện nhưng rất kém trên dữ liệu thực tế mới, hiện tượng này gọi là gì?
💡 Lời giải chi tiết:
Quá khớp xảy ra khi mô hình học cả những nhiễu trong dữ liệu huấn luyện dẫn đến khả năng tổng quát hóa kém trên dữ liệu mới. Kết luận Lý giải Overfitting (Quá khớp).
Câu 6:Kỹ thuật 'A/B Testing' trong kinh doanh trực tuyến thường được sử dụng nhằm mục đích chính nào?
💡 Lời giải chi tiết:
A/B testing là một thử nghiệm ngẫu nhiên có kiểm soát giúp doanh nghiệp đưa ra quyết định dựa trên dữ liệu bằng cách so sánh hiệu suất giữa các phương án. Kết luận Lý giải So sánh hai phiên bản (A và B) để xác định phiên bản nào mang lại hiệu quả cao hơn dựa trên số liệu thực tế.
Câu 7:Trong ma trận nhầm lẫn (Confusion Matrix), 'Precision' (Độ chính xác) được định nghĩa như thế nào?
💡 Lời giải chi tiết:
Độ chính xác (Precision) đo lường chất lượng của các dự báo tích cực, cho biết có bao nhiêu kết quả dự báo đúng trong tổng số kết quả được gắn nhãn tích cực. Kết luận Lý giải Tỷ lệ số trường hợp thực sự tích cực trong số tất cả các trường hợp được dự báo là tích cực.
Câu 8:Dữ liệu nào sau đây được phân loại là dữ liệu phi cấu trúc (Unstructured Data)?
💡 Lời giải chi tiết:
Dữ liệu phi cấu trúc là dữ liệu không có định dạng hàng và cột cố định, điển hình là văn bản tự do, hình ảnh và âm thanh. Kết luận Lý giải Nội dung các bài đăng và bình luận của khách hàng trên mạng xã hội.
Câu 9:Mục tiêu chính của bước 'Làm sạch dữ liệu' (Data Cleaning) trong quy trình khoa học dữ liệu là gì?
💡 Lời giải chi tiết:
Làm sạch dữ liệu nhằm đảm bảo tính chính xác và nhất quán của dữ liệu đầu vào, từ đó giúp mô hình phân tích đưa ra kết quả tin cậy hơn. Kết luận Lý giải Loại bỏ hoặc xử lý các giá trị thiếu, giá trị ngoại lệ và lỗi để nâng cao chất lượng dữ liệu.
Câu 10:Thuật toán 'Apriori' thường được ứng dụng trong bài toán kinh doanh nào dưới đây?
💡 Lời giải chi tiết:
Thuật toán Apriori được sử dụng để khai thác luật kết hợp, giúp tìm ra mối liên hệ giữa các mặt hàng trong các giao dịch mua sắm. Kết luận Lý giải Phân tích giỏ hàng (Market Basket Analysis) để tìm ra các sản phẩm thường được mua cùng nhau.
Câu 11:Trong kiểm định giả thuyết thống kê, giá trị 'p-value' nhỏ hơn mức ý nghĩa (ví dụ p < 0.05) có nghĩa là gì?
💡 Lời giải chi tiết:
Một giá trị p nhỏ cho thấy kết quả quan sát được rất ít khả năng xảy ra do ngẫu nhiên, dẫn đến việc bác bỏ giả thuyết không để ủng hộ giả thuyết đối. Kết luận Lý giải Có bằng chứng đủ mạnh để bác bỏ giả thuyết không (Null hypothesis).
Câu 12:Phương pháp 'K-fold Cross-Validation' được sử dụng chủ yếu để làm gì?
💡 Lời giải chi tiết:
Kiểm định chéo K-fold chia dữ liệu thành nhiều phần để huấn luyện và kiểm tra lặp lại, giúp đánh giá độ ổn định và khách quan của mô hình. Kết luận Lý giải Đánh giá hiệu suất và khả năng tổng quát hóa của mô hình trên các tập con dữ liệu khác nhau.
Câu 13:Hệ thống gợi ý (Recommendation Systems) sử dụng kỹ thuật 'Collaborative Filtering' dựa trên thông tin nào?
💡 Lời giải chi tiết:
Lọc cộng tác (Collaborative Filtering) tìm kiếm sự tương đồng trong lịch sử tương tác của người dùng để đưa ra gợi ý sản phẩm phù hợp. Kết luận Lý giải Hành vi và sở thích tương đồng giữa các người dùng (users).
Câu 14:Sự khác biệt chính giữa 'Kho dữ liệu' (Data Warehouse) và 'Hồ dữ liệu' (Data Lake) là gì?
💡 Lời giải chi tiết:
Kho dữ liệu tập trung vào dữ liệu đã qua xử lý cho mục đích báo cáo, trong khi hồ dữ liệu lưu trữ mọi dạng dữ liệu thô để phân tích sâu hơn sau này. Kết luận Lý giải Data Warehouse lưu trữ dữ liệu đã được cấu trúc và xử lý, trong khi Data Lake lưu trữ dữ liệu thô ở nhiều định dạng.
Câu 15:Trong mô hình cây quyết định (Decision Tree), khái niệm 'Gini Impurity' hoặc 'Entropy' dùng để đo lường điều gì?
💡 Lời giải chi tiết:
Các chỉ số này giúp xác định cách phân chia tốt nhất tại mỗi nút bằng cách giảm thiểu độ hỗn loạn của các lớp dữ liệu sau khi chia. Kết luận Lý giải Mức độ hỗn loạn hoặc độ không tinh khiết của thông tin tại một nút.
Câu 16:Thuật toán 'Random Forest' cải thiện kết quả so với một 'Decision Tree' đơn lẻ chủ yếu bằng cách nào?
💡 Lời giải chi tiết:
Random Forest là một phương pháp học kết hợp (ensemble) giúp tăng độ chính xác và ổn định bằng cách tổng hợp kết quả từ nhiều cây độc lập. Kết luận Lý giải Kết hợp dự báo từ nhiều cây quyết định khác nhau để giảm biến số và lỗi quá khớp.
Câu 17:Trong kinh tế học, việc nhầm lẫn giữa 'Tương quan' (Correlation) và 'Nhân quả' (Causation) có thể dẫn đến hệ quả gì?
💡 Lời giải chi tiết:
Tương quan chỉ cho thấy hai biến biến thiên cùng nhau, nếu coi đó là nhân quả mà không có bằng chứng, doanh nghiệp có thể can thiệp vào các yếu tố không thực sự tạo ra kết quả. Kết luận Lý giải Đưa ra các quyết định chính sách hoặc kinh doanh sai lầm vì hiểu sai nguồn gốc của vấn đề.
Câu 18:Khái niệm 'Bias' (Độ lệch) trong một mô hình học máy mô tả điều gì?
💡 Lời giải chi tiết:
Độ lệch cao thường dẫn đến hiện tượng học chưa tới (underfitting) vì mô hình không đủ linh hoạt để nắm bắt các quy luật trong dữ liệu. Kết luận Lý giải Sai số do những giả định quá đơn giản hóa của mô hình so với thực tế dữ liệu.
Câu 19:Phân tích cảm xúc (Sentiment Analysis) thường sử dụng kỹ thuật nào trong khoa học dữ liệu để hiểu ý kiến khách hàng?
💡 Lời giải chi tiết:
NLP cho phép máy tính hiểu, phân tích và trích xuất thông tin định tính như cảm xúc tích cực hay tiêu cực từ văn bản của người dùng. Kết luận Lý giải Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).
Câu 20:Trong bài toán dự đoán khách hàng rời bỏ (Churn Prediction), tại sao chỉ số 'Recall' thường quan trọng hơn 'Accuracy' nếu dữ liệu bị mất cân bằng?
💡 Lời giải chi tiết:
Recall (Độ nhạy) cao đảm bảo mô hình nhận diện được hầu hết các trường hợp mục tiêu (khách hàng rời bỏ), tránh việc bỏ lỡ các rủi ro quan trọng đối với doanh nghiệp. Kết luận Lý giải Vì doanh nghiệp muốn giảm thiểu tối đa việc bỏ sót những khách hàng thực sự có ý định rời đi.
Câu 21:Mô hình ARIMA (AutoRegressive Integrated Moving Average) thường được áp dụng cho loại dữ liệu nào?
💡 Lời giải chi tiết:
ARIMA là mô hình thống kê phổ biến được thiết kế đặc thù để phân tích và dự báo các giá trị tương lai dựa trên các điểm dữ liệu trong quá khứ theo trình tự thời gian. Kết luận Lý giải Dữ liệu chuỗi thời gian (Time Series data).
Câu 22:Vai trò của 'Feature Engineering' (Kỹ nghệ đặc trưng) trong quy trình xây dựng mô hình là gì?
💡 Lời giải chi tiết:
Kỹ nghệ đặc trưng giúp tận dụng kiến thức chuyên môn để tạo ra các biến mới từ dữ liệu gốc, giúp thuật toán dễ dàng nhận diện các quy luật phức tạp. Kết luận Lý giải Chuyển đổi dữ liệu thô thành các đặc trưng có ý nghĩa hơn giúp mô hình học máy đạt hiệu suất cao hơn.
Câu 23:Việc sử dụng 'L1 Regularization' (Lasso) trong hồi quy có tác dụng đặc biệt nào sau đây?
💡 Lời giải chi tiết:
Lasso regularization thêm một hình phạt dựa trên giá trị tuyệt đối của các hệ số, có khả năng tạo ra các mô hình thưa bằng cách loại bỏ các biến không đóng góp nhiều cho dự báo. Kết luận Lý giải Có thể triệt tiêu các hệ số của các biến không quan trọng về bằng 0, giúp lựa chọn đặc trưng.
Câu 24:Trong phân tích dữ liệu lớn (Big Data), đặc tính 'Velocity' (Tốc độ) đề cập đến điều gì?
💡 Lời giải chi tiết:
Velocity là một trong những đặc trưng của Big Data, nhấn mạnh yêu cầu về khả năng xử lý dòng dữ liệu phát sinh liên tục trong các hoạt động kinh doanh hiện đại. Kết luận Lý giải Tốc độ dữ liệu được tạo ra, thu thập và xử lý theo thời gian thực hoặc gần thời gian thực.
Câu 25:Khi nói về đạo đức trong khoa học dữ liệu, 'Algorithmic Bias' (Định kiến thuật toán) có thể gây ra vấn đề gì?
💡 Lời giải chi tiết:
Định kiến thuật toán thường phát sinh từ dữ liệu lịch sử không khách quan, gây ra sự thiếu công bằng trong các lĩnh vực nhạy cảm như tuyển dụng, vay vốn hoặc bảo hiểm. Kết luận Lý giải Dẫn đến các quyết định phân biệt đối xử không công bằng đối với các nhóm đối tượng nhất định trong xã hội.