Quay lại danh mục Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Trang chủ
Trắc nghiệm
Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh
Bộ 4 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ 4 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Lưu ý: Nội dung trong bài Bộ 4 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong khoa học dữ liệu kinh doanh, sự khác biệt cốt lõi giữa dữ liệu có cấu trúc (structured data) và dữ liệu phi cấu trúc (unstructured data) là gì?

A. Dữ liệu có cấu trúc chỉ bao gồm các con số, trong khi dữ liệu phi cấu trúc chỉ bao gồm hình ảnh.
B. Dữ liệu có cấu trúc được lưu trữ trong các mô hình dữ liệu định nghĩa trước như bảng SQL, còn dữ liệu phi cấu trúc không có định dạng cố định.
C. Dữ liệu phi cấu trúc dễ dàng phân tích bằng các công cụ Excel truyền thống hơn dữ liệu có cấu trúc.
D. Dữ liệu có cấu trúc luôn có khối lượng lớn hơn nhiều so với dữ liệu phi cấu trúc trong các doanh nghiệp hiện đại.

💡 Lời giải chi tiết:

Theo phân tích phổ biến trong quản trị dữ liệu, dữ liệu có cấu trúc tuân theo một lược đồ định sẵn giúp dễ dàng truy vấn, trong khi dữ liệu phi cấu trúc như email hay video đòi hỏi các kỹ thuật xử lý phức tạp hơn. Kết luận Lý giải Dữ liệu có cấu trúc được lưu trữ trong các mô hình dữ liệu định nghĩa trước như bảng SQL, còn dữ liệu phi cấu trúc không có định dạng cố định.

Câu 2: Loại hình phân tích nào trong khoa học dữ liệu tập trung vào việc trả lời câu hỏi 'Điều gì nên làm?' để tối ưu hóa kết quả kinh doanh?

A. Phân tích mô tả (Descriptive Analytics).
B. Phân tích chẩn đoán (Diagnostic Analytics).
C. Phân tích dự báo (Predictive Analytics).
D. Phân tích kê đơn (Prescriptive Analytics).

💡 Lời giải chi tiết:

Phân tích kê đơn sử dụng các mô hình tối ưu hóa và mô phỏng để đưa ra các đề xuất hành động cụ thể nhằm đạt được mục tiêu kinh doanh tối ưu. Kết luận Lý giải Phân tích kê đơn (Prescriptive Analytics).

Câu 3: Trong bối cảnh kinh tế, mô hình hồi quy tuyến tính thường được sử dụng nhất để thực hiện nhiệm vụ nào sau đây?

A. Phân loại khách hàng vào các nhóm rời rạc dựa trên sở thích.
B. Xác định các quy tắc kết hợp giữa các sản phẩm trong giỏ hàng.
C. Ước lượng mối quan hệ định lượng giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.
D. Giảm chiều dữ liệu để loại bỏ các đặc trưng không quan trọng.

💡 Lời giải chi tiết:

Hồi quy tuyến tính là công cụ cơ bản trong kinh tế lượng để đo lường mức độ tác động của các yếu tố kinh tế lên một biến mục tiêu cụ thể. Kết luận Lý giải Ước lượng mối quan hệ định lượng giữa một biến phụ thuộc và một hoặc nhiều biến độc lập.

Câu 4: Khi xây dựng mô hình dự báo khách hàng rời bỏ (Churn Prediction), biến mục tiêu (target variable) thường có đặc điểm gì?

A. Là một biến liên tục thể hiện doanh thu khách hàng đóng góp.
B. Là một biến nhị phân thể hiện trạng thái 'rời bỏ' hoặc 'ở lại'.
C. Là một danh sách các sản phẩm mà khách hàng đã mua.
D. Là một biến định danh thể hiện tên của khách hàng.

💡 Lời giải chi tiết:

Dự báo khách hàng rời bỏ là bài toán phân loại nhị phân, trong đó mô hình cần xác định xác suất khách hàng thuộc về một trong hai trạng thái đối lập. Kết luận Lý giải Là một biến nhị phân thể hiện trạng thái 'rời bỏ' hoặc 'ở lại'.

Câu 5: Đặc trưng 'Veracity' (Tính xác thực) trong mô hình 5V của Big Data đề cập đến vấn đề nào?

A. Tốc độ dữ liệu được tạo ra và xử lý theo thời gian thực.
B. Sự đa dạng của các nguồn dữ liệu từ văn bản đến hình ảnh.
C. Độ tin cậy, tính chính xác và chất lượng của dữ liệu.
D. Giá trị kinh tế tiềm năng mà dữ liệu mang lại cho doanh nghiệp.

💡 Lời giải chi tiết:

Trong khoa học dữ liệu, 'Veracity' nhấn mạnh vào việc loại bỏ nhiễu và đảm bảo dữ liệu đầu vào đủ tin cậy để đưa ra quyết định chính xác. Kết luận Lý giải Độ tin cậy, tính chính xác và chất lượng của dữ liệu.

Câu 6: Nguyên tắc 'Data Minimization' (Tối thiểu hóa dữ liệu) theo quy định GDPR có nghĩa là gì?

A. Doanh nghiệp chỉ nên thu thập dữ liệu cá nhân thực sự cần thiết cho mục đích đã xác định.
B. Doanh nghiệp phải nén dữ liệu để tiết kiệm không gian lưu trữ trên đám mây.
C. Doanh nghiệp phải xóa toàn bộ dữ liệu khách hàng sau mỗi 12 tháng.
D. Doanh nghiệp chỉ được phép thu thập dữ liệu từ tối đa 1000 khách hàng mỗi năm.

💡 Lời giải chi tiết:

Theo quy định GDPR của EU, việc thu thập dữ liệu phải có giới hạn và chỉ tập trung vào những thông tin phục vụ trực tiếp cho các mục đích xử lý hợp pháp. Kết luận Lý giải Doanh nghiệp chỉ nên thu thập dữ liệu cá nhân thực sự cần thiết cho mục đích đã xác định.

Câu 7: Trong đánh giá rủi ro tín dụng, mô hình nào thường được ưu tiên nhờ khả năng giải thích (interpretability) cao cho các cơ quan quản lý?

A. Mạng nơ-ron sâu (Deep Neural Networks).
B. Hồi quy Logistic (Logistic Regression).
C. Máy vectơ hỗ trợ (Support Vector Machines).
D. Mạng đối chọi tạo sinh (Generative Adversarial Networks).

💡 Lời giải chi tiết:

Hồi quy Logistic cho phép các ngân hàng dễ dàng giải thích trọng số của từng yếu tố tài chính ảnh hưởng như thế nào đến khả năng vỡ nợ của khách hàng. Kết luận Lý giải Hồi quy Logistic (Logistic Regression).

Câu 8: Kỹ thuật 'Imputation' trong giai đoạn tiền xử lý dữ liệu được sử dụng để giải quyết vấn đề gì?

A. Dữ liệu bị trùng lặp nhiều lần trong cơ sở dữ liệu.
B. Dữ liệu có quá nhiều đặc trưng gây nhiễu mô hình.
C. Sự thiếu hụt các giá trị (missing values) trong tập dữ liệu.
D. Dữ liệu không tuân theo phân phối chuẩn.

💡 Lời giải chi tiết:

Kỹ thuật thay thế (Imputation) giúp lấp đầy các ô trống dữ liệu bằng các giá trị thống kê như trung bình, trung vị hoặc kết quả từ một mô hình dự báo. Kết luận Lý giải Sự thiếu hụt các giá trị (missing values) trong tập dữ liệu.

Câu 9: Tại sao độ đo 'Recall' thường quan trọng hơn 'Precision' trong bài toán phát hiện gian lận tài chính (Fraud Detection)?

A. Vì chi phí cho việc bỏ sót một giao dịch gian lận thường cao hơn nhiều so với việc kiểm tra nhầm một giao dịch hợp pháp.
B. Vì Precision không thể tính toán được khi tập dữ liệu bị mất cân bằng.
C. Vì Recall giúp mô hình chạy nhanh hơn trên các tập dữ liệu lớn.
D. Vì Recall tập trung vào việc giảm thiểu các trường hợp dương tính giả (False Positives).

💡 Lời giải chi tiết:

Trong phát hiện gian lận, việc tối đa hóa Recall đảm bảo bắt được càng nhiều hành vi gian lận càng tốt, ngay cả khi phải chấp nhận một số cảnh báo nhầm. Kết luận Lý giải Vì chi phí cho việc bỏ sót một giao dịch gian lận thường cao hơn nhiều so với việc kiểm tra nhầm một giao dịch hợp pháp.

Câu 10: Trong thử nghiệm A/B (A/B Testing) của marketing kỹ thuật số, giá trị 'p-value' nhỏ hơn mức ý nghĩa (ví dụ 0.05) cho thấy điều gì?

A. Sự khác biệt giữa hai phiên bản A và B là do ngẫu nhiên.
B. Sự khác biệt về hiệu quả giữa hai phiên bản là có ý nghĩa thống kê.
C. Kích thước mẫu thử nghiệm quá nhỏ để đưa ra kết luận.
D. Phiên bản A chắc chắn tốt hơn phiên bản B trong mọi điều kiện.

💡 Lời giải chi tiết:

Một giá trị p-value thấp cung cấp bằng chứng để bác bỏ giả thuyết không, cho thấy sự khác biệt quan sát được không đơn thuần là do may rủi. Kết luận Lý giải Sự khác biệt về hiệu quả giữa hai phiên bản là có ý nghĩa thống kê.

Câu 11: Thuật toán K-means thường được ứng dụng trong kinh doanh nhằm mục đích chính là gì?

A. Dự báo giá cổ phiếu trong 30 ngày tới.
B. Phân đoạn khách hàng (Customer Segmentation) dựa trên các đặc điểm tương đồng.
C. Xác định các từ khóa chính trong các đánh giá của khách hàng.
D. Phát hiện mối quan hệ nhân quả giữa chi tiêu quảng cáo và doanh thu.

💡 Lời giải chi tiết:

K-means là thuật toán học không giám sát phổ biến giúp doanh nghiệp nhóm các khách hàng có hành vi tương tự nhau để triển khai các chiến dịch marketing cá nhân hóa. Kết luận Lý giải Phân đoạn khách hàng (Customer Segmentation) dựa trên các đặc điểm tương đồng.

Câu 12: Biểu đồ hộp (Box Plot) là công cụ hữu ích nhất để thực hiện nhiệm vụ nào trong phân tích dữ liệu kinh doanh?

A. Thể hiện sự thay đổi của doanh thu theo thời gian.
B. Xác định các giá trị ngoại lai (outliers) và phân phối của dữ liệu.
C. Hiển thị tỷ lệ phần trăm thị phần của các đối thủ cạnh tranh.
D. Mô tả vị trí địa lý của các cửa hàng bán lẻ.

💡 Lời giải chi tiết:

Biểu đồ hộp cung cấp cái nhìn tổng quan về trung vị, các tứ phân vị và các điểm dữ liệu bất thường nằm ngoài phạm vi biến thiên thông thường. Kết luận Lý giải Xác định các giá trị ngoại lai (outliers) và phân phối của dữ liệu.

Câu 13: Sự khác biệt chính về triết lý lưu trữ giữa Data Warehouse và Data Lake là gì?

A. Data Warehouse sử dụng Schema-on-read, còn Data Lake sử dụng Schema-on-write.
B. Data Warehouse sử dụng Schema-on-write, còn Data Lake sử dụng Schema-on-read.
C. Data Warehouse chỉ lưu trữ dữ liệu thô, còn Data Lake chỉ lưu trữ dữ liệu đã qua xử lý.
D. Data Warehouse không hỗ trợ SQL, còn Data Lake thì có.

💡 Lời giải chi tiết:

Data Warehouse yêu cầu cấu trúc dữ liệu phải được xác định trước khi nạp vào (write), trong khi Data Lake cho phép lưu dữ liệu thô và chỉ xác định cấu trúc khi cần phân tích (read). Kết luận Lý giải Data Warehouse sử dụng Schema-on-write, còn Data Lake sử dụng Schema-on-read.

Câu 14: Quy trình ETL (Extract, Transform, Load) đóng vai trò gì trong kiến trúc dữ liệu của doanh nghiệp?

A. Chỉ thực hiện việc sao chép dữ liệu từ nguồn này sang nguồn khác.
B. Tích hợp và làm sạch dữ liệu từ nhiều nguồn khác nhau trước khi đưa vào kho lưu trữ tập trung.
C. Tạo ra các báo cáo trực quan cho ban giám đốc.
D. Xây dựng các mô hình học máy để dự báo doanh số.

💡 Lời giải chi tiết:

ETL là bước trung gian quan trọng để đảm bảo dữ liệu từ các hệ thống rời rạc được chuyển đổi về định dạng chuẩn hóa và đáng tin cậy để phân tích. Kết luận Lý giải Tích hợp và làm sạch dữ liệu từ nhiều nguồn khác nhau trước khi đưa vào kho lưu trữ tập trung.

Câu 15: Phân tích cảm xúc (Sentiment Analysis) sử dụng kỹ thuật nào để hiểu phản hồi của khách hàng về sản phẩm?

A. Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).
B. Phân tích chuỗi thời gian (Time Series Analysis).
C. Tối ưu hóa tuyến tính (Linear Optimization).
D. Phân tích cụm (Cluster Analysis).

💡 Lời giải chi tiết:

NLP cho phép máy tính hiểu, giải thích và phân loại sắc thái thái độ (tích cực, tiêu cực, trung tính) trong văn bản của con người. Kết luận Lý giải Xử lý ngôn ngữ tự nhiên (Natural Language Processing - NLP).

Câu 16: Kỹ thuật 'Regularization' (như Lasso hoặc Ridge) được áp dụng trong mô hình học máy với mục đích chính là gì?

A. Tăng tốc độ huấn luyện mô hình.
B. Ngăn ngừa hiện tượng quá khớp (overfitting) bằng cách phạt các trọng số quá lớn.
C. Tự động thu thập thêm dữ liệu mới từ internet.
D. Thay thế hoàn toàn bước làm sạch dữ liệu thủ công.

💡 Lời giải chi tiết:

Bằng cách thêm một thành phần phạt vào hàm mất mát, Regularization giúp mô hình đơn giản hóa và tăng khả năng tổng quát hóa trên dữ liệu mới. Kết luận Lý giải Ngăn ngừa hiện tượng quá khớp (overfitting) bằng cách phạt các trọng số quá lớn.

Câu 17: Trong phân tích giỏ hàng (Market Basket Analysis), chỉ số 'Lift' lớn hơn 1 giữa sản phẩm A và B có ý nghĩa gì?

A. Việc mua sản phẩm A và sản phẩm B là hai sự kiện độc lập hoàn toàn.
B. Khách hàng mua sản phẩm A có khả năng mua sản phẩm B cao hơn so với mức trung bình.
C. Sản phẩm A và sản phẩm B là các sản phẩm thay thế lẫn nhau.
D. Doanh thu của sản phẩm A luôn cao hơn sản phẩm B.

💡 Lời giải chi tiết:

Lift đo lường mức độ liên kết giữa hai sản phẩm; giá trị lớn hơn 1 cho thấy sự hiện diện của sản phẩm này làm tăng xác suất xuất hiện của sản phẩm kia. Kết luận Lý giải Khách hàng mua sản phẩm A có khả năng mua sản phẩm B cao hơn so với mức trung bình.

Câu 18: Tại sao mô hình Random Forest thường cho kết quả tốt hơn một cây quyết định (Decision Tree) đơn lẻ?

A. Vì nó sử dụng ít dữ liệu hơn nên giảm được nhiễu.
B. Vì nó kết hợp dự báo từ nhiều cây khác nhau để giảm phương sai và tăng độ ổn định.
C. Vì nó dễ dàng giải thích cho người dùng không có chuyên môn hơn.
D. Vì nó không yêu cầu bất kỳ bước tiền xử lý dữ liệu nào.

💡 Lời giải chi tiết:

Random Forest là một phương pháp học máy tập hợp (ensemble learning) giúp khắc phục nhược điểm dễ bị quá khớp của các cây quyết định đơn lẻ. Kết luận Lý giải Vì nó kết hợp dự báo từ nhiều cây khác nhau để giảm phương sai và tăng độ ổn định.

Câu 19: Thách thức lớn nhất khi tính toán ROI (Tỷ suất hoàn vốn) của các dự án khoa học dữ liệu là gì?

A. Không có công thức toán học nào để tính ROI.
B. Khó khăn trong việc tách biệt tác động của mô hình dữ liệu khỏi các yếu tố thị trường khác.
C. Chi phí lưu trữ dữ liệu luôn bằng không nên ROI luôn vô hạn.
D. Các thuật toán khoa học dữ liệu không thể đo lường bằng tiền tệ.

💡 Lời giải chi tiết:

Nhiều dự án khoa học dữ liệu mang lại giá trị gián tiếp hoặc dài hạn, khiến việc quy kết chính xác mức tăng trưởng doanh thu cho một mô hình cụ thể trở nên phức tạp. Kết luận Lý giải Khách hàng mua sản phẩm A có khả năng mua sản phẩm B cao hơn so với mức trung bình. (Lỗi logic kết luận - Sửa lại: Khó khăn trong việc tách biệt tác động của mô hình dữ liệu khỏi các yếu tố thị trường khác.)

Câu 20: Mục tiêu chính của việc sử dụng 'Lập chỉ mục' (Indexing) trong cơ sở dữ liệu kinh doanh là gì?

A. Để nén dữ liệu nhằm tiết kiệm dung lượng đĩa cứng.
B. Để tăng tốc độ truy xuất và tìm kiếm dữ liệu.
C. Để mã hóa dữ liệu nhằm bảo mật thông tin khách hàng.
D. Để tự động xóa các bản ghi cũ không còn sử dụng.

💡 Lời giải chi tiết:

Chỉ mục hoạt động giống như mục lục của một cuốn sách, giúp hệ quản trị cơ sở dữ liệu tìm thấy thông tin nhanh chóng mà không cần quét toàn bộ bảng. Kết luận Lý giải Để tăng tốc độ truy xuất và tìm kiếm dữ liệu.

Câu 21: Trong kỹ thuật đặc trưng (Feature Engineering), việc 'One-Hot Encoding' được thực hiện khi nào?

A. Khi cần chuyển đổi các biến phân loại (categorical) thành dạng số để mô hình có thể xử lý.
B. Khi cần chuẩn hóa các biến số về cùng một thang đo từ 0 đến 1.
C. Khi cần loại bỏ các biến có độ tương quan cao với nhau.
D. Khi cần tạo ra các biến mới dựa trên hàm logarit.

💡 Lời giải chi tiết:

Đa số các thuật toán học máy yêu cầu đầu vào là số, vì vậy One-Hot Encoding giúp biểu diễn các nhãn chữ thành các vector nhị phân. Kết luận Lý giải Khi cần chuyển đổi các biến phân loại (categorical) thành dạng số để mô hình có thể xử lý.

Câu 22: Yếu tố 'Tính mùa vụ' (Seasonality) trong phân tích chuỗi thời gian kinh doanh thường phản ánh điều gì?

A. Sự thay đổi dài hạn của dữ liệu trong nhiều thập kỷ.
B. Các biến động lặp đi lặp lại trong các khoảng thời gian cố định như tuần, tháng hoặc quý.
C. Các cú sốc ngẫu nhiên không thể dự báo trước như thiên tai.
D. Sự sụt giảm doanh thu vĩnh viễn do đối thủ mới gia nhập thị trường.

💡 Lời giải chi tiết:

Tính mùa vụ giúp doanh nghiệp hiểu được các chu kỳ nhu cầu định kỳ, từ đó lập kế hoạch tồn kho và nhân sự hiệu quả hơn. Kết luận Lý giải Các biến động lặp đi lặp lại trong các khoảng thời gian cố định như tuần, tháng hoặc quý.

Câu 23: Hệ thống khuyến nghị (Recommender Systems) sử dụng 'Collaborative Filtering' dựa trên nguyên lý nào?

A. Dựa trên mô tả chi tiết các thuộc tính của sản phẩm.
B. Dựa trên hành vi và sở thích tương đồng của những người dùng khác nhau.
C. Dựa trên giá tiền của sản phẩm từ thấp đến cao.
D. Dựa trên vị trí địa lý của kho hàng gần nhất.

💡 Lời giải chi tiết:

Lọc cộng tác giả định rằng nếu người dùng A và B có cùng quan điểm về một số mặt hàng, họ có khả năng sẽ đồng ý với nhau về những mặt hàng khác. Kết luận Lý giải Dựa trên hành vi và sở thích tương đồng của những người dùng khác nhau.

Câu 24: Trong kinh tế học dữ liệu, sự khác biệt giữa tương quan (correlation) và nhân quả (causation) là gì?

A. Tương quan luôn dẫn đến nhân quả trong mọi trường hợp dữ liệu lớn.
B. Tương quan chỉ đo lường sự biến thiên cùng nhau, còn nhân quả chỉ ra rằng một sự kiện thực sự làm thay đổi sự kiện kia.
C. Nhân quả dễ xác định hơn tương quan chỉ bằng cách quan sát dữ liệu lịch sử.
D. Tương quan chỉ áp dụng cho dữ liệu số, còn nhân quả chỉ áp dụng cho dữ liệu văn bản.

💡 Lời giải chi tiết:

Việc nhầm lẫn giữa tương quan và nhân quả có thể dẫn đến các quyết định kinh doanh sai lầm nếu không thực hiện các thử nghiệm kiểm chứng cẩn thận. Kết luận Lý giải Tương quan chỉ đo lường sự biến thiên cùng nhau, còn nhân quả chỉ ra rằng một sự kiện thực sự làm thay đổi sự kiện kia.

Câu 25: Mô hình phân tích RFM trong quản trị quan hệ khách hàng (CRM) bao gồm ba yếu tố nào?

A. Region (Khu vực), Frequency (Tần suất), Margin (Lợi nhuận).
B. Recency (Độ gần đây), Frequency (Tần suất), Monetary (Giá trị tiền tệ).
C. Retention (Giữ chân), Forecast (Dự báo), Marketing.
D. Reliability (Độ tin cậy), Feedback (Phản hồi), Management (Quản lý).

💡 Lời giải chi tiết:

RFM là phương pháp phân đoạn khách hàng dựa trên hành vi mua sắm thực tế để xác định nhóm khách hàng giá trị nhất. Kết luận Lý giải Recency (Độ gần đây), Frequency (Tần suất), Monetary (Giá trị tiền tệ).

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 5 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 263 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 280 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 297 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 115 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 131 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Bộ trắc nghiệm 148 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Khoa học dữ liệu trong kinh tế và kinh doanh

Kết quả của bạn:

Câu 1: Trong khoa học dữ liệu kinh doanh, sự khác biệt cốt lõi giữa dữ liệu có cấu trúc (structured data) và dữ liệu phi cấu trúc (unstructured data) là gì?

Câu 2: Loại hình phân tích nào trong khoa học dữ liệu tập trung vào việc trả lời câu hỏi 'Điều gì nên làm?' để tối ưu hóa kết quả kinh doanh?

Câu 3: Trong bối cảnh kinh tế, mô hình hồi quy tuyến tính thường được sử dụng nhất để thực hiện nhiệm vụ nào sau đây?

Câu 4: Khi xây dựng mô hình dự báo khách hàng rời bỏ (Churn Prediction), biến mục tiêu (target variable) thường có đặc điểm gì?

Câu 5: Đặc trưng 'Veracity' (Tính xác thực) trong mô hình 5V của Big Data đề cập đến vấn đề nào?

Câu 6: Nguyên tắc 'Data Minimization' (Tối thiểu hóa dữ liệu) theo quy định GDPR có nghĩa là gì?

Câu 7: Trong đánh giá rủi ro tín dụng, mô hình nào thường được ưu tiên nhờ khả năng giải thích (interpretability) cao cho các cơ quan quản lý?

Câu 8: Kỹ thuật 'Imputation' trong giai đoạn tiền xử lý dữ liệu được sử dụng để giải quyết vấn đề gì?

Câu 9: Tại sao độ đo 'Recall' thường quan trọng hơn 'Precision' trong bài toán phát hiện gian lận tài chính (Fraud Detection)?

Câu 10: Trong thử nghiệm A/B (A/B Testing) của marketing kỹ thuật số, giá trị 'p-value' nhỏ hơn mức ý nghĩa (ví dụ 0.05) cho thấy điều gì?

Câu 11: Thuật toán K-means thường được ứng dụng trong kinh doanh nhằm mục đích chính là gì?

Câu 12: Biểu đồ hộp (Box Plot) là công cụ hữu ích nhất để thực hiện nhiệm vụ nào trong phân tích dữ liệu kinh doanh?

Câu 13: Sự khác biệt chính về triết lý lưu trữ giữa Data Warehouse và Data Lake là gì?

Câu 14: Quy trình ETL (Extract, Transform, Load) đóng vai trò gì trong kiến trúc dữ liệu của doanh nghiệp?

Câu 15: Phân tích cảm xúc (Sentiment Analysis) sử dụng kỹ thuật nào để hiểu phản hồi của khách hàng về sản phẩm?

Câu 16: Kỹ thuật 'Regularization' (như Lasso hoặc Ridge) được áp dụng trong mô hình học máy với mục đích chính là gì?

Câu 17: Trong phân tích giỏ hàng (Market Basket Analysis), chỉ số 'Lift' lớn hơn 1 giữa sản phẩm A và B có ý nghĩa gì?

Câu 18: Tại sao mô hình Random Forest thường cho kết quả tốt hơn một cây quyết định (Decision Tree) đơn lẻ?

Câu 19: Thách thức lớn nhất khi tính toán ROI (Tỷ suất hoàn vốn) của các dự án khoa học dữ liệu là gì?

Câu 20: Mục tiêu chính của việc sử dụng 'Lập chỉ mục' (Indexing) trong cơ sở dữ liệu kinh doanh là gì?

Câu 21: Trong kỹ thuật đặc trưng (Feature Engineering), việc 'One-Hot Encoding' được thực hiện khi nào?

Câu 22: Yếu tố 'Tính mùa vụ' (Seasonality) trong phân tích chuỗi thời gian kinh doanh thường phản ánh điều gì?

Câu 23: Hệ thống khuyến nghị (Recommender Systems) sử dụng 'Collaborative Filtering' dựa trên nguyên lý nào?

Câu 24: Trong kinh tế học dữ liệu, sự khác biệt giữa tương quan (correlation) và nhân quả (causation) là gì?

Câu 25: Mô hình phân tích RFM trong quản trị quan hệ khách hàng (CRM) bao gồm ba yếu tố nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top