Quay lại danh mục Trắc nghiệm Xử lý ngôn ngữ tự nhiên

Trang chủ
Trắc nghiệm
Trắc nghiệm Xử lý ngôn ngữ tự nhiên
Bộ 13 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ 13 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Tokenization' được định nghĩa là gì?

A. Quá trình chuyển đổi văn bản từ ngôn ngữ này sang ngôn ngữ khác.
B. Quá trình phân tách một chuỗi văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
C. Quá trình loại bỏ các từ dừng (stop words) khỏi văn bản.
D. Quá trình gán nhãn từ loại cho từng từ trong câu.

💡 Lời giải chi tiết:

Tokenization là bước tiền xử lý cơ bản nhằm chia nhỏ văn bản thành các token riêng lẻ để máy tính có thể phân tích dễ dàng hơn. Kết luận Lý giải Quá trình phân tách một chuỗi văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.

Câu 2: Điểm khác biệt cốt lõi giữa 'Stemming' và 'Lemmatization' là gì?

A. Lemmatization luôn nhanh hơn Stemming do không cần tra từ điển.
B. Stemming giữ nguyên ý nghĩa ngữ pháp còn Lemmatization chỉ cắt bỏ hậu tố.
C. Stemming dựa trên quy tắc cắt tỉa hậu tố thô bạo, trong khi Lemmatization tìm dạng gốc dựa trên từ điển và phân tích hình thái.
D. Cả hai đều luôn trả về cùng một kết quả cho mọi loại từ.

💡 Lời giải chi tiết:

Stemming thường chỉ sử dụng các quy tắc heuristic để cắt đuôi từ, trong khi Lemmatization đảm bảo từ trả về là một từ có nghĩa thực sự trong ngôn ngữ. Kết luận Lý giải Stemming dựa trên quy tắc cắt tỉa hậu tố thô bạo, trong khi Lemmatization tìm dạng gốc dựa trên từ điển và phân tích hình thái.

Câu 3: Trong mô hình N-gram, 'Bigram' được hiểu là gì?

A. Chuỗi gồm 3 từ liên tiếp trong văn bản.
B. Chuỗi gồm 2 từ liên tiếp trong văn bản.
C. Tần suất xuất hiện của một từ đơn lẻ.
D. Một từ có hai ý nghĩa khác nhau.

💡 Lời giải chi tiết:

N-gram là một chuỗi liên tiếp của N mục từ văn bản, trong đó n bằng 2 gọi là bigram. Kết luận Lý giải Chuỗi gồm 2 từ liên tiếp trong văn bản.

Câu 4: Chỉ số 'TF-IDF' thường được sử dụng trong NLP với mục đích chính là gì?

A. Để tính toán độ dài trung bình của các câu trong một đoạn văn.
B. Để đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu.
C. Để dự đoán từ tiếp theo trong một chuỗi ngôn ngữ.
D. Để kiểm tra lỗi chính tả trong văn bản.

💡 Lời giải chi tiết:

TF-IDF giúp xác định những từ mang tính đặc trưng cao cho một tài liệu bằng cách kết hợp tần suất xuất hiện và độ hiếm của từ đó trong toàn bộ tập dữ liệu. Kết luận Lý giải Để đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu.

Câu 5: Mô hình 'Skip-gram' trong thuật toán Word2Vec hoạt động theo cơ chế nào?

A. Sử dụng các từ xung quanh để dự đoán từ mục tiêu ở giữa.
B. Sử dụng một từ mục tiêu để dự đoán các từ xung quanh nó.
C. Chỉ tập trung vào việc đếm số lần xuất hiện của các từ.
D. Loại bỏ ngẫu nhiên các từ trong câu để tạo dữ liệu giả.

💡 Lời giải chi tiết:

Trái ngược với CBOW, mô hình Skip-gram lấy một từ làm đầu vào và cố gắng dự đoán các từ ngữ cảnh trong một phạm vi nhất định. Kết luận Lý giải Sử dụng một từ mục tiêu để dự đoán các từ xung quanh nó.

Câu 6: Trong kiến trúc mạng RNN, vấn đề 'Vanishing Gradient' gây ra khó khăn gì?

A. Khiến mô hình học quá nhanh và dẫn đến hiện tượng Overfitting.
B. Khiến mô hình khó học được các phụ thuộc xa (long-term dependencies) do tín hiệu lỗi bị triệt tiêu.
C. Làm tăng kích thước của các trọng số mạng lên vô hạn.
D. Khiến cho quá trình Tokenization bị sai lệch.

💡 Lời giải chi tiết:

Khi đạo hàm tiến dần về 0 trong quá trình lan truyền ngược qua nhiều bước thời gian, RNN không thể cập nhật trọng số hiệu quả cho các thông tin ở xa. Kết luận Lý giải Khiến mô hình khó học được các phụ thuộc xa (long-term dependencies) do tín hiệu lỗi bị triệt tiêu.

Câu 7: Kiến trúc mạng 'LSTM' (Long Short-Term Memory) giải quyết nhược điểm nào của RNN truyền thống?

A. Khả năng xử lý hình ảnh đi kèm với văn bản.
B. Khả năng lưu trữ thông tin trong thời gian dài thông qua cơ chế các cổng (gates).
C. Giảm bớt số lượng tham số cần huấn luyện.
D. Tăng tốc độ xử lý song song trên GPU.

💡 Lời giải chi tiết:

LSTM sử dụng các cổng đầu vào, cổng quên và cổng đầu ra để điều tiết luồng thông tin, giúp duy trì bộ nhớ dài hạn tốt hơn RNN. Kết luận Lý giải Khả năng lưu trữ thông tin trong thời gian dài thông qua cơ chế các cổng (gates).

Câu 8: Thành phần 'Attention Mechanism' trong mô hình Transformer có vai trò gì?

A. Nén toàn bộ câu thành một vector có kích thước cố định.
B. Cho phép mô hình tập trung vào các phần khác nhau của câu đầu vào khi tạo ra mỗi từ ở đầu ra.
C. Loại bỏ hoàn toàn các lớp kết nối đầy đủ (Fully Connected Layers).
D. Dùng để gán nhãn từ loại tự động.

💡 Lời giải chi tiết:

Cơ chế chú ý giúp mô hình xác định mức độ liên quan giữa các từ trong câu, từ đó xử lý ngữ cảnh tốt hơn mà không bị giới hạn bởi khoảng cách. Kết luận Lý giải Cho phép mô hình tập trung vào các phần khác nhau của câu đầu vào khi tạo ra mỗi từ ở đầu ra.

Câu 9: Mô hình BERT (Bidirectional Encoder Representations from Transformers) được huấn luyện dựa trên nhiệm vụ chính nào?

A. Dịch máy từ tiếng Anh sang tiếng Pháp.
B. Masked Language Modeling (MLM) và Next Sentence Prediction (NSP).
C. Dự đoán giá cổ phiếu dựa trên tin nhắn văn bản.
D. Chuyển đổi giọng nói thành văn bản.

💡 Lời giải chi tiết:

BERT sử dụng MLM để học ngữ cảnh hai chiều bằng cách che đi một số từ và NSP để hiểu mối quan hệ giữa các câu. Kết luận Lý giải Masked Language Modeling (MLM) và Next Sentence Prediction (NSP).

Câu 10: Đặc điểm chính của mô hình GPT (Generative Pre-trained Transformer) là gì?

A. Sử dụng cấu trúc Encoder của Transformer để phân loại văn bản.
B. Là mô hình tự hồi quy (autoregressive) sử dụng Decoder của Transformer để dự đoán từ tiếp theo.
C. Chỉ có thể xử lý văn bản ngắn dưới 100 từ.
D. Không yêu cầu dữ liệu huấn luyện lớn.

💡 Lời giải chi tiết:

GPT được thiết kế để tạo ra văn bản bằng cách dự đoán token kế tiếp dựa trên các token đã xuất hiện trước đó trong chuỗi. Kết luận Lý giải Là mô hình tự hồi quy (autoregressive) sử dụng Decoder của Transformer để dự đoán từ tiếp theo.

Câu 11: Nhiệm vụ 'Named Entity Recognition' (NER) trong NLP là làm gì?

A. Xác định cấu trúc cú pháp của câu.
B. Xác định và phân loại các thực thể định danh như tên người, tổ chức, địa điểm trong văn bản.
C. Tóm tắt một bài báo dài thành một đoạn văn ngắn.
D. Đếm số lượng danh từ có trong một câu.

💡 Lời giải chi tiết:

NER tập trung vào việc trích xuất các thông tin cụ thể mang tính định danh từ dữ liệu văn bản thô. Kết luận Lý giải Xác định và phân loại các thực thể định danh như tên người, tổ chức, địa điểm trong văn bản.

Câu 12: Độ đo 'BLEU score' thường được dùng để đánh giá chất lượng của hệ thống nào?

A. Hệ thống nhận dạng tiếng nói.
B. Hệ thống dịch máy tự động.
C. Hệ thống phân loại thư rác.
D. Hệ thống gợi ý sản phẩm.

💡 Lời giải chi tiết:

BLEU so sánh sự tương đồng giữa bản dịch của máy và bản dịch tham chiếu của con người dựa trên các n-gram trùng lặp. Kết luận Lý giải Hệ thống dịch máy tự động.

Câu 13: Kỹ thuật 'Stop words removal' có tác dụng gì trong tiền xử lý dữ liệu NLP?

A. Tăng thêm các từ mới vào tập dữ liệu để mô hình phong phú hơn.
B. Loại bỏ các từ phổ biến nhưng mang ít giá trị ý nghĩa như 'and', 'the', 'is' để giảm nhiễu.
C. Tự động sửa lỗi chính tả cho các từ quan trọng.
D. Chuyển tất cả các từ về dạng viết hoa.

💡 Lời giải chi tiết:

Loại bỏ từ dừng giúp mô hình tập trung vào những từ mang nhiều thông tin ngữ nghĩa hơn và giảm kích thước không gian vector. Kết luận Lý giải Loại bỏ các từ phổ biến nhưng mang ít giá trị ý nghĩa như 'and', 'the', 'is' để giảm nhiễu.

Câu 14: Trong NLP, 'Part-of-Speech (POS) Tagging' là quá trình gì?

A. Gán nhãn cho mỗi từ trong văn bản theo vai trò ngữ pháp của nó (danh từ, động từ, tính từ...).
B. Phân chia văn bản thành các đoạn văn nhỏ.
C. Chuyển đổi văn bản thành dạng âm thanh.
D. Dịch câu từ chủ động sang bị động.

💡 Lời giải chi tiết:

POS Tagging giúp hiểu được cấu trúc ngữ pháp của câu bằng cách xác định loại từ của mỗi thành phần. Kết luận Lý giải Gán nhãn cho mỗi từ trong văn bản theo vai trò ngữ pháp của nó (danh từ, động từ, tính từ...).

Câu 15: Mô hình 'Bag-of-Words' (BoW) có nhược điểm lớn nhất là gì?

A. Yêu cầu tài nguyên tính toán cực kỳ lớn.
B. Hoàn toàn bỏ qua thứ tự của các từ và cấu trúc ngữ pháp trong câu.
C. Không thể xử lý được các con số trong văn bản.
D. Chỉ hoạt động được với tiếng Anh.

💡 Lời giải chi tiết:

BoW chỉ quan tâm đến tần suất xuất hiện của từ mà không giữ lại thông tin về vị trí hay mối quan hệ giữa các từ. Kết luận Lý giải Hoàn toàn bỏ qua thứ tự của các từ và cấu trúc ngữ pháp trong câu.

Câu 16: Phương pháp 'Word Embedding' (như Word2Vec) khác với 'One-hot Encoding' ở điểm nào?

A. Word Embedding tạo ra các vector thưa thớt (sparse), One-hot tạo ra vector dày đặc (dense).
B. Word Embedding biểu diễn từ dưới dạng các vector số thực có số chiều thấp và mang thông tin ngữ nghĩa.
C. One-hot Encoding có khả năng nắm bắt được sự tương đồng giữa hai từ đồng nghĩa.
D. Không có sự khác biệt về bản chất giữa hai phương pháp này.

💡 Lời giải chi tiết:

Word Embedding ánh xạ các từ vào không gian vector sao cho các từ có ngữ cảnh giống nhau sẽ nằm gần nhau, điều mà One-hot không làm được. Kết luận Lý giải Word Embedding biểu diễn từ dưới dạng các vector số thực có số chiều thấp và mang thông tin ngữ nghĩa.

Câu 17: Chỉ số 'Perplexity' trong mô hình ngôn ngữ càng thấp thì có ý nghĩa gì?

A. Mô hình càng tồi và dự đoán càng ngẫu nhiên.
B. Mô hình càng tốt và có khả năng dự đoán chuỗi từ chính xác hơn.
C. Tập dữ liệu huấn luyện chứa quá nhiều lỗi.
D. Thời gian huấn luyện mô hình sẽ lâu hơn.

💡 Lời giải chi tiết:

Perplexity là thước đo độ bất ngờ của mô hình đối với dữ liệu, giá trị thấp chứng tỏ mô hình mô phỏng tốt quy luật của ngôn ngữ. Kết luận Lý giải Mô hình càng tốt và có khả năng dự đoán chuỗi từ chính xác hơn.

Câu 18: Kỹ thuật 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong NLP?

A. Vấn đề từ ngoài từ điển (Out-Of-Vocabulary - OOV) bằng cách chia nhỏ từ thành các subwords.
B. Vấn đề thiếu dữ liệu huấn luyện cho các ngôn ngữ hiếm.
C. Vấn đề mô hình quá nặng khi triển khai trên điện thoại.
D. Vấn đề dịch sai tên riêng của người nổi tiếng.

💡 Lời giải chi tiết:

BPE giúp mô hình xử lý được các từ hiếm hoặc từ mới bằng cách ghép nối các đơn vị ký tự hoặc chuỗi ký tự phổ biến. Kết luận Lý giải Vấn đề từ ngoài từ điển (Out-Of-Vocabulary - OOV) bằng cách chia nhỏ từ thành các subwords.

Câu 19: Khái niệm 'Sentiment Analysis' (Phân tích cảm xúc) thường chia văn bản thành các loại nhãn nào?

A. Danh từ, Động từ, Tính từ.
B. Tích cực (Positive), Tiêu cực (Negative), Trung tính (Neutral).
C. Câu hỏi, Câu trần thuật, Câu cảm thán.
D. Tiếng Việt, Tiếng Anh, Tiếng Pháp.

💡 Lời giải chi tiết:

Phân tích cảm xúc nhằm mục đích xác định thái độ hoặc cảm xúc của người viết thể hiện qua văn bản. Kết luận Lý giải Tích cực (Positive), Tiêu cực (Negative), Trung tính (Neutral).

Câu 20: Trong mô hình Transformer, lớp 'Positional Encoding' được dùng để làm gì?

A. Để nén kích thước của vector nhúng (embedding).
B. Để cung cấp thông tin về vị trí tương đối hoặc tuyệt đối của các từ trong một chuỗi.
C. Để mã hóa các từ thành các số nguyên dương.
D. Để tính toán xác suất của từ cuối cùng trong câu.

💡 Lời giải chi tiết:

Vì Transformer xử lý song song toàn bộ câu thay vì tuần tự, nó cần Positional Encoding để biết từ nào đứng trước từ nào. Kết luận Lý giải Để cung cấp thông tin về vị trí tương đối hoặc tuyệt đối của các từ trong một chuỗi.

Câu 21: Thế nào là 'Zero-shot learning' trong ngữ cảnh các mô hình ngôn ngữ lớn (LLM)?

A. Mô hình không cần bất kỳ dữ liệu huấn luyện nào từ đầu.
B. Mô hình có thể thực hiện một nhiệm vụ mới mà không cần thêm bất kỳ ví dụ minh họa nào trong câu lệnh.
C. Mô hình bị lỗi hoàn toàn và không đưa ra kết quả.
D. Mô hình chỉ có thể trả lời các câu hỏi về số 0.

💡 Lời giải chi tiết:

Zero-shot thể hiện khả năng tổng quát hóa cực cao của các mô hình như GPT-3, GPT-4 khi xử lý yêu cầu chỉ dựa trên tri thức đã học khi tiền huấn luyện. Kết luận Lý giải Mô hình có thể thực hiện một nhiệm vụ mới mà không cần thêm bất kỳ ví dụ minh họa nào trong câu lệnh.

Câu 22: Thuật toán 'Beam Search' thường được áp dụng ở giai đoạn nào của mô hình dịch máy?

A. Giai đoạn tiền xử lý văn bản.
B. Giai đoạn giải mã (decoding) để tìm ra chuỗi từ đầu ra tối ưu nhất.
C. Giai đoạn khởi tạo trọng số ngẫu nhiên.
D. Giai đoạn tính toán hàm mất mát (loss function).

💡 Lời giải chi tiết:

Beam Search giúp mở rộng không gian tìm kiếm thay vì chỉ chọn từ có xác suất cao nhất tại mỗi bước (Greedy Search), giúp kết quả dịch mượt mà hơn. Kết luận Lý giải Giai đoạn giải mã (decoding) để tìm ra chuỗi từ đầu ra tối ưu nhất.

Câu 23: Hàm 'Softmax' ở lớp cuối cùng của mô hình phân loại văn bản có vai trò gì?

A. Chuyển đổi các giá trị đầu ra (logits) thành một phân phối xác suất có tổng bằng 1.
B. Làm cho tất cả các giá trị đầu ra trở nên bằng nhau.
C. Loại bỏ các giá trị âm trong vector trọng số.
D. Tăng tốc độ hội tụ của thuật toán tối ưu hóa Adam.

💡 Lời giải chi tiết:

Softmax giúp mô hình đưa ra dự đoán dưới dạng xác suất cho từng lớp đối tượng, giúp dễ dàng xác định lớp có khả năng cao nhất. Kết luận Lý giải Chuyển đổi các giá trị đầu ra (logits) thành một phân phối xác suất có tổng bằng 1.

Câu 24: Trong NLP, 'Dependency Parsing' nhằm mục đích gì?

A. Đếm số lượng câu trong một văn bản.
B. Phân tích mối quan hệ phụ thuộc giữa các từ trong câu để xác định cấu trúc cú pháp.
C. Xác định xem hai câu có mâu thuẫn với nhau không.
D. Tự động dịch văn bản sang ngôn ngữ ký hiệu.

💡 Lời giải chi tiết:

Phân tích phụ thuộc giúp chỉ ra từ nào là trung tâm (head) và từ nào bổ nghĩa cho nó, tạo thành một biểu đồ cây. Kết luận Lý giải Phân tích mối quan hệ phụ thuộc giữa các từ trong câu để xác định cấu trúc cú pháp.

Câu 25: Độ đo 'ROUGE' (Recall-Oriented Understudy for Gisting Evaluation) thường dùng cho nhiệm vụ nào?

A. Phân loại thư rác.
B. Đánh giá chất lượng của các hệ thống tóm tắt văn bản tự động.
C. Kiểm tra độ tương đồng giữa hai hình ảnh.
D. Nhận diện giọng nói của người dùng.

💡 Lời giải chi tiết:

ROUGE đo lường mức độ trùng lặp của các đơn vị ngôn ngữ giữa bản tóm tắt do máy tạo ra và bản tóm tắt chuẩn của con người. Kết luận Lý giải Đánh giá chất lượng của các hệ thống tóm tắt văn bản tự động.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 14 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 181 lượt làm

Làm ngay

Bộ 15 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 198 lượt làm

Làm ngay

Bộ 1 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 160 lượt làm

Làm ngay

Bộ 2 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 177 lượt làm

Làm ngay

Bộ 3 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 194 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 211 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Kết quả của bạn:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Tokenization' được định nghĩa là gì?

Câu 2: Điểm khác biệt cốt lõi giữa 'Stemming' và 'Lemmatization' là gì?

Câu 3: Trong mô hình N-gram, 'Bigram' được hiểu là gì?

Câu 4: Chỉ số 'TF-IDF' thường được sử dụng trong NLP với mục đích chính là gì?

Câu 5: Mô hình 'Skip-gram' trong thuật toán Word2Vec hoạt động theo cơ chế nào?

Câu 6: Trong kiến trúc mạng RNN, vấn đề 'Vanishing Gradient' gây ra khó khăn gì?

Câu 7: Kiến trúc mạng 'LSTM' (Long Short-Term Memory) giải quyết nhược điểm nào của RNN truyền thống?

Câu 8: Thành phần 'Attention Mechanism' trong mô hình Transformer có vai trò gì?

Câu 9: Mô hình BERT (Bidirectional Encoder Representations from Transformers) được huấn luyện dựa trên nhiệm vụ chính nào?

Câu 10: Đặc điểm chính của mô hình GPT (Generative Pre-trained Transformer) là gì?

Câu 11: Nhiệm vụ 'Named Entity Recognition' (NER) trong NLP là làm gì?

Câu 12: Độ đo 'BLEU score' thường được dùng để đánh giá chất lượng của hệ thống nào?

Câu 13: Kỹ thuật 'Stop words removal' có tác dụng gì trong tiền xử lý dữ liệu NLP?

Câu 14: Trong NLP, 'Part-of-Speech (POS) Tagging' là quá trình gì?

Câu 15: Mô hình 'Bag-of-Words' (BoW) có nhược điểm lớn nhất là gì?

Câu 16: Phương pháp 'Word Embedding' (như Word2Vec) khác với 'One-hot Encoding' ở điểm nào?

Câu 17: Chỉ số 'Perplexity' trong mô hình ngôn ngữ càng thấp thì có ý nghĩa gì?

Câu 18: Kỹ thuật 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong NLP?

Câu 19: Khái niệm 'Sentiment Analysis' (Phân tích cảm xúc) thường chia văn bản thành các loại nhãn nào?

Câu 20: Trong mô hình Transformer, lớp 'Positional Encoding' được dùng để làm gì?

Câu 21: Thế nào là 'Zero-shot learning' trong ngữ cảnh các mô hình ngôn ngữ lớn (LLM)?

Câu 22: Thuật toán 'Beam Search' thường được áp dụng ở giai đoạn nào của mô hình dịch máy?

Câu 23: Hàm 'Softmax' ở lớp cuối cùng của mô hình phân loại văn bản có vai trò gì?

Câu 24: Trong NLP, 'Dependency Parsing' nhằm mục đích gì?

Câu 25: Độ đo 'ROUGE' (Recall-Oriented Understudy for Gisting Evaluation) thường dùng cho nhiệm vụ nào?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top