Bộ 13 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án
Thời gian còn lại: --:--
Kết quả của bạn:
Bạn đã đúng:
Bạn đã sai:
Tổng số câu:
Câu 1:Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Tokenization' được định nghĩa là gì?
💡 Lời giải chi tiết:
Tokenization là bước tiền xử lý cơ bản nhằm chia nhỏ văn bản thành các token riêng lẻ để máy tính có thể phân tích dễ dàng hơn. Kết luận Lý giải Quá trình phân tách một chuỗi văn bản thành các đơn vị nhỏ hơn như từ hoặc cụm từ.
Câu 2:Điểm khác biệt cốt lõi giữa 'Stemming' và 'Lemmatization' là gì?
💡 Lời giải chi tiết:
Stemming thường chỉ sử dụng các quy tắc heuristic để cắt đuôi từ, trong khi Lemmatization đảm bảo từ trả về là một từ có nghĩa thực sự trong ngôn ngữ. Kết luận Lý giải Stemming dựa trên quy tắc cắt tỉa hậu tố thô bạo, trong khi Lemmatization tìm dạng gốc dựa trên từ điển và phân tích hình thái.
Câu 3:Trong mô hình N-gram, 'Bigram' được hiểu là gì?
💡 Lời giải chi tiết:
N-gram là một chuỗi liên tiếp của N mục từ văn bản, trong đó n bằng 2 gọi là bigram. Kết luận Lý giải Chuỗi gồm 2 từ liên tiếp trong văn bản.
Câu 4:Chỉ số 'TF-IDF' thường được sử dụng trong NLP với mục đích chính là gì?
💡 Lời giải chi tiết:
TF-IDF giúp xác định những từ mang tính đặc trưng cao cho một tài liệu bằng cách kết hợp tần suất xuất hiện và độ hiếm của từ đó trong toàn bộ tập dữ liệu. Kết luận Lý giải Để đánh giá tầm quan trọng của một từ đối với một tài liệu trong một tập hợp các tài liệu.
Câu 5:Mô hình 'Skip-gram' trong thuật toán Word2Vec hoạt động theo cơ chế nào?
💡 Lời giải chi tiết:
Trái ngược với CBOW, mô hình Skip-gram lấy một từ làm đầu vào và cố gắng dự đoán các từ ngữ cảnh trong một phạm vi nhất định. Kết luận Lý giải Sử dụng một từ mục tiêu để dự đoán các từ xung quanh nó.
Câu 6:Trong kiến trúc mạng RNN, vấn đề 'Vanishing Gradient' gây ra khó khăn gì?
💡 Lời giải chi tiết:
Khi đạo hàm tiến dần về 0 trong quá trình lan truyền ngược qua nhiều bước thời gian, RNN không thể cập nhật trọng số hiệu quả cho các thông tin ở xa. Kết luận Lý giải Khiến mô hình khó học được các phụ thuộc xa (long-term dependencies) do tín hiệu lỗi bị triệt tiêu.
Câu 7:Kiến trúc mạng 'LSTM' (Long Short-Term Memory) giải quyết nhược điểm nào của RNN truyền thống?
💡 Lời giải chi tiết:
LSTM sử dụng các cổng đầu vào, cổng quên và cổng đầu ra để điều tiết luồng thông tin, giúp duy trì bộ nhớ dài hạn tốt hơn RNN. Kết luận Lý giải Khả năng lưu trữ thông tin trong thời gian dài thông qua cơ chế các cổng (gates).
Câu 8:Thành phần 'Attention Mechanism' trong mô hình Transformer có vai trò gì?
💡 Lời giải chi tiết:
Cơ chế chú ý giúp mô hình xác định mức độ liên quan giữa các từ trong câu, từ đó xử lý ngữ cảnh tốt hơn mà không bị giới hạn bởi khoảng cách. Kết luận Lý giải Cho phép mô hình tập trung vào các phần khác nhau của câu đầu vào khi tạo ra mỗi từ ở đầu ra.
Câu 9:Mô hình BERT (Bidirectional Encoder Representations from Transformers) được huấn luyện dựa trên nhiệm vụ chính nào?
💡 Lời giải chi tiết:
BERT sử dụng MLM để học ngữ cảnh hai chiều bằng cách che đi một số từ và NSP để hiểu mối quan hệ giữa các câu. Kết luận Lý giải Masked Language Modeling (MLM) và Next Sentence Prediction (NSP).
Câu 10:Đặc điểm chính của mô hình GPT (Generative Pre-trained Transformer) là gì?
💡 Lời giải chi tiết:
GPT được thiết kế để tạo ra văn bản bằng cách dự đoán token kế tiếp dựa trên các token đã xuất hiện trước đó trong chuỗi. Kết luận Lý giải Là mô hình tự hồi quy (autoregressive) sử dụng Decoder của Transformer để dự đoán từ tiếp theo.
Câu 11:Nhiệm vụ 'Named Entity Recognition' (NER) trong NLP là làm gì?
💡 Lời giải chi tiết:
NER tập trung vào việc trích xuất các thông tin cụ thể mang tính định danh từ dữ liệu văn bản thô. Kết luận Lý giải Xác định và phân loại các thực thể định danh như tên người, tổ chức, địa điểm trong văn bản.
Câu 12:Độ đo 'BLEU score' thường được dùng để đánh giá chất lượng của hệ thống nào?
💡 Lời giải chi tiết:
BLEU so sánh sự tương đồng giữa bản dịch của máy và bản dịch tham chiếu của con người dựa trên các n-gram trùng lặp. Kết luận Lý giải Hệ thống dịch máy tự động.
Câu 13:Kỹ thuật 'Stop words removal' có tác dụng gì trong tiền xử lý dữ liệu NLP?
💡 Lời giải chi tiết:
Loại bỏ từ dừng giúp mô hình tập trung vào những từ mang nhiều thông tin ngữ nghĩa hơn và giảm kích thước không gian vector. Kết luận Lý giải Loại bỏ các từ phổ biến nhưng mang ít giá trị ý nghĩa như 'and', 'the', 'is' để giảm nhiễu.
Câu 14:Trong NLP, 'Part-of-Speech (POS) Tagging' là quá trình gì?
💡 Lời giải chi tiết:
POS Tagging giúp hiểu được cấu trúc ngữ pháp của câu bằng cách xác định loại từ của mỗi thành phần. Kết luận Lý giải Gán nhãn cho mỗi từ trong văn bản theo vai trò ngữ pháp của nó (danh từ, động từ, tính từ...).
Câu 15:Mô hình 'Bag-of-Words' (BoW) có nhược điểm lớn nhất là gì?
💡 Lời giải chi tiết:
BoW chỉ quan tâm đến tần suất xuất hiện của từ mà không giữ lại thông tin về vị trí hay mối quan hệ giữa các từ. Kết luận Lý giải Hoàn toàn bỏ qua thứ tự của các từ và cấu trúc ngữ pháp trong câu.
Câu 16:Phương pháp 'Word Embedding' (như Word2Vec) khác với 'One-hot Encoding' ở điểm nào?
💡 Lời giải chi tiết:
Word Embedding ánh xạ các từ vào không gian vector sao cho các từ có ngữ cảnh giống nhau sẽ nằm gần nhau, điều mà One-hot không làm được. Kết luận Lý giải Word Embedding biểu diễn từ dưới dạng các vector số thực có số chiều thấp và mang thông tin ngữ nghĩa.
Câu 17:Chỉ số 'Perplexity' trong mô hình ngôn ngữ càng thấp thì có ý nghĩa gì?
💡 Lời giải chi tiết:
Perplexity là thước đo độ bất ngờ của mô hình đối với dữ liệu, giá trị thấp chứng tỏ mô hình mô phỏng tốt quy luật của ngôn ngữ. Kết luận Lý giải Mô hình càng tốt và có khả năng dự đoán chuỗi từ chính xác hơn.
Câu 18:Kỹ thuật 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong NLP?
💡 Lời giải chi tiết:
BPE giúp mô hình xử lý được các từ hiếm hoặc từ mới bằng cách ghép nối các đơn vị ký tự hoặc chuỗi ký tự phổ biến. Kết luận Lý giải Vấn đề từ ngoài từ điển (Out-Of-Vocabulary - OOV) bằng cách chia nhỏ từ thành các subwords.
Câu 19:Khái niệm 'Sentiment Analysis' (Phân tích cảm xúc) thường chia văn bản thành các loại nhãn nào?
💡 Lời giải chi tiết:
Phân tích cảm xúc nhằm mục đích xác định thái độ hoặc cảm xúc của người viết thể hiện qua văn bản. Kết luận Lý giải Tích cực (Positive), Tiêu cực (Negative), Trung tính (Neutral).
Câu 20:Trong mô hình Transformer, lớp 'Positional Encoding' được dùng để làm gì?
💡 Lời giải chi tiết:
Vì Transformer xử lý song song toàn bộ câu thay vì tuần tự, nó cần Positional Encoding để biết từ nào đứng trước từ nào. Kết luận Lý giải Để cung cấp thông tin về vị trí tương đối hoặc tuyệt đối của các từ trong một chuỗi.
Câu 21:Thế nào là 'Zero-shot learning' trong ngữ cảnh các mô hình ngôn ngữ lớn (LLM)?
💡 Lời giải chi tiết:
Zero-shot thể hiện khả năng tổng quát hóa cực cao của các mô hình như GPT-3, GPT-4 khi xử lý yêu cầu chỉ dựa trên tri thức đã học khi tiền huấn luyện. Kết luận Lý giải Mô hình có thể thực hiện một nhiệm vụ mới mà không cần thêm bất kỳ ví dụ minh họa nào trong câu lệnh.
Câu 22:Thuật toán 'Beam Search' thường được áp dụng ở giai đoạn nào của mô hình dịch máy?
💡 Lời giải chi tiết:
Beam Search giúp mở rộng không gian tìm kiếm thay vì chỉ chọn từ có xác suất cao nhất tại mỗi bước (Greedy Search), giúp kết quả dịch mượt mà hơn. Kết luận Lý giải Giai đoạn giải mã (decoding) để tìm ra chuỗi từ đầu ra tối ưu nhất.
Câu 23:Hàm 'Softmax' ở lớp cuối cùng của mô hình phân loại văn bản có vai trò gì?
💡 Lời giải chi tiết:
Softmax giúp mô hình đưa ra dự đoán dưới dạng xác suất cho từng lớp đối tượng, giúp dễ dàng xác định lớp có khả năng cao nhất. Kết luận Lý giải Chuyển đổi các giá trị đầu ra (logits) thành một phân phối xác suất có tổng bằng 1.
Phân tích phụ thuộc giúp chỉ ra từ nào là trung tâm (head) và từ nào bổ nghĩa cho nó, tạo thành một biểu đồ cây. Kết luận Lý giải Phân tích mối quan hệ phụ thuộc giữa các từ trong câu để xác định cấu trúc cú pháp.
Câu 25:Độ đo 'ROUGE' (Recall-Oriented Understudy for Gisting Evaluation) thường dùng cho nhiệm vụ nào?
💡 Lời giải chi tiết:
ROUGE đo lường mức độ trùng lặp của các đơn vị ngôn ngữ giữa bản tóm tắt do máy tạo ra và bản tóm tắt chuẩn của con người. Kết luận Lý giải Đánh giá chất lượng của các hệ thống tóm tắt văn bản tự động.