Quay lại danh mục Trắc nghiệm Xử lý ngôn ngữ tự nhiên

Trang chủ
Trắc nghiệm
Trắc nghiệm Xử lý ngôn ngữ tự nhiên
Bộ 7 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ 7 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào giúp đưa các biến thể của từ về một dạng gốc bằng cách cắt bỏ các hậu tố dựa trên các quy tắc cố định mà không cần tra từ điển?

A. Stemming
B. Lemmatization
C. Tokenization
D. POS Tagging

💡 Lời giải chi tiết:

Stemming sử dụng các quy tắc thuật toán để cắt bỏ phần đuôi của từ nhằm tìm về gốc từ, thường nhanh nhưng có thể tạo ra các từ không có nghĩa. Kết luận Lý giải Stemming.

Câu 2: Chỉ số TF-IDF (Term Frequency - Inverse Document Frequency) được sử dụng chủ yếu để làm gì trong các tác vụ phân tích văn bản?

A. Xác định trọng số của một từ dựa trên tầm quan trọng của nó trong một văn bản và trong toàn bộ kho ngữ liệu
B. Đếm tổng số lượng từ xuất hiện trong một đoạn văn bản bất kỳ
C. Chuyển đổi văn bản thành các vector có độ dài cố định bằng cách trung bình cộng các giá trị word embedding
D. Xác định loại từ (danh từ, động từ, tính từ) của từng từ trong câu văn

💡 Lời giải chi tiết:

TF-IDF đánh giá tầm quan trọng của một từ bằng cách kết hợp tần suất xuất hiện tại chỗ và tỷ lệ nghịch với mức độ phổ biến của nó trên toàn bộ tập dữ liệu. Kết luận Lý giải Xác định trọng số của một từ dựa trên tầm quan trọng của nó trong một văn bản và trong toàn bộ kho ngữ liệu.

Câu 3: Trong mô hình Word2Vec, kiến trúc Skip-gram hoạt động dựa trên nguyên lý cốt lõi nào?

A. Dùng các từ ngữ cảnh xung quanh để dự đoán từ mục tiêu ở giữa
B. Dùng một từ mục tiêu duy nhất để dự đoán các từ ngữ cảnh xung quanh nó
C. Kết hợp nhiều câu văn để dự đoán chủ đề chính của văn bản
D. Sử dụng ma trận phân rã để giảm chiều dữ liệu của kho ngữ liệu

💡 Lời giải chi tiết:

Kiến trúc Skip-gram lấy một từ làm đầu vào và cố gắng dự đoán xác suất xuất hiện của các từ nằm trong cửa sổ ngữ cảnh xung quanh từ đó. Kết luận Lý giải Dùng một từ mục tiêu duy nhất để dự đoán các từ ngữ cảnh xung quanh nó.

Câu 4: Để đánh giá chất lượng của một mô hình ngôn ngữ (Language Model), chỉ số Perplexity (Độ hỗn loạn) nên có giá trị như thế nào để được coi là tốt?

A. Càng cao càng tốt
B. Bằng đúng số lượng từ trong từ điển
C. Càng thấp càng tốt
D. Luôn nằm trong khoảng từ 0 đến 1

💡 Lời giải chi tiết:

Perplexity đo lường mức độ bất ngờ của mô hình khi gặp dữ liệu mới, do đó giá trị càng thấp nghĩa là mô hình dự đoán càng chính xác. Kết luận Lý giải Càng thấp càng tốt.

Câu 5: Độ đo BLEU (Bilingual Evaluation Understudy) thường được ứng dụng phổ biến nhất trong việc đánh giá hiệu năng của tác vụ nào?

A. Phân loại cảm xúc (Sentiment Analysis)
B. Trích xuất thực thể có tên (NER)
C. Dịch máy (Machine Translation)
D. Tóm tắt văn bản tự động (Text Summarization)

💡 Lời giải chi tiết:

BLEU là độ đo so sánh sự tương đồng giữa bản dịch của máy và các bản dịch tham chiếu do con người thực hiện dựa trên sự trùng lặp n-gram. Kết luận Lý giải Dịch máy (Machine Translation).

Câu 6: Cơ chế 'Self-Attention' trong kiến trúc Transformer giải quyết vấn đề gì hiệu quả hơn so với mạng RNN truyền thống?

A. Giảm thiểu số lượng tham số cần huấn luyện trong mô hình
B. Xử lý song song dữ liệu và nắm bắt các phụ thuộc xa (long-range dependencies) trong câu
C. Loại bỏ hoàn toàn nhu cầu về tiền xử lý văn bản như tách từ
D. Đảm bảo mô hình luôn trả về kết quả có nghĩa về mặt ngữ pháp

💡 Lời giải chi tiết:

Self-Attention cho phép mô hình tính toán mối quan hệ giữa tất cả các từ trong câu cùng lúc, khắc phục hạn chế tính toán tuần tự và mất mát thông tin của RNN. Kết luận Lý giải Xử lý song song dữ liệu và nắm bắt các phụ thuộc xa (long-range dependencies) trong câu.

Câu 7: Mô hình BERT (Bidirectional Encoder Representations from Transformers) được xây dựng dựa trên thành phần nào của kiến trúc Transformer?

A. Chỉ phần Decoder
B. Cả hai phần Encoder và Decoder
C. Chỉ phần Encoder
D. Phần Linear Layer cuối cùng

💡 Lời giải chi tiết:

BERT sử dụng các lớp chồng chéo của Encoder từ Transformer để học biểu diễn ngôn ngữ theo cả hai chiều trái-phải và phải-trái đồng thời. Kết luận Lý giải Chỉ phần Encoder.

Câu 8: Tại sao việc tách từ (Tokenization) trong tiếng Việt lại được coi là một thách thức lớn hơn so với tiếng Anh?

A. Tiếng Việt không có các dấu câu để kết thúc câu văn
B. Khoảng trắng trong tiếng Việt không phải lúc nào cũng là ranh giới phân cách giữa các từ
C. Tiếng Việt có quá nhiều từ mượn từ tiếng nước ngoài
D. Tiếng Việt không sử dụng bảng chữ cái Latinh

💡 Lời giải chi tiết:

Trong tiếng Việt, khoảng trắng được dùng để phân tách các âm tiết, trong khi một từ có thể gồm nhiều âm tiết ghép lại, gây khó khăn cho việc xác định ranh giới từ. Kết luận Lý giải Khoảng trắng trong tiếng Việt không phải lúc nào cũng là ranh giới phân cách giữa các từ.

Câu 9: Kỹ thuật 'Stopwords removal' nhằm mục đích chính là gì trong giai đoạn tiền xử lý dữ liệu NLP?

A. Loại bỏ các từ xuất hiện quá ít để tránh nhiễu dữ liệu
B. Loại bỏ các từ phổ biến nhưng mang ít giá trị ngữ nghĩa để tập trung vào các từ quan trọng
C. Sửa lỗi chính tả cho các từ xuất hiện trong văn bản
D. Chuyển đổi toàn bộ văn bản về dạng chữ thường

💡 Lời giải chi tiết:

Việc loại bỏ các hư từ như 'và', 'của', 'là' giúp giảm chiều không gian đặc trưng và tập trung vào các từ chứa nội dung chính của văn bản. Kết luận Lý giải Loại bỏ các từ phổ biến nhưng mang ít giá trị ngữ nghĩa để tập trung vào các từ quan trọng.

Câu 10: Nhiệm vụ chính của bài toán Named Entity Recognition (NER) là gì?

A. Dịch một thực thể từ ngôn ngữ này sang ngôn ngữ khác
B. Xác định và phân loại các thực thể như tên người, địa điểm, tổ chức trong văn bản
C. Đếm số lần xuất hiện của các danh từ riêng trong một đoạn văn
D. Xác định mối quan hệ phụ thuộc cú pháp giữa các thực thể trong câu

💡 Lời giải chi tiết:

NER tập trung vào việc định vị và gán nhãn các đơn vị thông tin định danh vào các nhóm danh mục đã được xác định trước. Kết luận Lý giải Xác định và phân loại các thực thể như tên người, địa điểm, tổ chức trong văn bản.

Câu 11: Trong mạng LSTM (Long Short-Term Memory), thành phần nào chịu trách nhiệm quyết định thông tin nào từ trạng thái trước đó sẽ bị loại bỏ?

A. Input gate
B. Output gate
C. Forget gate
D. Update gate

💡 Lời giải chi tiết:

Cổng quên (Forget gate) sử dụng hàm sigmoid để quyết định mức độ giữ lại hoặc xóa bỏ thông tin từ trạng thái tế bào (cell state) cũ. Kết luận Lý giải Forget gate.

Câu 12: Khác biệt quan trọng nhất giữa Word2Vec và FastText là gì?

A. FastText xử lý từ dựa trên các ký tự n-gram (subwords), còn Word2Vec coi mỗi từ là một đơn vị nguyên tử
B. Word2Vec có tốc độ huấn luyện nhanh hơn nhiều so với FastText trên cùng một tập dữ liệu
C. FastText chỉ có thể hoạt động hiệu quả với ngôn ngữ tiếng Anh
D. Word2Vec sử dụng mạng nơ-ron sâu hơn so với kiến trúc của FastText

💡 Lời giải chi tiết:

FastText biểu diễn từ dưới dạng tập hợp các n-gram ký tự, giúp nó xử lý tốt các từ hiếm hoặc từ không nằm trong từ điển (OOV) tốt hơn Word2Vec. Kết luận Lý giải FastText xử lý từ dựa trên các ký tự n-gram (subwords), còn Word2Vec coi mỗi từ là một đơn vị nguyên tử.

Câu 13: Chiến lược 'Beam Search' trong các bài toán sinh văn bản (Text Generation) giúp khắc phục nhược điểm nào của 'Greedy Search'?

A. Giảm thời gian tính toán bằng cách chỉ chọn từ có xác suất cao nhất
B. Tránh việc rơi vào tối ưu cục bộ bằng cách duy trì nhiều giả thuyết tiềm năng thay vì chỉ một
C. Tăng tính đa dạng của văn bản bằng cách chọn từ ngẫu nhiên hoàn toàn
D. Đảm bảo độ dài của câu văn luôn đạt mức tối đa cho phép

💡 Lời giải chi tiết:

Beam Search mở rộng không gian tìm kiếm bằng cách giữ lại k ứng viên có tổng xác suất cao nhất tại mỗi bước thay vì chỉ chọn từ tốt nhất ngay lập tức. Kết luận Lý giải Tránh việc rơi vào tối ưu cục bộ bằng cách duy trì nhiều giả thuyết tiềm năng thay vì chỉ một.

Câu 14: Hàm kích hoạt (Activation Function) nào thường được sử dụng ở lớp cuối cùng của mô hình phân loại văn bản đa lớp (Multi-class Classification)?

A. ReLU
B. Sigmoid
C. Softmax
D. Tanh

💡 Lời giải chi tiết:

Hàm Softmax chuyển đổi các giá trị đầu ra thành một phân phối xác suất có tổng bằng 1, phù hợp cho việc chọn ra một lớp trong nhiều lớp. Kết luận Lý giải Softmax.

Câu 15: Khả năng 'Zero-shot learning' của các mô hình ngôn ngữ lớn (LLM) như GPT-4 có nghĩa là gì?

A. Mô hình cần được huấn luyện lại từ đầu cho mỗi nhiệm vụ mới
B. Mô hình có thể thực hiện một nhiệm vụ mới mà không cần bất kỳ ví dụ minh họa nào trong câu lệnh (prompt)
C. Mô hình chỉ có thể trả lời các câu hỏi về dữ liệu toán học
D. Mô hình yêu cầu hàng ngàn ví dụ gán nhãn để hiểu được yêu cầu của người dùng

💡 Lời giải chi tiết:

Zero-shot learning cho phép mô hình hoàn thành các tác vụ dựa trên kiến thức đã học trong quá trình pre-training mà không cần dữ liệu huấn luyện cụ thể cho tác vụ đó. Kết luận Lý giải Mô hình có thể thực hiện một nhiệm vụ mới mà không cần bất kỳ ví dụ minh họa nào trong câu lệnh (prompt).

Câu 16: Độ đo ROUGE (Recall-Oriented Understudy for Gisting Evaluation) thường được sử dụng ưu tiên để đánh giá tác vụ nào?

A. Dịch máy
B. Gán nhãn loại từ (POS Tagging)
C. Tóm tắt văn bản (Summarization)
D. Kiểm tra lỗi chính tả

💡 Lời giải chi tiết:

ROUGE tập trung vào độ triệu hồi (recall), đo lường mức độ bao phủ của bản tóm tắt máy so với bản tóm tắt chuẩn của con người. Kết luận Lý giải Tóm tắt văn bản (Summarization).

Câu 17: Trong bài toán gán nhãn loại từ (POS Tagging), hiện tượng một từ có thể đóng nhiều vai trò ngữ pháp khác nhau tùy ngữ cảnh được gọi là gì?

A. Tính đồng nhất (Homogeneity)
B. Sự nhập nhằng từ loại (POS Ambiguity)
C. Tính đa nghĩa (Polysemy)
D. Sự tương quan cú pháp (Syntactic correlation)

💡 Lời giải chi tiết:

Sự nhập nhằng từ loại xảy ra khi cùng một mặt chữ nhưng có thể là danh từ, động từ hoặc tính từ tùy vào vị trí và ý nghĩa trong câu. Kết luận Lý giải Sự nhập nhằng từ loại (POS Ambiguity).

Câu 18: Kỹ thuật 'Dropout' trong huấn luyện mạng nơ-ron cho NLP có vai trò chính là gì?

A. Tăng tốc độ hội tụ của mô hình lên gấp đôi
B. Ngăn chặn hiện tượng quá khớp (Overfitting) bằng cách vô hiệu hóa ngẫu nhiên các nơ-ron
C. Xóa bỏ các từ dừng (stopwords) khỏi dữ liệu đầu vào một cách tự động
D. Giảm kích thước của các vector word embedding

💡 Lời giải chi tiết:

Bằng cách ngắt kết nối ngẫu nhiên một tỷ lệ nơ-ron trong quá trình huấn luyện, Dropout buộc mô hình phải học các đặc trưng bền vững hơn thay vì phụ thuộc vào các kết nối cụ thể. Kết luận Lý giải Ngăn chặn hiện tượng quá khớp (Overfitting) bằng cách vô hiệu hóa ngẫu nhiên các nơ-ron.

Câu 19: Mô hình N-gram dựa trên giả thuyết Markov bậc k có nghĩa là gì?

A. Từ tiếp theo chỉ phụ thuộc vào toàn bộ các từ đã xuất hiện trước đó
B. Xác suất của một từ chỉ phụ thuộc vào k từ đứng ngay trước nó
C. Mọi từ trong câu đều có xác suất xuất hiện độc lập với nhau
D. Xác suất của từ được tính dựa trên tần suất của nó trong toàn bộ văn bản

💡 Lời giải chi tiết:

Giả thuyết Markov trong N-gram đơn giản hóa việc tính toán bằng cách giả định rằng ngữ cảnh chỉ giới hạn trong một số lượng từ cố định phía trước. Kết luận Lý giải Xác suất của một từ chỉ phụ thuộc vào k từ đứng ngay trước nó.

Câu 20: Phương pháp 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong Tokenization cho các mô hình ngôn ngữ hiện đại?

A. Tăng kích thước từ điển lên vô hạn để chứa mọi từ có thể
B. Cân bằng giữa việc tách theo ký tự và tách theo từ nguyên thể để xử lý từ hiếm
C. Loại bỏ hoàn toàn các ký tự đặc biệt và dấu câu
D. Chỉ giữ lại các từ có tần suất xuất hiện cao nhất trong tập dữ liệu

💡 Lời giải chi tiết:

BPE chia nhỏ các từ lạ thành các đơn vị dưới từ (subwords) phổ biến, giúp mô hình vẫn hiểu được ý nghĩa của các từ không có trong từ điển gốc. Kết luận Lý giải Cân bằng giữa việc tách theo ký tự và tách theo từ nguyên thể để xử lý từ hiếm.

Câu 21: Trong phân tích cú pháp (Parsing), 'Dependency Parsing' khác với 'Constituency Parsing' ở điểm nào?

A. Dependency Parsing tập trung vào cấu trúc phân cấp cụm từ (NP, VP), còn Constituency Parsing tập trung vào quan hệ giữa các từ đơn
B. Dependency Parsing tập trung vào mối quan hệ trực tiếp giữa các từ (head-dependent), còn Constituency Parsing tập trung vào cấu trúc phân cấp cụm từ
C. Dependency Parsing chỉ áp dụng được cho tiếng Anh, còn Constituency Parsing cho mọi ngôn ngữ
D. Constituency Parsing có tốc độ xử lý nhanh hơn đáng kể so với Dependency Parsing

💡 Lời giải chi tiết:

Dependency Parsing xây dựng sơ đồ các mũi tên chỉ mối liên kết giữa từ chính và từ phụ thuộc, trong khi Constituency Parsing chia câu thành các thành phần ngữ pháp lồng nhau. Kết luận Lý giải Dependency Parsing tập trung vào mối quan hệ trực tiếp giữa các từ (head-dependent), còn Constituency Parsing tập trung vào cấu trúc phân cấp cụm từ.

Câu 22: Mục tiêu của việc sử dụng 'Cosine Similarity' thay vì 'Euclidean Distance' khi so sánh các vector word embedding là gì?

A. Để tính toán khoảng cách ngắn nhất giữa hai điểm trong không gian
B. Để tập trung vào hướng của vector thay vì độ dài (tần suất) của chúng
C. Vì Cosine Similarity luôn cho kết quả là số nguyên
D. Để tăng độ phức tạp của các phép toán trong mạng nơ-ron

💡 Lời giải chi tiết:

Trong NLP, hướng của vector biểu thị ý nghĩa ngữ nghĩa, và Cosine Similarity giúp so sánh độ tương đồng này mà không bị ảnh hưởng bởi độ dài vector (thường liên quan đến tần suất từ). Kết luận Lý giải Để tập trung vào hướng của vector thay vì độ dài (tần suất) của chúng.

Câu 23: Kỹ thuật 'LoRA' (Low-Rank Adaptation) được sử dụng trong quá trình tinh chỉnh (Fine-tuning) mô hình ngôn ngữ lớn nhằm mục đích gì?

A. Thay thế hoàn toàn kiến trúc Transformer bằng kiến trúc mới nhẹ hơn
B. Giảm số lượng tham số cần cập nhật bằng cách thêm các ma trận có hạng thấp vào các lớp của mô hình
C. Tăng độ chính xác của mô hình lên mức tối đa bằng cách huấn luyện lại toàn bộ tham số
D. Chỉ cập nhật các tham số của lớp Embedding ban đầu

💡 Lời giải chi tiết:

LoRA cho phép thích ứng các mô hình khổng lồ với tài nguyên hạn chế bằng cách chỉ huấn luyện một nhóm nhỏ tham số bổ sung thay vì toàn bộ mô hình. Kết luận Lý giải Giảm số lượng tham số cần cập nhật bằng cách thêm các ma trận có hạng thấp vào các lớp của mô hình.

Câu 24: Tại sao các mô hình dựa trên Transformer (như GPT) cần có 'Positional Encoding'?

A. Để mã hóa thông tin về loại từ (danh từ/động từ) của mỗi từ
B. Để cung cấp thông tin về vị trí của các từ trong câu vì Transformer xử lý dữ liệu song song
C. Để giới hạn độ dài của câu đầu vào không vượt quá ngưỡng cho phép
D. Để đảm bảo các từ giống nhau luôn có cùng một vector biểu diễn

💡 Lời giải chi tiết:

Vì cơ chế Self-attention không quan tâm đến thứ tự từ, Positional Encoding được cộng thêm vào embedding để mô hình nhận biết được cấu trúc tuần tự của câu. Kết luận Lý giải Để cung cấp thông tin về vị trí của các từ trong câu vì Transformer xử lý dữ liệu song song.

Câu 25: Trong hệ thống dịch máy nơ-ron (NMT), thành phần 'Context Vector' được tạo ra từ đâu?

A. Từ các từ ngữ trong ngôn ngữ đích (target language)
B. Từ việc nén thông tin của toàn bộ câu đầu vào bởi bộ mã hóa (Encoder)
C. Từ một từ điển ngôn ngữ học được xây dựng thủ công
D. Từ kết quả của hàm Softmax ở lớp cuối cùng

💡 Lời giải chi tiết:

Context Vector đóng vai trò là 'tóm tắt' nội dung ngữ nghĩa của câu nguồn để bộ giải mã (Decoder) dựa vào đó sinh ra câu đích tương ứng. Kết luận Lý giải Từ việc nén thông tin của toàn bộ câu đầu vào bởi bộ mã hóa (Encoder).

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 8 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 279 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 296 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 113 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 130 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 147 lượt làm

Làm ngay

Bộ 13 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 164 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Kết quả của bạn:

Câu 1: Trong xử lý ngôn ngữ tự nhiên, kỹ thuật nào giúp đưa các biến thể của từ về một dạng gốc bằng cách cắt bỏ các hậu tố dựa trên các quy tắc cố định mà không cần tra từ điển?

Câu 2: Chỉ số TF-IDF (Term Frequency - Inverse Document Frequency) được sử dụng chủ yếu để làm gì trong các tác vụ phân tích văn bản?

Câu 3: Trong mô hình Word2Vec, kiến trúc Skip-gram hoạt động dựa trên nguyên lý cốt lõi nào?

Câu 4: Để đánh giá chất lượng của một mô hình ngôn ngữ (Language Model), chỉ số Perplexity (Độ hỗn loạn) nên có giá trị như thế nào để được coi là tốt?

Câu 5: Độ đo BLEU (Bilingual Evaluation Understudy) thường được ứng dụng phổ biến nhất trong việc đánh giá hiệu năng của tác vụ nào?

Câu 6: Cơ chế 'Self-Attention' trong kiến trúc Transformer giải quyết vấn đề gì hiệu quả hơn so với mạng RNN truyền thống?

Câu 7: Mô hình BERT (Bidirectional Encoder Representations from Transformers) được xây dựng dựa trên thành phần nào của kiến trúc Transformer?

Câu 8: Tại sao việc tách từ (Tokenization) trong tiếng Việt lại được coi là một thách thức lớn hơn so với tiếng Anh?

Câu 9: Kỹ thuật 'Stopwords removal' nhằm mục đích chính là gì trong giai đoạn tiền xử lý dữ liệu NLP?

Câu 10: Nhiệm vụ chính của bài toán Named Entity Recognition (NER) là gì?

Câu 11: Trong mạng LSTM (Long Short-Term Memory), thành phần nào chịu trách nhiệm quyết định thông tin nào từ trạng thái trước đó sẽ bị loại bỏ?

Câu 12: Khác biệt quan trọng nhất giữa Word2Vec và FastText là gì?

Câu 13: Chiến lược 'Beam Search' trong các bài toán sinh văn bản (Text Generation) giúp khắc phục nhược điểm nào của 'Greedy Search'?

Câu 14: Hàm kích hoạt (Activation Function) nào thường được sử dụng ở lớp cuối cùng của mô hình phân loại văn bản đa lớp (Multi-class Classification)?

Câu 15: Khả năng 'Zero-shot learning' của các mô hình ngôn ngữ lớn (LLM) như GPT-4 có nghĩa là gì?

Câu 16: Độ đo ROUGE (Recall-Oriented Understudy for Gisting Evaluation) thường được sử dụng ưu tiên để đánh giá tác vụ nào?

Câu 17: Trong bài toán gán nhãn loại từ (POS Tagging), hiện tượng một từ có thể đóng nhiều vai trò ngữ pháp khác nhau tùy ngữ cảnh được gọi là gì?

Câu 18: Kỹ thuật 'Dropout' trong huấn luyện mạng nơ-ron cho NLP có vai trò chính là gì?

Câu 19: Mô hình N-gram dựa trên giả thuyết Markov bậc k có nghĩa là gì?

Câu 20: Phương pháp 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong Tokenization cho các mô hình ngôn ngữ hiện đại?

Câu 21: Trong phân tích cú pháp (Parsing), 'Dependency Parsing' khác với 'Constituency Parsing' ở điểm nào?

Câu 22: Mục tiêu của việc sử dụng 'Cosine Similarity' thay vì 'Euclidean Distance' khi so sánh các vector word embedding là gì?

Câu 23: Kỹ thuật 'LoRA' (Low-Rank Adaptation) được sử dụng trong quá trình tinh chỉnh (Fine-tuning) mô hình ngôn ngữ lớn nhằm mục đích gì?

Câu 24: Tại sao các mô hình dựa trên Transformer (như GPT) cần có 'Positional Encoding'?

Câu 25: Trong hệ thống dịch máy nơ-ron (NMT), thành phần 'Context Vector' được tạo ra từ đâu?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top