Quay lại danh mục Trắc nghiệm Xử lý ngôn ngữ tự nhiên

Trang chủ
Trắc nghiệm
Trắc nghiệm Xử lý ngôn ngữ tự nhiên
Bộ 6 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ 6 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Lưu ý: Nội dung trong bài Bộ 6 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Lemmatization' khác với 'Stemming' ở điểm cốt lõi nào?

A. Lemmatization chỉ đơn thuần cắt bỏ các tiền tố và hậu tố của từ theo quy tắc cứng nhắc.
B. Stemming luôn trả về một từ có nghĩa trong từ điển, còn Lemmatization thì không.
C. Lemmatization đưa từ về dạng từ điển (lemma) có nghĩa dựa trên phân tích hình thái, còn Stemming thường chỉ cắt bỏ phần đuôi từ.
D. Stemming yêu cầu phải có bộ phân tích cú pháp (parser) phức tạp hơn Lemmatization.

💡 Lời giải chi tiết:

Theo phân tích phổ biến, Lemmatization sử dụng kiến thức ngôn ngữ học để đưa từ về dạng gốc chính xác, trong khi Stemming thực hiện các quy tắc cắt tỉa ký tự đơn giản hơn. Kết luận Lý giải: Lemmatization đưa từ về dạng từ điển (lemma) có nghĩa dựa trên phân tích hình thái, còn Stemming thường chỉ cắt bỏ phần đuôi từ.

Câu 2: Mô hình Word2Vec sử dụng kiến trúc Skip-gram nhằm mục đích chính là gì?

A. Dự đoán từ mục tiêu dựa trên các từ ngữ cảnh xung quanh.
B. Dự đoán các từ ngữ cảnh xung quanh khi biết trước một từ mục tiêu.
C. Tính toán tần suất xuất hiện của từ trong toàn bộ văn bản.
D. Phân loại văn bản vào các chủ đề định sẵn.

💡 Lời giải chi tiết:

Trong kiến trúc Skip-gram của mô hình Word2Vec, thuật toán được thiết kế để sử dụng một từ hiện tại nhằm dự báo xác suất xuất hiện của các từ trong phạm vi ngữ cảnh. Kết luận Lý giải: Dự đoán các từ ngữ cảnh xung quanh khi biết trước một từ mục tiêu.

Câu 3: Chỉ số TF-IDF (Term Frequency - Inverse Document Frequency) được dùng để đánh giá điều gì trong một tập văn bản?

A. Độ dài trung bình của các câu trong một văn bản cụ thể.
B. Tốc độ xử lý của mô hình khi thực hiện phân loại văn bản.
C. Độ quan trọng của một từ đối với một văn bản trong một tập hợp nhiều văn bản.
D. Khả năng dự đoán từ tiếp theo trong một chuỗi ngôn ngữ.

💡 Lời giải chi tiết:

TF-IDF phản ánh mức độ quan trọng của từ bằng cách tăng giá trị theo số lần xuất hiện trong văn bản nhưng giảm đi nếu từ đó xuất hiện quá phổ biến ở mọi văn bản khác. Kết luận Lý giải: Độ quan trọng của một từ đối với một văn bản trong một tập hợp nhiều văn bản.

Câu 4: Tại sao cơ chế 'Attention' (Chú ý) lại giải quyết được nhược điểm của các mô hình RNN truyền thống trong dịch máy?

A. Vì nó loại bỏ hoàn toàn việc sử dụng các vector số để biểu diễn từ.
B. Vì nó cho phép mô hình tập trung vào các phần liên quan của câu đầu vào tại mỗi bước giải mã thay vì chỉ dùng một vector cố định.
C. Vì nó giúp mô hình chạy nhanh hơn bằng cách giảm số lượng tham số huấn luyện.
D. Vì nó chỉ xử lý các từ đứng đầu câu để tiết kiệm tài nguyên tính toán.

💡 Lời giải chi tiết:

Theo lý thuyết về Attention, cơ chế này giúp bộ giải mã (decoder) truy cập trực tiếp vào toàn bộ trạng thái của bộ mã hóa (encoder), từ đó khắc phục hiện tượng nghẽn cổ chai thông tin. Kết luận Lý giải: Vì nó cho phép mô hình tập trung vào các phần liên quan của câu đầu vào tại mỗi bước giải mã thay vì chỉ dùng một vector cố định.

Câu 5: Trong kiến trúc Transformer, 'Positional Encoding' (Mã hóa vị trí) được thêm vào với mục đích gì?

A. Để nén dữ liệu đầu vào giúp mô hình xử lý nhanh hơn.
B. Để cung cấp thông tin về thứ tự của các từ trong câu do Transformer xử lý song song và không có tính tuần tự tự nhiên.
C. Để xác định trọng số của các từ dừng (stop words) trong văn bản.
D. Để chuyển đổi các từ từ định dạng văn bản sang định dạng vector nhị phân.

💡 Lời giải chi tiết:

Do Transformer không xử lý dữ liệu theo trình tự như RNN, Positional Encoding là cần thiết để mô hình hiểu được cấu trúc thứ tự của các từ trong một câu. Kết luận Lý giải: Để cung cấp thông tin về thứ tự của các từ trong câu do Transformer xử lý song song và không có tính tuần tự tự nhiên.

Câu 6: Đặc điểm nổi bật nhất của mô hình BERT (Bidirectional Encoder Representations from Transformers) là gì?

A. Chỉ đọc văn bản theo chiều từ trái sang phải để dự đoán từ tiếp theo.
B. Sử dụng cơ chế học sâu để nén ảnh thành văn bản mô tả.
C. Khả năng học ngữ cảnh của từ từ cả hai phía (trái và phải) đồng thời trong tất cả các tầng kiến trúc.
D. Loại bỏ hoàn toàn cơ chế Self-Attention để tiết kiệm bộ nhớ.

💡 Lời giải chi tiết:

Theo công bố của Google, BERT khác biệt nhờ việc huấn luyện theo cơ chế 'masked language model' cho phép hiểu ngữ cảnh từ cả hai chiều một cách sâu sắc. Kết luận Lý giải: Khả năng học ngữ cảnh của từ từ cả hai phía (trái và phải) đồng thời trong tất cả các tầng kiến trúc.

Câu 7: Trong bài toán 'Named Entity Recognition' (NER), mục tiêu chính là gì?

A. Dịch một câu từ ngôn ngữ này sang ngôn ngữ khác.
B. Xác định và phân loại các thực thể định danh như tên người, tổ chức, địa điểm trong văn bản.
C. Tóm tắt một đoạn văn dài thành một câu ngắn gọn.
D. Kiểm tra lỗi chính tả và ngữ pháp trong một tài liệu.

💡 Lời giải chi tiết:

NER là một nhiệm vụ con của trích xuất thông tin nhằm tìm kiếm và gán nhãn các thành phần văn bản vào các nhóm đối tượng đã định nghĩa trước. Kết luận Lý giải: Xác định và phân loại các thực thể định danh như tên người, tổ chức, địa điểm trong văn bản.

Câu 8: Độ đo BLEU (Bilingual Evaluation Understudy) thường được sử dụng phổ biến nhất trong ứng dụng NLP nào?

A. Phân tích cảm xúc (Sentiment Analysis).
B. Dịch máy (Machine Translation).
C. Nhận dạng giọng nói (Speech Recognition).
D. Gán nhãn từ loại (POS Tagging).

💡 Lời giải chi tiết:

BLEU là một thuật toán dùng để đánh giá chất lượng văn bản đã được dịch máy bằng cách so sánh với các bản dịch tham chiếu của con người. Kết luận Lý giải: Dịch máy (Machine Translation).

Câu 9: Kỹ thuật 'Stop words removal' (Loại bỏ từ dừng) trong tiền xử lý văn bản nhằm mục đích gì?

A. Loại bỏ các từ mang ý nghĩa quan trọng nhất để làm nổi bật các từ phụ bổ trợ.
B. Loại bỏ các từ xuất hiện rất thường xuyên nhưng mang ít giá trị thông tin đặc trưng để giảm nhiễu dữ liệu.
C. Tăng số lượng đặc trưng đầu vào để mô hình học được nhiều chi tiết hơn.
D. Chuyển đổi các danh từ riêng thành các danh từ chung.

💡 Lời giải chi tiết:

Các từ dừng như 'and', 'the', 'là', 'của' thường xuất hiện nhiều nhưng không giúp ích nhiều trong việc phân loại chủ đề, nên việc loại bỏ chúng giúp tập trung vào các từ khóa chính. Kết luận Lý giải: Loại bỏ các từ xuất hiện rất thường xuyên nhưng mang ít giá trị thông tin đặc trưng để giảm nhiễu dữ liệu.

Câu 10: Trong mô hình ngôn ngữ N-gram, mô hình 'Trigram' sẽ tính xác suất của một từ dựa trên bao nhiêu từ đứng trước nó?

A. từ đứng trước.
B. từ đứng trước.
C. từ đứng trước.
D. Toàn bộ các từ trong câu.

💡 Lời giải chi tiết:

Theo định nghĩa về N-gram, một mô hình Trigram (N=3) tính toán xác suất của từ hiện tại dựa trên ngữ cảnh gồm 2 từ ngay trước nó. Kết luận Lý giải: 2 từ đứng trước.

Câu 11: Nhược điểm lớn nhất của mô hình túi từ 'Bag-of-Words' (BoW) là gì?

A. Yêu cầu sức mạnh tính toán quá lớn không thể thực hiện được.
B. Không thể xử lý được các con số trong văn bản.
C. Làm mất đi thông tin về thứ tự từ và cấu trúc ngữ pháp của câu.
D. Chỉ hoạt động được với các văn bản có độ dài dưới 100 từ.

💡 Lời giải chi tiết:

BoW biểu diễn văn bản dựa trên tần suất từ mà hoàn toàn lờ đi vị trí của chúng, dẫn đến việc hai câu có ý nghĩa khác nhau nhưng chung tập hợp từ sẽ có vector giống hệt nhau. Kết luận Lý giải: Làm mất đi thông tin về thứ tự từ và cấu trúc ngữ pháp của câu.

Câu 12: Khái niệm 'Perplexity' trong đánh giá mô hình ngôn ngữ đại diện cho điều gì?

A. Thời gian trung bình để mô hình sinh ra một câu hoàn chỉnh.
B. Độ đo mức độ 'ngạc nhiên' của mô hình đối với dữ liệu kiểm tra, giá trị càng thấp thì mô hình càng tốt.
C. Số lượng từ vựng mà mô hình có thể ghi nhớ được.
D. Tỷ lệ các từ viết sai chính tả mà mô hình có thể phát hiện.

💡 Lời giải chi tiết:

Perplexity đo lường khả năng dự đoán của mô hình ngôn ngữ trên tập dữ liệu mẫu; một giá trị perplexity thấp cho thấy mô hình dự đoán sát với thực tế hơn. Kết luận Lý giải: Độ đo mức độ 'ngạc nhiên' của mô hình đối với dữ liệu kiểm tra, giá trị càng thấp thì mô hình càng tốt.

Câu 13: Thuật toán 'Beam Search' thường được sử dụng trong bước nào của các mô hình Sequence-to-Sequence?

A. Giai đoạn tiền xử lý dữ liệu đầu vào.
B. Giai đoạn huấn luyện (training) để cập nhật trọng số.
C. Giai đoạn giải mã (decoding) để tìm ra chuỗi đầu ra tối ưu nhất.
D. Giai đoạn nhúng từ (word embedding) vào không gian vector.

💡 Lời giải chi tiết:

Beam Search giúp tìm ra chuỗi kết quả có xác suất tổng thể cao nhất bằng cách giữ lại một số lượng ứng viên (beam width) thay vì chỉ chọn từ tốt nhất tại mỗi bước như Greedy Search. Kết luận Lý giải: Giai đoạn giải mã (decoding) để tìm ra chuỗi đầu ra tối ưu nhất.

Câu 14: Phương pháp 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong NLP?

A. Tự động dịch văn bản sang mã máy.
B. Xử lý các từ nằm ngoài từ điển (Out-of-vocabulary) bằng cách chia nhỏ từ thành các đơn vị subword.
C. Tăng tốc độ đọc dữ liệu từ ổ cứng vào RAM.
D. Loại bỏ các ký tự đặc biệt không phải là chữ cái.

💡 Lời giải chi tiết:

BPE là một thuật toán mã hóa subword cho phép mô hình xử lý các từ hiếm hoặc từ mới bằng cách ghép nối các đơn vị ký tự phổ biến. Kết luận Lý giải: Xử lý các từ nằm ngoài từ điển (Out-of-vocabulary) bằng cách chia nhỏ từ thành các đơn vị subword.

Câu 15: Mục tiêu của kỹ thuật 'Dependency Parsing' trong xử lý ngôn ngữ là gì?

A. Xác định các mối quan hệ ngữ pháp giữa các từ trong một câu.
B. Đếm số lượng danh từ và động từ xuất hiện trong đoạn văn.
C. Phân loại văn bản thành cảm xúc tích cực hoặc tiêu cực.
D. Tìm kiếm các đoạn văn bản tương tự nhau trên internet.

💡 Lời giải chi tiết:

Dependency Parsing phân tích cấu trúc cú pháp của câu bằng cách xác định các mối liên hệ phụ thuộc giữa các từ 'chính' (head) và từ 'phụ' (dependent). Kết luận Lý giải: Xác định các mối quan hệ ngữ pháp giữa các từ trong một câu.

Câu 16: Tại sao các mô hình Transformer như GPT lại được gọi là mô hình 'Autoregressive' (Tự hồi quy)?

A. Vì chúng tự động sửa lỗi chính tả khi người dùng nhập văn bản.
B. Vì chúng dự đoán từ tiếp theo dựa trên chính các từ đã được sinh ra trước đó.
C. Vì chúng có khả năng tự huấn luyện mà không cần dữ liệu nhãn.
D. Vì chúng sử dụng các hàm toán học để đảo ngược thứ tự các từ trong câu.

💡 Lời giải chi tiết:

Tính chất Autoregressive có nghĩa là đầu ra của bước trước đó được đưa ngược lại làm đầu vào cho bước tiếp theo trong quá trình sinh văn bản. Kết luận Lý giải: Vì chúng dự đoán từ tiếp theo dựa trên chính các từ đã được sinh ra trước đó.

Câu 17: Trong ngữ cảnh huấn luyện các mô hình ngôn ngữ lớn (LLM), RLHF (Reinforcement Learning from Human Feedback) dùng để làm gì?

A. Để tăng tốc độ huấn luyện mô hình trên các phần cứng cũ.
B. Để căn chỉnh phản hồi của mô hình sao cho an toàn, hữu ích và phù hợp với mong đợi của con người.
C. Để nén kích thước mô hình giúp chạy được trên điện thoại di động.
D. Để thay thế hoàn toàn dữ liệu văn bản bằng dữ liệu hình ảnh.

💡 Lời giải chi tiết:

RLHF sử dụng các đánh giá của con người để tinh chỉnh mô hình, giúp nó hành xử theo cách có lợi và tránh sinh ra nội dung độc hại. Kết luận Lý giải: Để căn chỉnh phản hồi của mô hình sao cho an toàn, hữu ích và phù hợp với mong đợi của con người.

Câu 18: Sự khác biệt chính giữa 'One-hot encoding' và 'Word Embedding' là gì?

A. One-hot encoding tạo ra các vector dày đặc, còn Word Embedding tạo ra các vector thưa thớt.
B. Word Embedding biểu diễn từ dưới dạng vector số thực có số chiều thấp và mang ý nghĩa ngữ nghĩa, còn One-hot encoding thì không.
C. One-hot encoding yêu cầu mạng neural sâu, còn Word Embedding chỉ cần các phép toán cộng trừ.
D. Không có sự khác biệt nào, hai thuật ngữ này dùng để chỉ cùng một phương pháp.

💡 Lời giải chi tiết:

Word Embedding học được mối quan hệ giữa các từ trong không gian vector đa chiều, trong khi One-hot encoding chỉ gán một vị trí duy nhất và không thể hiện được sự tương đồng giữa các từ. Kết luận Lý giải: Word Embedding biểu diễn từ dưới dạng vector số thực có số chiều thấp và mang ý nghĩa ngữ nghĩa, còn One-hot encoding thì không.

Câu 19: Trong phân tích cảm xúc (Sentiment Analysis), phương pháp 'Aspect-based Sentiment Analysis' tập trung vào điều gì?

A. Chỉ xác định xem toàn bộ bài viết là khen hay chê một cách chung chung.
B. Đánh giá cảm xúc đối với từng thuộc tính hoặc khía cạnh cụ thể của một thực thể trong văn bản.
C. Đếm số lượng tính từ xuất hiện trong đoạn văn bản đó.
D. Phát hiện xem văn bản đó được viết bằng ngôn ngữ nào.

💡 Lời giải chi tiết:

Aspect-based Sentiment Analysis đi sâu vào chi tiết để biết khách hàng hài lòng về khía cạnh nào (ví dụ: 'thức ăn ngon') và không hài lòng về khía cạnh nào (ví dụ: 'phục vụ chậm'). Kết luận Lý giải: Đánh giá cảm xúc đối với từng thuộc tính hoặc khía cạnh cụ thể của một thực thể trong văn bản.

Câu 20: Tham số 'Temperature' (Nhiệt độ) trong quá trình lấy mẫu (sampling) của các mô hình sinh văn bản có tác dụng gì?

A. Điều chỉnh nhiệt độ phần cứng GPU khi đang chạy mô hình.
B. Kiểm soát độ ngẫu nhiên và tính sáng tạo của văn bản được sinh ra.
C. Xác định số lượng từ tối đa mà mô hình có thể tạo ra trong một lần.
D. Thay đổi ngôn ngữ đầu ra từ tiếng Anh sang tiếng Việt.

💡 Lời giải chi tiết:

Nhiệt độ cao làm cho phân phối xác suất phẳng hơn, tăng tính đa dạng/sáng tạo, trong khi nhiệt độ thấp làm cho mô hình chọn những từ có xác suất cao nhất một cách tự tin hơn. Kết luận Lý giải: Kiểm soát độ ngẫu nhiên và tính sáng tạo của văn bản được sinh ra.

Câu 21: Mô hình ngôn ngữ 'FastText' cải tiến điều gì so với Word2Vec?

A. Sử dụng các n-gram ký tự để biểu diễn từ, giúp xử lý tốt các từ hiếm và từ chưa từng thấy.
B. Loại bỏ hoàn toàn các vector số để chuyển sang dùng đồ thị.
C. Chỉ hoạt động hiệu quả với các câu cực ngắn dưới 5 từ.
D. Yêu cầu lượng dữ liệu huấn luyện ít hơn gấp 100 lần.

💡 Lời giải chi tiết:

Bằng cách xem một từ là tập hợp của các n-gram ký tự, FastText có thể tạo ra vector cho các từ bị lỗi chính tả hoặc từ mới dựa trên các thành phần cấu tạo nên nó. Kết luận Lý giải: Sử dụng các n-gram ký tự để biểu diễn từ, giúp xử lý tốt các từ hiếm và từ chưa từng thấy.

Câu 22: Thuật ngữ 'GloVe' (Global Vectors for Word Representation) dựa trên nguyên lý chính nào?

A. Dựa trên việc dự đoán từ tiếp theo trong một chuỗi Markov.
B. Kết hợp các thống kê toàn cục về sự đồng xuất hiện của các từ trong toàn bộ kho ngữ liệu.
C. Sử dụng các mạng neural tích chập (CNN) để xử lý văn bản.
D. Chỉ tập trung vào ngữ nghĩa của các danh từ riêng.

💡 Lời giải chi tiết:

GloVe là một mô hình học không giám sát được huấn luyện trên các thống kê đồng xuất hiện của các từ từ một kho ngữ liệu, nhằm tận dụng cả thông tin cục bộ và toàn cục. Kết luận Lý giải: Kết hợp các thống kê toàn cục về sự đồng xuất hiện của các từ trong toàn bộ kho ngữ liệu.

Câu 23: Trong bài toán tóm tắt văn bản, phương pháp 'Abstractive Summarization' khác với 'Extractive Summarization' như thế nào?

A. Abstractive summarization chỉ chọn lọc các câu có sẵn, còn Extractive summarization sinh ra câu mới.
B. Abstractive summarization tạo ra các câu mới chứa nội dung tóm tắt, trong khi Extractive summarization trích xuất nguyên văn các câu quan trọng từ bản gốc.
C. Extractive summarization luôn ngắn hơn Abstractive summarization.
D. Abstractive summarization không thể thực hiện được bằng các mô hình AI hiện đại.

💡 Lời giải chi tiết:

Tóm tắt trừu tượng (Abstractive) đòi hỏi mô hình hiểu nội dung và diễn đạt lại bằng ngôn từ mới, giống cách con người làm, thay vì chỉ cắt ghép (Extractive). Kết luận Lý giải: Abstractive summarization tạo ra các câu mới chứa nội dung tóm tắt, trong khi Extractive summarization trích xuất nguyên văn các câu quan trọng từ bản gốc.

Câu 24: Hàm 'Softmax' thường được dùng ở tầng cuối cùng của mô hình phân loại văn bản để làm gì?

A. Để nén dữ liệu đầu ra về dạng số nguyên 0 hoặc 1.
B. Để chuyển đổi các giá trị logit thành một phân phối xác suất có tổng bằng 1.
C. Để tăng tốc độ tính toán đạo hàm trong quá trình lan truyền ngược.
D. Để loại bỏ các trọng số có giá trị bằng 0 trong mạng neural.

💡 Lời giải chi tiết:

Hàm Softmax biến các điểm số (logits) thô của mô hình thành các giá trị xác suất giúp chúng ta dễ dàng diễn giải kết quả dự đoán cho từng lớp. Kết luận Lý giải: Để chuyển đổi các giá trị logit thành một phân phối xác suất có tổng bằng 1.

Câu 25: Trong NLP, hiện tượng 'Vanishing Gradient' (Biến mất đạo hàm) thường gây khó khăn nhất cho kiến trúc nào khi xử lý các câu dài?

A. Kiến trúc Transformer.
B. Mạng neural hồi quy (Simple RNN).
C. Mạng neural tích chập (CNN).
D. Mô hình túi từ (Bag-of-Words).

💡 Lời giải chi tiết:

Trong Simple RNN, khi tính toán đạo hàm qua nhiều bước thời gian, giá trị đạo hàm có thể trở nên cực nhỏ khiến các trọng số ở các bước đầu không được cập nhật hiệu quả. Kết luận Lý giải: Mạng neural hồi quy (Simple RNN).

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 7 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 262 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 279 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 296 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 113 lượt làm

Làm ngay

Bộ 11 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 130 lượt làm

Làm ngay

Bộ 12 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 147 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Kết quả của bạn:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Lemmatization' khác với 'Stemming' ở điểm cốt lõi nào?

Câu 2: Mô hình Word2Vec sử dụng kiến trúc Skip-gram nhằm mục đích chính là gì?

Câu 3: Chỉ số TF-IDF (Term Frequency - Inverse Document Frequency) được dùng để đánh giá điều gì trong một tập văn bản?

Câu 4: Tại sao cơ chế 'Attention' (Chú ý) lại giải quyết được nhược điểm của các mô hình RNN truyền thống trong dịch máy?

Câu 5: Trong kiến trúc Transformer, 'Positional Encoding' (Mã hóa vị trí) được thêm vào với mục đích gì?

Câu 6: Đặc điểm nổi bật nhất của mô hình BERT (Bidirectional Encoder Representations from Transformers) là gì?

Câu 7: Trong bài toán 'Named Entity Recognition' (NER), mục tiêu chính là gì?

Câu 8: Độ đo BLEU (Bilingual Evaluation Understudy) thường được sử dụng phổ biến nhất trong ứng dụng NLP nào?

Câu 9: Kỹ thuật 'Stop words removal' (Loại bỏ từ dừng) trong tiền xử lý văn bản nhằm mục đích gì?

Câu 10: Trong mô hình ngôn ngữ N-gram, mô hình 'Trigram' sẽ tính xác suất của một từ dựa trên bao nhiêu từ đứng trước nó?

Câu 11: Nhược điểm lớn nhất của mô hình túi từ 'Bag-of-Words' (BoW) là gì?

Câu 12: Khái niệm 'Perplexity' trong đánh giá mô hình ngôn ngữ đại diện cho điều gì?

Câu 13: Thuật toán 'Beam Search' thường được sử dụng trong bước nào của các mô hình Sequence-to-Sequence?

Câu 14: Phương pháp 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong NLP?

Câu 15: Mục tiêu của kỹ thuật 'Dependency Parsing' trong xử lý ngôn ngữ là gì?

Câu 16: Tại sao các mô hình Transformer như GPT lại được gọi là mô hình 'Autoregressive' (Tự hồi quy)?

Câu 17: Trong ngữ cảnh huấn luyện các mô hình ngôn ngữ lớn (LLM), RLHF (Reinforcement Learning from Human Feedback) dùng để làm gì?

Câu 18: Sự khác biệt chính giữa 'One-hot encoding' và 'Word Embedding' là gì?

Câu 19: Trong phân tích cảm xúc (Sentiment Analysis), phương pháp 'Aspect-based Sentiment Analysis' tập trung vào điều gì?

Câu 20: Tham số 'Temperature' (Nhiệt độ) trong quá trình lấy mẫu (sampling) của các mô hình sinh văn bản có tác dụng gì?

Câu 21: Mô hình ngôn ngữ 'FastText' cải tiến điều gì so với Word2Vec?

Câu 22: Thuật ngữ 'GloVe' (Global Vectors for Word Representation) dựa trên nguyên lý chính nào?

Câu 23: Trong bài toán tóm tắt văn bản, phương pháp 'Abstractive Summarization' khác với 'Extractive Summarization' như thế nào?

Câu 24: Hàm 'Softmax' thường được dùng ở tầng cuối cùng của mô hình phân loại văn bản để làm gì?

Câu 25: Trong NLP, hiện tượng 'Vanishing Gradient' (Biến mất đạo hàm) thường gây khó khăn nhất cho kiến trúc nào khi xử lý các câu dài?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top