Quay lại danh mục Trắc nghiệm Xử lý ngôn ngữ tự nhiên

Trang chủ
Trắc nghiệm
Trắc nghiệm Xử lý ngôn ngữ tự nhiên
Bộ 4 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ 4 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Lưu ý: Nội dung trong bài Bộ 4 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án chỉ dành cho mục đích tham khảo và học tập. Ban quản trị không chịu trách nhiệm về tính pháp lý hoặc kết quả thực tế khi áp dụng các thông tin này. Chúng tôi KHÔNG yêu cầu bất kỳ quyền truy cập nào vào hệ thống của bạn, KHÔNG theo dõi thao tác và KHÔNG thu thập dữ liệu cá nhân của bạn trong suốt quá trình làm bài.

Thời gian còn lại: --:--

Kết quả của bạn:

Bạn đã đúng:

Bạn đã sai:

Tổng số câu:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Tokenization' cấp độ từ trong tiếng Việt khác với tiếng Anh ở điểm cốt lõi nào?

A. Tiếng Việt sử dụng khoảng trắng để phân tách các âm tiết thay vì luôn phân tách các từ đơn lập như tiếng Anh.
B. Tiếng Việt không sử dụng khoảng trắng để phân tách bất kỳ thành phần nào trong câu.
C. Tiếng Anh yêu cầu phải loại bỏ dấu thanh trước khi thực hiện 'tokenization'.
D. Tiếng Việt luôn coi mỗi chữ cái là một 'token' riêng biệt trong mọi mô hình ngôn ngữ.

💡 Lời giải chi tiết:

Theo đặc điểm ngôn ngữ học, tiếng Việt là ngôn ngữ đơn lập nên khoảng trắng thường dùng để phân tách các âm tiết, dẫn đến việc một từ có thể bao gồm nhiều âm tiết cách nhau bởi khoảng trắng. Kết luận Lý giải Tiếng Việt sử dụng khoảng trắng để phân tách các âm tiết thay vì luôn phân tách các từ đơn lập như tiếng Anh.

Câu 2: Sự khác biệt chính giữa 'Stemming' và 'Lemmatization' trong quá trình tiền xử lý dữ liệu văn bản là gì?

A. Stemming luôn chuyển từ về dạng gốc có nghĩa trong từ điển, trong khi Lemmatization chỉ cắt bỏ hậu tố.
B. Lemmatization sử dụng phân tích từ pháp và từ điển để đưa từ về dạng gốc có nghĩa, còn Stemming thường chỉ cắt bỏ phần cuối từ theo quy tắc cảm tính.
C. Stemming chỉ áp dụng được cho tiếng Anh, còn Lemmatization áp dụng được cho mọi ngôn ngữ trên thế giới.
D. Lemmatization luôn có tốc độ xử lý nhanh hơn Stemming do không cần tra cứu cơ sở dữ liệu từ vựng.

💡 Lời giải chi tiết:

Lemmatization thực hiện phân tích ngữ nghĩa và hình thái học để trả về 'lemma' (từ gốc có nghĩa), trong khi Stemming cắt tỉa ký tự dựa trên các quy tắc heuristics đơn giản. Kết luận Lý giải Lemmatization sử dụng phân tích từ pháp và từ điển để đưa từ về dạng gốc có nghĩa, còn Stemming thường chỉ cắt bỏ phần cuối từ theo quy tắc cảm tính.

Câu 3: Trong công thức TF-IDF, thành phần 'IDF' (Inverse Document Frequency) đóng vai trò chủ chốt nào?

A. Tăng trọng số cho các từ xuất hiện cực kỳ phổ biến trong tất cả các văn bản của tập dữ liệu.
B. Đếm tổng số lượng từ có trong một văn bản cụ thể để tính toán độ dài trung bình.
C. Giảm trọng số của các từ xuất hiện quá thường xuyên trong nhiều văn bản và nhấn mạnh các từ mang tính đặc trưng cao.
D. Loại bỏ hoàn toàn các từ dừng (stop words) ra khỏi vector đặc trưng của văn bản.

💡 Lời giải chi tiết:

IDF đo lường mức độ quan trọng của một từ bằng cách tính nghịch đảo tần suất xuất hiện của nó trên toàn bộ tập văn bản, giúp lọc bỏ các từ chung chung. Kết luận Lý giải Giảm trọng số của các từ xuất hiện quá thường xuyên trong nhiều văn bản và nhấn mạnh các từ mang tính đặc trưng cao.

Câu 4: Mô hình 'Skip-gram' trong kiến trúc Word2Vec hoạt động dựa trên nguyên lý cơ bản nào?

A. Sử dụng các từ ngữ cảnh xung quanh để dự đoán từ mục tiêu ở giữa.
B. Sử dụng một từ mục tiêu hiện tại để dự đoán các từ ngữ cảnh xung quanh nó.
C. Tính toán xác suất xuất hiện của một từ dựa trên thứ tự bảng chữ cái của các từ đứng trước.
D. Mã hóa văn bản thành các vector thưa thớt dựa trên tần suất xuất hiện của các ký tự đơn lẻ.

💡 Lời giải chi tiết:

Trong Word2Vec, kiến trúc Skip-gram được thiết kế để lấy một từ làm đầu vào và cố gắng dự đoán phân phối xác suất của các từ lân cận trong một cửa sổ nhất định. Kết luận Lý giải Sử dụng một từ mục tiêu hiện tại để dự đoán các từ ngữ cảnh xung quanh nó.

Câu 5: Tại sao cơ chế 'Attention' (Chú ý) lại tạo ra bước đột phá cho các mô hình dịch máy so với kiến trúc RNN truyền thống?

A. Vì nó cho phép mô hình tập trung vào các phần quan trọng của câu đầu vào khi tạo ra mỗi từ ở câu đầu ra, thay vì chỉ dựa vào một vector trạng thái cố định.
B. Vì nó giúp giảm số lượng tham số của mô hình xuống mức tối thiểu để chạy được trên các thiết bị di động yếu.
C. Vì nó loại bỏ hoàn toàn nhu cầu sử dụng dữ liệu gán nhãn trong quá trình huấn luyện mô hình ngôn ngữ.
D. Vì nó buộc mô hình phải xử lý văn bản theo thứ tự từ phải sang trái để hiểu ngữ cảnh tốt hơn.

💡 Lời giải chi tiết:

Cơ chế Attention giải quyết hạn chế của vector ngữ cảnh có độ dài cố định trong RNN bằng cách cho phép bộ giải mã truy cập trực tiếp vào toàn bộ các trạng thái ẩn của bộ mã hóa. Kết luận Lý giải Vì nó cho phép mô hình tập trung vào các phần quan trọng của câu đầu vào khi tạo ra mỗi từ ở câu đầu ra, thay vì chỉ dựa vào một vector trạng thái cố định.

Câu 6: Đặc điểm nổi bật nhất của mô hình BERT (Bidirectional Encoder Representations from Transformers) là gì?

A. Chỉ đọc văn bản theo một chiều duy nhất từ trái sang phải để dự đoán từ tiếp theo.
B. Khả năng học ngữ cảnh của một từ từ cả hai phía trái và phải đồng thời trong tất cả các lớp của kiến trúc Transformer.
C. Sử dụng mạng nơ-ron tích chập (CNN) làm thành phần cốt lõi để xử lý chuỗi văn bản dài.
D. Hoàn toàn không sử dụng cơ chế 'Self-Attention' để tránh việc tính toán quá phức tạp.

💡 Lời giải chi tiết:

BERT tận dụng Masked Language Model để huấn luyện việc biểu diễn từ dựa trên ngữ cảnh hai chiều một cách sâu sắc, khác với các mô hình một chiều truyền thống. Kết luận Lý giải Khả năng học ngữ cảnh của một từ từ cả hai phía trái và phải đồng thời trong tất cả các lớp của kiến trúc Transformer.

Câu 7: Trong bài toán 'Named Entity Recognition' (NER), mục tiêu chính của hệ thống là gì?

A. Xác định xem một câu văn mang sắc thái biểu cảm tích cực hay tiêu cực.
B. Tóm tắt một đoạn văn bản dài thành một câu ngắn gọn mà vẫn giữ nguyên ý chính.
C. Định danh và phân loại các thực thể như tên người, tổ chức, địa điểm, thời gian trong văn bản.
D. Dịch tự động một văn bản từ ngôn ngữ nguồn sang ngôn ngữ đích một cách chính xác.

💡 Lời giải chi tiết:

NER là một nhiệm vụ con của trích xuất thông tin nhằm tìm kiếm và phân loại các thành phần định danh trong văn bản vào các loại thực thể đã được xác định trước. Kết luận Lý giải Định danh và phân loại các thực thể như tên người, tổ chức, địa điểm, thời gian trong văn bản.

Câu 8: Độ đo BLEU (Bilingual Evaluation Understudy) thường được sử dụng phổ biến nhất để đánh giá chất lượng của hệ thống nào?

A. Hệ thống lọc thư rác (Spam Filtering).
B. Hệ thống dịch máy tự động (Machine Translation).
C. Hệ thống nhận dạng giọng nói (Speech Recognition).
D. Hệ thống kiểm tra lỗi chính tả đơn thuần.

💡 Lời giải chi tiết:

BLEU tính toán mức độ tương đồng giữa bản dịch máy và các bản dịch tham chiếu của con người dựa trên sự trùng lặp của các n-gram. Kết luận Lý giải Hệ thống dịch máy tự động (Machine Translation).

Câu 9: Khái niệm 'Perplexity' trong các mô hình ngôn ngữ (Language Models) có ý nghĩa như thế nào?

A. Độ đo mức độ bất ngờ hoặc độ không chắc chắn của mô hình khi dự đoán một tập dữ liệu; giá trị càng thấp mô hình càng tốt.
B. Tổng số lượng từ vựng duy nhất mà mô hình có thể ghi nhớ được sau khi huấn luyện.
C. Thời gian trung bình để mô hình xử lý một câu văn có độ dài 100 từ.
D. Tỷ lệ phần trăm các từ bị mô hình dự đoán sai hoàn toàn về mặt ngữ pháp.

💡 Lời giải chi tiết:

Trong xác suất thống kê, Perplexity là một phép đo về khả năng dự báo của một phân phối xác suất hoặc mô hình xác suất đối với một mẫu dữ liệu. Kết luận Lý giải Độ đo mức độ bất ngờ hoặc độ không chắc chắn của mô hình khi dự đoán một tập dữ liệu; giá trị càng thấp mô hình càng tốt.

Câu 10: Hạn chế lớn nhất của phương pháp biểu diễn từ bằng 'One-hot encoding' là gì?

A. Yêu cầu quá nhiều tài nguyên tính toán để thực hiện các phép nhân ma trận đơn giản.
B. Tạo ra các vector có số chiều cực lớn và không thể hiện được mối quan hệ ngữ nghĩa giữa các từ.
C. Làm mất đi thứ tự xuất hiện của các ký tự trong một từ đơn lẻ.
D. Chỉ có thể biểu diễn được tối đa 1000 từ vựng khác nhau trong một hệ thống.

💡 Lời giải chi tiết:

One-hot encoding tạo ra các vector trực giao, nơi mọi cặp từ đều có khoảng cách bằng nhau, do đó không phản ánh được sự tương đồng về ngữ nghĩa giữa các từ như 'vua' và 'hoàng đế'. Kết luận Lý giải Tạo ra các vector có số chiều cực lớn và không thể hiện được mối quan hệ ngữ nghĩa giữa các từ.

Câu 11: Kỹ thuật 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong các mô hình ngôn ngữ hiện đại như GPT?

A. Nó giúp mô hình tự động sửa lỗi chính tả trong văn bản đầu vào.
B. Nó cho phép biểu diễn các từ hiếm hoặc từ chưa biết (Out-of-vocabulary) thông qua các đơn vị dưới cấp độ từ (subwords).
C. Nó tăng tốc độ huấn luyện bằng cách loại bỏ toàn bộ các dấu câu trong văn bản.
D. Nó đảm bảo mô hình không bao giờ tạo ra các nội dung mang tính định kiến hoặc độc hại.

💡 Lời giải chi tiết:

BPE là một hình thức nén dữ liệu lặp đi lặp lại việc thay thế các cặp byte phổ biến nhất bằng một byte đơn lẻ, cho phép mô hình linh hoạt xử lý các biến thể của từ. Kết luận Lý giải Nó cho phép biểu diễn các từ hiếm hoặc từ chưa biết (Out-of-vocabulary) thông qua các đơn vị dưới cấp độ từ (subwords).

Câu 12: Trong kiến trúc Transformer, tại sao cần sử dụng 'Positional Encoding'?

A. Để nén kích thước của vector nhúng từ xuống mức thấp hơn.
B. Vì Transformer không có cơ chế tuần tự (như RNN) nên cần cung cấp thông tin về vị trí của các từ trong câu.
C. Để xác định xem từ đó là danh từ, động từ hay tính từ trong câu.
D. Để đánh dấu sự kết thúc của một đoạn văn bản khi thực hiện tóm tắt.

💡 Lời giải chi tiết:

Do Transformer xử lý toàn bộ các từ trong câu song song thay vì tuần tự, thông tin về thứ tự từ bị mất nếu không có Positional Encoding để bù đắp. Kết luận Lý giải Vì Transformer không có cơ chế tuần tự (như RNN) nên cần cung cấp thông tin về vị trí của các từ trong câu.

Câu 13: Mô hình ngôn ngữ 'GPT' (Generative Pre-trained Transformer) chủ yếu sử dụng phần nào của kiến trúc Transformer gốc?

A. Chỉ sử dụng phần Encoder (Bộ mã hóa).
B. Chỉ sử dụng phần Decoder (Bộ giải mã).
C. Sử dụng cả Encoder và Decoder nối tiếp nhau.
D. Không sử dụng bất kỳ thành phần nào của Transformer gốc.

💡 Lời giải chi tiết:

Dòng mô hình GPT được xây dựng dựa trên kiến trúc 'decoder-only' của Transformer, được thiết kế cho các tác vụ sinh ngôn ngữ tự hồi quy. Kết luận Lý giải Chỉ sử dụng phần Decoder (Bộ giải mã).

Câu 14: Lợi ích chính của việc sử dụng 'Pre-trained models' (Mô hình đã huấn luyện trước) trong NLP là gì?

A. Giúp người dùng không cần phải thu thập bất kỳ dữ liệu nào cho bài toán của mình.
B. Tiết kiệm thời gian và tài nguyên tính toán bằng cách tận dụng kiến thức ngôn ngữ học từ các tập dữ liệu khổng lồ.
C. Đảm bảo mô hình luôn đạt độ chính xác 100% trên mọi loại dữ liệu văn bản.
D. Mô hình sẽ tự động cập nhật kiến thức mới từ Internet hàng ngày mà không cần huấn luyện lại.

💡 Lời giải chi tiết:

Việc sử dụng mô hình huấn luyện trước cho phép chuyển giao kiến thức (transfer learning), giúp các tác vụ hạ nguồn đạt hiệu suất cao với ít dữ liệu gán nhãn hơn. Kết luận Lý giải Tiết kiệm thời gian và tài nguyên tính toán bằng cách tận dụng kiến thức ngôn ngữ học từ các tập dữ liệu khổng lồ.

Câu 15: Thuật toán 'Word2Vec' tạo ra các vector nhúng (embeddings) có đặc điểm gì nổi bật?

A. Các từ có ý nghĩa tương đương sẽ có các vector nằm gần nhau trong không gian đa chiều.
B. Mọi từ trong từ điển đều được gán cho một vector ngẫu nhiên không đổi.
C. Vector của các danh từ luôn có độ dài lớn hơn vector của các động từ.
D. Chỉ các từ bắt đầu bằng chữ cái in hoa mới được chuyển thành vector.

💡 Lời giải chi tiết:

Word2Vec học các biểu diễn vector sao cho các từ xuất hiện trong ngữ cảnh tương tự sẽ có vị trí gần nhau, cho phép thực hiện các phép toán số học trên ý nghĩa của từ. Kết luận Lý giải Các từ có ý nghĩa tương đương sẽ có các vector nằm gần nhau trong không gian đa chiều.

Câu 16: Trong bài toán phân loại sắc thái văn bản (Sentiment Analysis), thách thức nào sau đây là khó giải quyết nhất?

A. Đếm số lượng từ xuất hiện trong câu văn.
B. Xử lý các câu mang tính mỉa mai, châm biếm (sarcasm) hoặc phủ định kép.
C. Loại bỏ các dấu chấm câu và dấu phẩy trong đoạn văn.
D. Chuyển đổi toàn bộ văn bản sang dạng chữ thường (lowercase).

💡 Lời giải chi tiết:

Sự mỉa mai thay đổi hoàn toàn ý nghĩa thực sự của câu so với nghĩa đen của các từ đơn lẻ, khiến các mô hình dựa trên từ khóa dễ dàng bị nhầm lẫn. Kết luận Lý giải Xử lý các câu mang tính mỉa mai, châm biếm (sarcasm) hoặc phủ định kép.

Câu 17: Mô hình 'ELMo' (Embeddings from Language Models) khác với Word2Vec ở điểm quan trọng nào?

A. ELMo không yêu cầu sử dụng mạng nơ-ron để huấn luyện.
B. ELMo tạo ra các vector nhúng động thay đổi tùy theo ngữ cảnh của từ trong câu, thay vì một vector tĩnh duy nhất cho mỗi từ.
C. ELMo chỉ hoạt động tốt với các văn bản cực ngắn như tin nhắn điện thoại.
D. ELMo sử dụng phương pháp đếm tần suất từ thay vì học sâu.

💡 Lời giải chi tiết:

ELMo sử dụng các biểu diễn từ được trích xuất từ các trạng thái ẩn của một mạng LSTM hai chiều được huấn luyện trên tập dữ liệu lớn, giúp giải quyết vấn đề từ đồng âm khác nghĩa. Kết luận Lý giải ELMo tạo ra các vector nhúng động thay đổi tùy theo ngữ cảnh của từ trong câu, thay vì một vector tĩnh duy nhất cho mỗi từ.

Câu 18: Trong 'Dependency Parsing' (Phân tích cú pháp phụ thuộc), nhiệm vụ chính là gì?

A. Xác định các mối quan hệ ngữ pháp giữa các từ (từ nào phụ thuộc vào từ nào).
B. Phân chia một câu thành các cụm từ (phrases) như cụm danh từ, cụm động từ.
C. Đếm xem có bao nhiêu tính từ xuất hiện trong một đoạn văn bản.
D. Dự đoán xác suất từ tiếp theo dựa trên cửa sổ ngữ cảnh 5 từ.

💡 Lời giải chi tiết:

Phân tích cú pháp phụ thuộc tập trung vào việc mô tả cấu trúc của một câu thông qua các liên kết giữa các từ 'đứng đầu' (head) và các từ 'phụ thuộc' (dependent). Kết luận Lý giải Xác định các mối quan hệ ngữ pháp giữa các từ (từ nào phụ thuộc vào từ nào).

Câu 19: Thành phần 'Softmax' ở lớp cuối cùng của một mô hình phân loại văn bản có tác dụng gì?

A. Chuyển đổi các điểm số đầu ra (logits) thành phân phối xác suất có tổng bằng 1.
B. Loại bỏ hoàn toàn các trọng số âm trong mạng nơ-ron.
C. Tăng tốc độ hội tụ của thuật toán lan truyền ngược.
D. Xác định các từ dừng cần loại bỏ trước khi phân loại.

💡 Lời giải chi tiết:

Hàm Softmax nén một vector các giá trị thực thành một vector các giá trị trong khoảng (0, 1) có tổng bằng 1, giúp diễn giải kết quả dưới dạng xác suất. Kết luận Lý giải Chuyển đổi các điểm số đầu ra (logits) thành phân phối xác suất có tổng bằng 1.

Câu 20: Kỹ thuật 'Data Augmentation' trong NLP thường được thực hiện bằng cách nào để tăng lượng dữ liệu huấn luyện?

A. Sao chép nguyên văn các tệp dữ liệu hiện có nhiều lần.
B. Sử dụng các kỹ thuật như thay thế từ bằng từ đồng nghĩa hoặc dịch ngược (Back-translation).
C. Xóa ngẫu nhiên 50% số lượng từ trong mỗi câu văn.
D. Thêm các ký tự ngẫu nhiên không có ý nghĩa vào giữa các từ.

💡 Lời giải chi tiết:

Tăng cường dữ liệu trong NLP nhằm tạo ra các mẫu mới có ý nghĩa tương đương nhưng hình thức khác nhau để mô hình học được sự đa dạng ngôn ngữ. Kết luận Lý giải Sử dụng các kỹ thuật như thay thế từ bằng từ đồng nghĩa hoặc dịch ngược (Back-translation).

Câu 21: Vấn đề 'Vanishing Gradient' (Biến mất đạo hàm) thường gặp trong mạng RNN truyền thống ảnh hưởng như thế nào đến xử lý văn bản?

A. Làm cho mô hình chạy quá nhanh dẫn đến kết quả không chính xác.
B. Khiến mô hình khó học được các mối quan hệ phụ thuộc xa giữa các từ trong một câu dài.
C. Làm cho kích thước của từ điển tăng lên vô hạn theo thời gian.
D. Buộc mô hình phải chuyển sang sử dụng phần cứng GPU thay vì CPU.

💡 Lời giải chi tiết:

Khi đạo hàm tiến dần về 0 qua nhiều bước thời gian, thông tin từ các từ ở đầu chuỗi không thể cập nhật hiệu quả cho các trọng số, làm mất khả năng nhớ dài hạn. Kết luận Lý giải Khiến mô hình khó học được các mối quan hệ phụ thuộc xa giữa các từ trong một câu dài.

Câu 22: Trong quá trình tiền xử lý, 'Stop words removal' (Loại bỏ từ dừng) có mục đích gì?

A. Loại bỏ các từ mang ít giá trị thông tin như 'và', 'của', 'là' để giảm nhiễu và kích thước dữ liệu.
B. Xóa bỏ các từ sai chính tả để làm sạch dữ liệu đầu vào.
C. Chuyển toàn bộ các danh từ riêng thành danh từ chung để đơn giản hóa bài toán.
D. Loại bỏ các câu văn quá dài để tiết kiệm bộ nhớ RAM.

💡 Lời giải chi tiết:

Từ dừng là các từ cực kỳ phổ biến nhưng thường không đóng góp nhiều vào việc phân biệt ý nghĩa cốt lõi của văn bản trong nhiều ứng dụng NLP. Kết luận Lý giải Loại bỏ các từ mang ít giá trị thông tin như 'và', 'của', 'là' để giảm nhiễu và kích thước dữ liệu.

Câu 23: Hệ thống 'Chatbot' dựa trên mô hình ngôn ngữ lớn (LLM) hiện nay sử dụng cơ chế nào để duy trì ngữ cảnh hội thoại?

A. Xóa toàn bộ bộ nhớ sau mỗi lần người dùng đặt câu hỏi mới.
B. Đưa toàn bộ hoặc một phần lịch sử hội thoại trước đó vào làm đầu vào (prompt) cho lần dự đoán tiếp theo.
C. Chỉ lưu trữ các từ khóa quan trọng nhất trong một bảng Excel riêng biệt.
D. Sử dụng một con người thật để can thiệp và nhắc nhở mô hình về nội dung cũ.

💡 Lời giải chi tiết:

Các LLM duy trì trạng thái hội thoại bằng cách xử lý lại các lượt chat trước đó nằm trong cửa sổ ngữ cảnh (context window) của chúng. Kết luận Lý giải Đưa toàn bộ hoặc một phần lịch sử hội thoại trước đó vào làm đầu vào (prompt) cho lần dự đoán tiếp theo.

Câu 24: Thuật toán 'Cosine Similarity' được dùng để làm gì trong NLP?

A. Để tính toán độ dài của một văn bản dựa trên số lượng ký tự.
B. Để đo lường mức độ tương đồng về hướng giữa hai vector biểu diễn văn bản hoặc từ ngữ.
C. Để tìm lỗi ngữ pháp trong các câu văn tiếng Anh.
D. Để đếm số lần xuất hiện của các chữ số trong tài liệu.

💡 Lời giải chi tiết:

Độ tương đồng Cosine đo góc giữa hai vector, giúp xác định mức độ giống nhau về nội dung mà không bị ảnh hưởng bởi độ dài (độ lớn vector) của văn bản. Kết luận Lý giải Để đo lường mức độ tương đồng về hướng giữa hai vector biểu diễn văn bản hoặc từ ngữ.

Câu 25: Mô hình 'RoBERTa' cải tiến BERT ở điểm nào để đạt hiệu suất cao hơn?

A. Sử dụng ít dữ liệu huấn luyện hơn để tránh tình trạng quá khớp (overfitting).
B. Loại bỏ nhiệm vụ dự đoán câu tiếp theo (NSP) và huấn luyện trên các lô dữ liệu lớn hơn với nhiều dữ liệu hơn.
C. Thay thế toàn bộ cơ chế Attention bằng mạng nơ-ron tích chập.
D. Chỉ tập trung vào việc xử lý các ngôn ngữ hiếm như tiếng Latinh.

💡 Lời giải chi tiết:

RoBERTa (Robustly Optimized BERT Approach) tối ưu hóa quá trình huấn luyện BERT bằng cách thay đổi các siêu tham số và loại bỏ nhiệm vụ NSP vốn được cho là không mang lại hiệu quả cao. Kết luận Lý giải Loại bỏ nhiệm vụ dự đoán câu tiếp theo (NSP) và huấn luyện trên các lô dữ liệu lớn hơn với nhiều dữ liệu hơn.

Danh sách trắc nghiệm Làm bài tiếp theo

Danh sách các bộ trắc nghiệm:

Các bài trắc nghiệm liên quan

Bộ 5 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 228 lượt làm

Làm ngay

Bộ 6 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 245 lượt làm

Làm ngay

Bộ 7 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 262 lượt làm

Làm ngay

Bộ 8 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 279 lượt làm

Làm ngay

Bộ 9 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 296 lượt làm

Làm ngay

Bộ 10 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Bộ trắc nghiệm 113 lượt làm

Làm ngay

Bộ 4 - Trắc nghiệm Xử lý ngôn ngữ tự nhiên online có đáp án

Kết quả của bạn:

Câu 1: Trong xử lý ngôn ngữ tự nhiên (NLP), kỹ thuật 'Tokenization' cấp độ từ trong tiếng Việt khác với tiếng Anh ở điểm cốt lõi nào?

Câu 2: Sự khác biệt chính giữa 'Stemming' và 'Lemmatization' trong quá trình tiền xử lý dữ liệu văn bản là gì?

Câu 3: Trong công thức TF-IDF, thành phần 'IDF' (Inverse Document Frequency) đóng vai trò chủ chốt nào?

Câu 4: Mô hình 'Skip-gram' trong kiến trúc Word2Vec hoạt động dựa trên nguyên lý cơ bản nào?

Câu 5: Tại sao cơ chế 'Attention' (Chú ý) lại tạo ra bước đột phá cho các mô hình dịch máy so với kiến trúc RNN truyền thống?

Câu 6: Đặc điểm nổi bật nhất của mô hình BERT (Bidirectional Encoder Representations from Transformers) là gì?

Câu 7: Trong bài toán 'Named Entity Recognition' (NER), mục tiêu chính của hệ thống là gì?

Câu 8: Độ đo BLEU (Bilingual Evaluation Understudy) thường được sử dụng phổ biến nhất để đánh giá chất lượng của hệ thống nào?

Câu 9: Khái niệm 'Perplexity' trong các mô hình ngôn ngữ (Language Models) có ý nghĩa như thế nào?

Câu 10: Hạn chế lớn nhất của phương pháp biểu diễn từ bằng 'One-hot encoding' là gì?

Câu 11: Kỹ thuật 'Byte Pair Encoding' (BPE) giải quyết vấn đề gì trong các mô hình ngôn ngữ hiện đại như GPT?

Câu 12: Trong kiến trúc Transformer, tại sao cần sử dụng 'Positional Encoding'?

Câu 13: Mô hình ngôn ngữ 'GPT' (Generative Pre-trained Transformer) chủ yếu sử dụng phần nào của kiến trúc Transformer gốc?

Câu 14: Lợi ích chính của việc sử dụng 'Pre-trained models' (Mô hình đã huấn luyện trước) trong NLP là gì?

Câu 15: Thuật toán 'Word2Vec' tạo ra các vector nhúng (embeddings) có đặc điểm gì nổi bật?

Câu 16: Trong bài toán phân loại sắc thái văn bản (Sentiment Analysis), thách thức nào sau đây là khó giải quyết nhất?

Câu 17: Mô hình 'ELMo' (Embeddings from Language Models) khác với Word2Vec ở điểm quan trọng nào?

Câu 18: Trong 'Dependency Parsing' (Phân tích cú pháp phụ thuộc), nhiệm vụ chính là gì?

Câu 19: Thành phần 'Softmax' ở lớp cuối cùng của một mô hình phân loại văn bản có tác dụng gì?

Câu 20: Kỹ thuật 'Data Augmentation' trong NLP thường được thực hiện bằng cách nào để tăng lượng dữ liệu huấn luyện?

Câu 21: Vấn đề 'Vanishing Gradient' (Biến mất đạo hàm) thường gặp trong mạng RNN truyền thống ảnh hưởng như thế nào đến xử lý văn bản?

Câu 22: Trong quá trình tiền xử lý, 'Stop words removal' (Loại bỏ từ dừng) có mục đích gì?

Câu 23: Hệ thống 'Chatbot' dựa trên mô hình ngôn ngữ lớn (LLM) hiện nay sử dụng cơ chế nào để duy trì ngữ cảnh hội thoại?

Câu 24: Thuật toán 'Cosine Similarity' được dùng để làm gì trong NLP?

Câu 25: Mô hình 'RoBERTa' cải tiến BERT ở điểm nào để đạt hiệu suất cao hơn?

Danh sách các bộ trắc nghiệm:

Voviethoang.top

Voviethoangseo.com

Seogenz.top