Có phải ChatGPT đang trở nên kém thông minh hơn?

26/07/2023

Nếu bạn thường xuyên sử dụng ChatGPT trong thời gian gần đây thì có thể bạn đã nhận thấy sự thay đổi trong những câu trả lời của nó. Trên các mạng xã hội như Twitter và Reddit, mọi người cũng đặt ra câu hỏi: có phải ChatGPT đang giảm chất lượng theo thời gian và trở nên kém thông minh hơn không?

Nội dung chính

ChatGPT đang trở nên kém thông minh hơn?
Nghiên cứu của Đại học Stanford về sự thay đổi của ChatGPT
OpenAI nói gì về sự thay đổi của ChatGPT?
Tóm lại

ChatGPT đang trở nên kém thông minh hơn?

Đó là điều mà nhiều người dùng ChatGPT đang thắc mắc. Trên thực tế, công ty OpenAI thường xuyên phát hành các bản cập nhật cho ChatGPT với mục đích điều chỉnh câu trả lời, độ an toàn và các yếu tố khác, bằng cách sử dụng phản hồi, lời nhắc và dữ liệu của người dùng để hướng dẫn cho AI.

ChatGPT từng được coi là giải pháp tuyệt vời cho hầu hết mọi vấn đề ở thời điểm mới ra mắt, nhưng ngày càng có nhiều người dùng báo cáo sự cố với câu trả lời của nó. Trong số đó, đặc biệt đáng chú ý là các vấn đề với kỹ năng lập luận, mã hóa và toán học của ChatGPT, ngoài ra nhiều người phát hiện rằng AI này cũng gặp khó khăn với các yêu cầu sáng tạo nội dung.

Cách dễ nhất để kiểm tra xem câu trả lời của ChatGPT đã thay đổi như thế nào qua thời gian là lặp lại câu hỏi đã sử dụng trước đó, nhất là từ những ngày đầu chatbot này mới ra mắt, và so sánh câu trả lời mà nó đưa ra. Các câu trả lời có chứa kết quả cụ thể, ví dụ như viết code và tính toán, có thể được so sánh và phân tích rõ ràng nhất.

Nghiên cứu của Đại học Stanford về sự thay đổi của ChatGPT

Một nhóm nghiên cứu của Đại học Stanford và UC Berkley cho thấy những ý kiến nói rằng ChatGPT đang thay đổi có thể là đúng. Bài báo của các tác giả Lingjiao Chen, Matei Zaharia và James Zou có tên “Hành vi của ChatGPT thay đổi như thế nào theo thời gian?” là một trong những nghiên cứu chuyên sâu đầu tiên về khả năng thay đổi của ChatGPT.

Bản tóm tắt của báo cáo viết rằng:

Chúng tôi nhận thấy hiệu suất và hành vi của cả GPT-3.5 và GPT-4 có thể khác nhau rất nhiều theo thời gian. Ví dụ: GPT-4 (tháng 3 năm 2023) rất giỏi trong việc xác định số nguyên tố (độ chính xác 97,6%) nhưng GPT-4 (tháng 6 năm 2023) lại rất kém trong các câu hỏi tương tự (độ chính xác 2,4%). Điều thú vị là GPT-3.5 (tháng 6 năm 2023) tốt hơn nhiều so với GPT-3.5 (tháng 3 năm 2023) trong nhiệm vụ này. GPT-4 ít sẵn sàng trả lời các câu hỏi nhạy cảm hơn vào tháng 6 so với tháng 3 và cả GPT-4 và GPT-3.5 đều có nhiều lỗi định dạng hơn trong quá trình viết code vào tháng 6 so với tháng 3.

Khi so sánh các bài toán mà ChatGPT có thể giải vào thời điểm đầu năm 2023, các câu trả lời của nó ở thời điểm sau này lại cực kỳ không chính xác. Hơn nữa ChatGPT còn giải thích chi tiết lý do tại sao câu trả lời của nó là đúng, mặc dù thực tế là sai. Hiện tượng này được gọi là “ảo giác của AI” và không phải là mới, nhưng các số liệu trong biểu đồ dưới đây cho thấy có sự thay đổi lớn về khả năng lập luận của ChatGPT.

Biểu đồ so sánh câu trả lời của ChatGPT thay đổi qua thời gian (Ảnh: Internet)

Bản báo cáo trên nhấn mạnh rằng các biểu đồ cho thấy câu trả lời của ChatGPT ngày càng kém chính xác hơn:

Độ chính xác của GPT-4 đã giảm từ 97,6% vào tháng 3 xuống 2,4% vào tháng 6 và độ chính xác của GPT-3.5 đã được cải thiện đáng kể, từ 7,4% lên 86,8%. Ngoài ra, câu trả lời của GPT-4 đã trở nên gọn hơn nhiều: độ chi tiết trung bình của nó (số ký tự được tạo ra) giảm từ 821,2 vào tháng 3 xuống còn 3,8 vào tháng 6. Trái lại, độ dài câu trả lời của GPT-3.5 đã tăng khoảng 40%. Sự trùng khớp câu trả lời giữa phiên bản tháng 3 và tháng 6 của chúng cũng nhỏ đối với cả hai.

Báo cáo giải thích rằng quy trình suy nghĩ của mô hình ngôn ngữ lớn của ChatGPT đã “không hoạt động” khi được yêu cầu trả lời các câu hỏi vào tháng 6. Sai lệch trong trò chuyện luôn là một vấn đề lớn của LLM nói chung, nhưng sự thay đổi đáng kể trong các câu trả lời cho thấy có vấn đề về chất lượng của ChatGPT.

OpenAI nói gì về sự thay đổi của ChatGPT?

Có phải chỉ là trùng hợp ngẫu nhiên khi cả người dùng thông thường và những người dùng chuyên nghiệp đều nhận thấy chất lượng của ChatGPT đã thay đổi? Bài báo nghiên cứu trên cho là không, nhưng Phó chủ tịch phụ trách Sản phẩm của OpenAI, Peter Welinder, lại nghĩ khác. Ông cho rằng khi mọi người sử dụng ChatGPT nhiều hơn thì sẽ bắt đầu nhận thấy các vấn đề mà trước đây chưa lộ ra.

No, we haven't made GPT-4 dumber. Quite the opposite: we make each new version smarter than the previous one.
Current hypothesis: When you use it more heavily, you start noticing issues you didn't see before.
— Peter Welinder (@npew) July 13, 2023

Sau đó Welinder còn chỉ ra các bản phát hành của ChatGPT và những lần cập nhật liên tục mà OpenAI đã thực hiện trong suốt năm 2023. Nhưng điều đó không ngăn được nhiều người phản hồi tweet của ông giải thích chi tiết họ đã phát hiện sự thay đổi của ChatGPT như thế nào, thậm chí nhiều người đã trình bày lại những câu hỏi và câu trả lời khi chat với nó.

Tóm lại

Những ngày đầu của ChatGPT dường như đã rất xa, thời điểm tháng 11 năm 2022 chỉ còn là ký ức mơ hồ khi AI phát triển quá nhanh trên khắp thế giới. Nhiều người cho rằng nghiên cứu của Stanford/Berkeley đã thể hiện rõ vấn đề của ChatGPT, trong khi cũng có ý kiến rằng các chỉnh sửa và thay đổi được bổ sung cho ChatGPT nhằm tăng độ an toàn và toàn diện cũng đã trực tiếp ảnh hưởng đến khả năng suy luận của nó, làm nó trở nên kém chính xác đến mức không thể chấp nhận.

Mời bạn xem thêm các bài viết liên quan:

Hãy theo dõi BlogAnChoi để cập nhật nhiều thông tin bổ ích nhé!

Xem thêm