Trong nghiên cứu được công bố trên tạp chí Nature, nhóm đã kiểm tra phiên bản mới nhất của ba chatbot trí tuệ nhân tạo AI phổ biến nhất về phản hồi, độ chính xác và khả năng người dùng phát hiện câu trả lời sai.
Để kiểm tra độ chính xác của ba LLM phổ biến nhất là BLOOM, LLaMA và GPT, nhóm nghiên cứu đã đưa ra hàng nghìn câu hỏi và so sánh câu trả lời nhận được với phản hồi của các phiên bản trước đó cho cùng một câu hỏi.
Họ cũng đa dạng hóa chủ đề, bao gồm toán học, khoa học, câu đố chữ và địa lý, cũng như khả năng tạo văn bản hoặc thực hiện các hành động như sắp xếp danh sách.
Kết quả nghiên cứu cho thấy một số xu hướng đáng chú ý.
Độ chính xác nói chung của các chatbot được cải thiện qua mỗi phiên bản mới, nhưng vẫn giảm khi đối mặt với những câu hỏi khó hơn.
Điều đáng ngạc nhiên là khi LLM trở nên lớn hơn và tinh vi hơn, chúng lại có xu hướng ít cởi mở hơn về khả năng trả lời chính xác của mình.
Trong các phiên bản trước đây, hầu hết LLM sẽ thẳng thắn thông báo với người dùng khi chúng không thể tìm thấy câu trả lời hoặc cần thêm thông tin.
Ngược lại, các phiên bản mới hơn có xu hướng đoán nhiều hơn, dẫn đến việc đưa ra nhiều câu trả lời hơn nói chung, bao gồm cả đúng và sai.
Đáng lo ngại hơn, nghiên cứu phát hiện rằng tất cả các LLM đôi khi vẫn đưa ra câu trả lời không chính xác ngay cả đối với các câu hỏi dễ, cho thấy độ tin cậy của chúng vẫn còn là một vấn đề cần được cải thiện.
Những phát hiện này nêu bật một nghịch lý trong sự phát triển của AI: mặc dù các mô hình ngày càng mạnh mẽ hơn, chúng cũng có thể trở nên kém minh bạch hơn về những hạn chế của mình.
Điều này đặt ra những thách thức mới trong việc sử dụng và tin tưởng vào các hệ thống AI, đòi hỏi người dùng phải thận trọng hơn và các nhà phát triển cần tập trung vào việc cải thiện không chỉ độ chính xác mà còn cả khả năng “tự nhận thức” của các mô hình.