Phá vỡ các rào cản: Thành công và hạn chế của kỳ thi X quang của ChatGPT!
Ngày 19/01/2024 - 09:01Thành tựu này đã làm sáng tỏ tiềm năng to lớn của các mô hình ngôn ngữ lớn , đồng thời nêu bật những hạn chế cản trở độ tin cậy của chúng. Các nghiên cứu gần đây được công bố trên Radiology đã tiết lộ cả những thành tựu và thách thức của việc tích hợp ChatGPT vào X quang.
Sự trỗi dậy của ChatGPT trong thế giới y tế
ChatGPT được ca ngợi là ứng dụng tiêu dùng phát triển nhanh nhất trong lịch sử, đã đạt được sức hút rất lớn. Sự phổ biến ngày càng tăng này càng được thúc đẩy nhờ việc tích hợp các chatbot tương tự vào các công cụ tìm kiếm quan trọng như Google và Bing . Do đó, cách mạng hóa cách bác sĩ và bệnh nhân tìm kiếm thông tin y tế. Tiến sĩ Rajesh Bhayana, bác sĩ X quang bụng của cộng đồng y tế, giải thích tầm quan trọng về hiệu quả hoạt động của ChatGPT trong X quang.
Đánh giá chuyên môn X quang của ChatGPT
Để đánh giá năng lực của ChatGPT trong lĩnh vực X quang, Tiến sĩ Bhayana và các đồng nghiệp đã tiến hành kiểm tra toàn diện bằng phiên bản được sử dụng phổ biến nhất là GPT-3.5. Các nhà nghiên cứu đã thiết kế tỉ mỉ 150 câu hỏi trắc nghiệm, cẩn thận sắp xếp chúng phù hợp với phong cách, nội dung và mức độ khó của các tổ chức uy tín như Đại học Hoàng gia Canada và Hội đồng X quang Hoa Kỳ.
Hiểu hiệu suất của ChatGPT
Các câu hỏi đặt ra cho ChatGPT không bao gồm hình ảnh và được phân loại thành nhiều loại khác nhau để xác định khả năng của nó. Các nhà nghiên cứu nhằm mục đích đạt được những hiểu biết sâu sắc về các câu hỏi về tư duy bậc thấp (thu hồi kiến thức và hiểu biết cơ bản) và các câu hỏi về tư duy bậc cao (áp dụng, phân tích, tổng hợp). Các tiểu mục khác trong các câu hỏi tư duy bậc cao đi sâu vào mô tả các phát hiện hình ảnh, quản lý lâm sàng, tính toán và phân loại cũng như mối liên quan giữa bệnh tật.
Kết quả và hạn chế của ChatGPT
Nhìn chung, tài khoản ChatGPT Plus dựa trên GPT-3.5 đã trả lời đúng 69% câu hỏi, với hiệu suất đáng chú ý ở các câu hỏi tư duy bậc thấp hơn (84%). Tuy nhiên, nó gặp khó khăn với các câu hỏi tư duy bậc cao, chỉ đảm bảo độ chính xác 60%. Cụ thể, ChatGPT phải đối mặt với những thách thức trong các lĩnh vực như mô tả kết quả hình ảnh, tính toán và phân loại cũng như áp dụng các khái niệm. Kết quả này đã được mong đợi vì mô hình này thiếu đào tạo trước dành riêng cho X quang.
Sự ra đời của GPT-4: Sự cải thiện về khả năng suy luận
Vào tháng 3 năm 2023, tài khoản GPT-4 được giới thiệu ở dạng giới hạn cho người dùng trả phí, tự hào với khả năng suy luận nâng cao được nâng cao so với phiên bản tiền nhiệm, GPT-3.5. Một nghiên cứu tiếp theo đã chứng minh hiệu suất vượt trội của GPT-4, trả lời đúng 81% câu hỏi tương tự, vượt ngưỡng đậu là 70%. Đáng chú ý, GPT-4 cho thấy sự tiến bộ đáng kể trong các câu hỏi tư duy bậc cao. Đặc biệt là trong những vấn đề liên quan đến việc mô tả các phát hiện hình ảnh và ứng dụng các khái niệm.
Tính hai mặt của hiệu suất của GPT-4
Mặc dù tài khoản GPT-4 thể hiện những cải tiến đáng khen ngợi trong các câu hỏi tư duy bậc cao, nhưng nó không cho thấy sự tiến bộ đáng kể nào trong các câu hỏi tư duy bậc thấp so với GPT-3.5. Ngoài ra, GPT-4 đã cung cấp câu trả lời sai cho 12 câu hỏi mà GPT-3.5 đã trả lời đúng. Vì vậy, làm dấy lên mối lo ngại về độ tin cậy của nó trong việc thu thập thông tin. Tiến sĩ Bhayana bày tỏ sự ngạc nhiên trước câu trả lời chính xác và tự tin của ChatGPT trước những câu hỏi đầy thách thức về X quang. Nhưng cô cũng thừa nhận đôi khi có những khẳng định phi logic và không chính xác về cách thức hoạt động của các mô hình này.
Khai thác tiềm năng của ChatGPT
Bất chấp những hạn chế của nó, sự phát triển của ChatGPT, như được chứng minh bởi GPT-4, cho thấy tiềm năng phát triển ấn tượng trong lĩnh vực X quang. Tiến sĩ Bhayana nhấn mạnh rằng ChatGPT hiện hiệu quả nhất trong việc khơi dậy ý tưởng, hỗ trợ quá trình viết y khoa và tóm tắt dữ liệu. Tuy nhiên, để thu hồi thông tin nhanh chóng, việc kiểm tra thực tế vẫn cần thiết để đảm bảo tính chính xác.
Lời nói của chúng tôi
Thành công của ChatGPT trong việc vượt qua bài kiểm tra theo kiểu hội đồng X quang đã tạo ra một làn sóng phấn khích trong cộng đồng y tế. Mặc dù vẫn còn những hạn chế nhưng sự phát triển của GPT-4 mang đến một tương lai đầy hứa hẹn cho các mô hình ngôn ngữ lớn trong X quang và hơn thế nữa. Khi các nhà nghiên cứu tiếp tục cải tiến các mô hình này, rõ ràng là ChatGPT đã bắt đầu định hình lại bối cảnh giáo dục và thực hành y tế.
Bài viết liên quan
21/01/2024
20/02/2024
18/01/2024
02/03/2024
19/01/2024
02/01/2024