ChatGPT hoạt động như thế nào: Từ đào tạo trước đến RLHF
Ngày 21/01/2024 - 12:01Với kiến trúc GPT-3.5 đột phá, ChatGPT đã gây bão trên toàn thế giới, thay đổi cách chúng ta giao tiếp với máy móc và mở ra khả năng tương tác vô tận giữa con người với máy móc. Cuộc đua đã chính thức bắt đầu với sự ra mắt gần đây của đối thủ của ChatGPT, Google BARD, được hỗ trợ bởi PaLM 2. Trong bài viết này, chúng ta sẽ đi sâu vào hoạt động bên trong của ChatGPT, cách thức hoạt động, các bước khác nhau liên quan như Pretraining và RLHF, cũng như khám phá cách nó có thể hiểu và tạo ra văn bản giống con người với độ chính xác vượt trội.
Khám phá hoạt động bên trong của ChatGPT và khám phá cách nó có thể hiểu và tạo văn bản giống con người với độ chính xác vượt trội. Hãy sẵn sàng ngạc nhiên trước công nghệ tiên tiến đằng sau ChatGPT và khám phá tiềm năng vô hạn của mô hình ngôn ngữ mạnh mẽ này.
Mục tiêu chính của bài viết là-
- Thảo luận các bước liên quan đến đào tạo mô hình ChatGPT.
- Tìm hiểu những lợi ích của việc sử dụng Học tăng cường từ phản hồi của con người (RLHF).
- Hiểu cách con người tham gia vào việc cải tiến các mô hình như ChatGPT.
Tổng quan về đào tạo ChatGPT
ChatGPT là Mô hình ngôn ngữ lớn (LLM) được tối ưu hóa cho hội thoại. Nó được xây dựng dựa trên GPT 3.5 bằng cách sử dụng Học tăng cường từ phản hồi của con người (RLHF). Nó được đào tạo trên khối lượng lớn dữ liệu internet.
Chủ yếu có 3 bước liên quan đến việc xây dựng ChatGPT-
- LLM đào tạo trước
- Tinh chỉnh LLM được giám sát (SFT)
- Học tăng cường từ phản hồi của con người (RLHF)
Bước đầu tiên là huấn luyện trước LLM (GPT 3.5) trên dữ liệu không được giám sát để dự đoán từ tiếp theo trong câu. Điều này làm cho LLM tìm hiểu cách trình bày và các sắc thái khác nhau của văn bản.
Trong bước tiếp theo, chúng tôi tinh chỉnh LLM trên dữ liệu trình diễn: một tập dữ liệu có các câu hỏi và câu trả lời. Điều này tối ưu hóa LLM cho cuộc đối thoại.
Ở bước cuối cùng, chúng tôi sử dụng RLHF để kiểm soát các phản hồi do LLM tạo ra. Chúng tôi đang ưu tiên các phản hồi tốt hơn do mô hình sử dụng RLHF tạo ra.
Bây giờ chúng ta sẽ thảo luận chi tiết từng bước.
LLM đào tạo trước
Mô hình ngôn ngữ là mô hình thống kê dự đoán từ tiếp theo trong một chuỗi. Mô hình ngôn ngữ lớn là mô hình học sâu được đào tạo trên hàng tỷ từ. Dữ liệu đào tạo được lấy từ nhiều trang web như Reddit, StackOverflow, Wikipedia, Books, ArXiv, Github, v.v.
Chúng ta có thể xem hình ảnh trên và biết được phần của tập dữ liệu cũng như số lượng tham số. Việc đào tạo trước LLM tốn kém về mặt tính toán vì nó đòi hỏi phần cứng lớn và bộ dữ liệu khổng lồ. Khi kết thúc quá trình đào tạo trước, chúng tôi sẽ nhận được LLM có thể dự đoán từ tiếp theo trong câu khi được nhắc. Ví dụ: nếu chúng ta nhắc một câu “Hoa hồng có màu đỏ” thì câu đó có thể trả lời bằng “Hoa tím có màu xanh lam”. Hình ảnh bên dưới mô tả những gì GPT-3 có thể làm khi kết thúc quá trình đào tạo trước:
Chúng ta có thể thấy rằng người mẫu đang cố gắng hoàn thành câu hơn là trả lời nó. Nhưng chúng ta cần biết câu trả lời hơn là câu tiếp theo. Bước tiếp theo có thể là gì để đạt được nó? Chúng ta hãy xem điều này trong phần tiếp theo.
Giám sát việc tinh chỉnh LLM
Vì vậy, làm cách nào để LLM trả lời câu hỏi thay vì dự đoán từ tiếp theo? Việc tinh chỉnh mô hình có giám sát sẽ giúp chúng ta giải quyết vấn đề này. Chúng ta có thể cho mô hình biết phản hồi mong muốn đối với một lời nhắc nhất định và tinh chỉnh nó. Để làm được điều này, chúng ta có thể tạo một tập dữ liệu gồm nhiều loại câu hỏi để hỏi một mô hình hội thoại. Người gắn nhãn có thể đưa ra phản hồi thích hợp để làm cho mô hình hiểu được kết quả mong đợi. Tập dữ liệu này bao gồm các cặp lời nhắc và phản hồi được gọi là Dữ liệu trình diễn. Bây giờ, chúng ta hãy xem tập dữ liệu mẫu về các lời nhắc và phản hồi của chúng trong dữ liệu minh họa.
Học tăng cường từ phản hồi của con người (RLHF)
Bây giờ chúng ta sẽ tìm hiểu về RLHF. Trước khi hiểu RLHF, trước tiên chúng ta hãy xem lợi ích của việc sử dụng RLHF.
Tại sao RLHF?
Sau khi tinh chỉnh có giám sát, mô hình của chúng ta sẽ cung cấp cho chúng ta những phản hồi thích hợp cho những lời nhắc nhất định, phải không? Tiếc là không có! Mô hình của chúng tôi có thể vẫn chưa trả lời đúng mọi câu hỏi mà chúng tôi đặt ra. Có thể vẫn không thể đánh giá được phản hồi nào tốt và phản hồi nào không. Nó có thể phải phù hợp quá mức với dữ liệu trình diễn. Chúng ta hãy xem điều gì có thể xảy ra nếu nó phù hợp quá mức với dữ liệu. Khi viết bài này, tôi đã hỏi Bard điều này:
Tôi không cung cấp cho nó bất kỳ liên kết, bài viết hoặc câu nào để tóm tắt. Nhưng nó chỉ tóm tắt cái gì đó rồi đưa cho tôi, thật không ngờ.
Một vấn đề nữa có thể phát sinh là độc tính của nó. Mặc dù câu trả lời có thể đúng nhưng nó có thể không đúng về mặt đạo đức và luân lý. Ví dụ: hãy nhìn vào hình ảnh bên dưới mà bạn có thể đã thấy trước đây. Khi được yêu cầu các trang web tải phim, đầu tiên họ trả lời rằng điều đó trái đạo đức, nhưng trong lời nhắc tiếp theo, chúng ta có thể dễ dàng thao túng nó như được hiển thị.
Được rồi, bây giờ hãy tiếp tục tới tài khoản ChatGPT Plus và thử ví dụ tương tự. Nó có cho bạn kết quả tương tự không?
Tại sao chúng ta không nhận được câu trả lời giống nhau? Họ đã đào tạo lại toàn bộ mạng lưới? Chắc là không! Có thể đã có một sự tinh chỉnh nhỏ với RLHF. Bạn có thể tham khảo ý chính hay này để biết thêm lý do.
Mô hình phần thưởng
Bước đầu tiên trong RLHF là đào tạo mô hình phần thưởng. Mô hình sẽ có thể lấy phản hồi của lời nhắc làm đầu vào và xuất ra một giá trị vô hướng mô tả mức độ phản hồi tốt như thế nào. Để máy biết thế nào là phản hồi tốt, liệu chúng ta có thể yêu cầu người chú thích chú thích các phản hồi kèm theo phần thưởng không? Khi chúng tôi thực hiện việc này, có thể có những thành kiến trong việc khen thưởng các phản hồi của những người chú thích khác nhau. Vì vậy, mô hình có thể không học được cách khen thưởng các phản hồi. Thay vào đó, người chú thích có thể xếp hạng các phản hồi từ mô hình, điều này sẽ làm giảm đáng kể độ lệch trong chú thích. Hình ảnh bên dưới hiển thị phản hồi đã chọn và phản hồi bị từ chối cho một lời nhắc nhất định từ bộ dữ liệu hh-rlhf của Anthropic.
Từ dữ liệu này, mô hình sẽ cố gắng phân biệt giữa phản hồi tốt và phản hồi xấu.
Tinh chỉnh LLM với mô hình phần thưởng bằng RL
Bây giờ, chúng tôi điều chỉnh LLM bằng Xấp xỉ Chính sách Gần đúng (PPO). Theo cách tiếp cận này, chúng tôi nhận được phần thưởng cho phản hồi do mô hình ngôn ngữ ban đầu tạo ra và lần lặp hiện tại của lần lặp được tinh chỉnh. Chúng tôi so sánh mô hình ngôn ngữ hiện tại với mô hình ngôn ngữ ban đầu để mô hình ngôn ngữ không sai lệch quá nhiều so với câu trả lời đúng trong khi tạo ra đầu ra gọn gàng, rõ ràng và dễ đọc. Phân kỳ KL được sử dụng để so sánh cả hai mô hình và sau đó điều chỉnh LLM.
Đánh giá mô hình
Các mô hình được đánh giá liên tục ở cuối mỗi bước với số lượng tham số khác nhau. Bạn có thể xem các phương pháp và điểm số tương ứng của chúng trong hình ảnh bên dưới:
Chúng ta có thể so sánh hiệu suất của LLM ở các giai đoạn khác nhau với các kích thước mô hình khác nhau trong hình trên. Như bạn có thể thấy, kết quả có sự gia tăng đáng kể sau mỗi giai đoạn đào tạo.
Chúng ta có thể thay thế Con người trong RLHF trong phân khúc này bằng Trí tuệ nhân tạo RLAIF. Điều này làm giảm đáng kể chi phí ghi nhãn và có khả năng hoạt động tốt hơn RLHF. Hãy thảo luận về điều đó trong bài viết tiếp theo.
Phần kết luận
Trong bài viết này, chúng ta đã thấy các LLM đàm thoại như ChatGPT được đào tạo như thế nào. Chúng ta đã thấy ba giai đoạn đào tạo ChatGPT và cách học tăng cường từ phản hồi của con người đã giúp mô hình cải thiện hiệu suất như thế nào. Chúng tôi cũng hiểu tầm quan trọng của từng bước, nếu không có bước này thì LLM sẽ không chính xác.
Hy vọng bạn thích đọc nó. Vui lòng để lại nhận xét bên dưới trong trường hợp có bất kỳ câu hỏi/phản hồi nào. Học tập vui vẻ
Nhưng này! Trước khi bạn đi, tôi muốn bạn chú ý đến các hội thảo được tổ chức tại Hội nghị thượng đỉnh DataHack 2023. Hội thảo- ' Học máy ứng dụng với AI sáng tạo ', ' và ' Làm chủ LLM: Đào tạo, Tinh chỉnh và Thực tiễn tốt nhất ', 'Khám phá AI sáng tạo bằng các mô hình khuếch tán' , chắc chắn sẽ khơi gợi sự quan tâm của bạn vì chúng không phải là trải nghiệm học tập thông thường của bạn. Chúng được thiết kế để trang bị cho bạn những kỹ năng thực tế và trang bị cho bạn kiến thức thực tế giúp bạn trở nên khác biệt. Với thực hành thực hành và hướng dẫn của chuyên gia, bạn sẽ có được sự tự tin để chinh phục mọi thách thức dữ liệu xảy ra theo cách của mình. Nhưng đây là điểm đáng chú ý: các điểm đang lấp đầy nhanh chóng! Đừng bỏ lỡ cơ hội vô giá này để nâng cao chuyên môn, kết nối với các nhà lãnh đạo trong ngành và mở ra những triển vọng nghề nghiệp thú vị. Đảm bảo vị trí của bạn ngay bây giờ và trở thành một phần của Hội nghị thượng đỉnh DataHack 2023.
XEM THÊM: Tài khoản ChatGPT-4 có phù hợp với bạn không?
Các câu hỏi thường gặp
Đáp. ChatGPT lấy dữ liệu từ nhiều trang web như Reddit, StackOverflow, Wikipedia, Books, ArXiv, Github, v.v. Nó sử dụng dữ liệu này để tìm hiểu các mẫu, ngữ pháp và sự kiện.
A. Bản thân ChatGPT không cung cấp cách kiếm tiền trực tiếp. Tuy nhiên, các cá nhân hoặc tổ chức có thể sử dụng khả năng của ChatGPT để phát triển các ứng dụng hoặc dịch vụ có thể tạo doanh thu, chẳng hạn như viết blog, trợ lý ảo, bot hỗ trợ khách hàng hoặc công cụ tạo nội dung.
A. ChatGPT là Mô hình ngôn ngữ lớn được tối ưu hóa cho hội thoại. Nó chấp nhận lời nhắc làm đầu vào và trả về phản hồi/câu trả lời. Nó sử dụng GPT 3.5 và Học tập tăng cường từ phản hồi của con người (RLHF) làm nguyên tắc hoạt động cốt lõi.
A. ChatGPT sử dụng Học sâu và Học tăng cường ở hậu trường. Nó được phát triển theo 3 giai đoạn: Đào tạo trước Mô hình ngôn ngữ lớn (GPT 3.5), Tinh chỉnh có giám sát, Học tăng cường từ phản hồi của con người (RLHF).
Bài viết liên quan
26/01/2024
04/02/2024
02/03/2024
24/01/2024
06/02/2024
21/01/2024