Hiểu ChatGPT và đào tạo mô hình bằng các thuật ngữ đơn giản
Ngày 25/01/2024 - 12:01NLU là một tập hợp con của Xử lý ngôn ngữ tự nhiên cho phép máy hiểu ngôn ngữ tự nhiên (văn bản/âm thanh) . NLU là thành phần quan trọng trong hầu hết các ứng dụng NLP như Dịch máy, Nhận dạng giọng nói, Xây dựng chatbot, v.v. Nền tảng của NLU là mô hình Ngôn ngữ.
Trong bài viết này, chúng ta sẽ thảo luận về các mô hình ngôn ngữ tiên tiến nhất của Open AI, GPT và các biến thể của nó cũng như cách nó dẫn đến sự đột phá của ChatGPT. Một số điểm được đề cập trong bài viết này bao gồm:
- Tìm hiểu về ChatGPT và quy trình đào tạo mô hình của nó.
- Hiểu lịch sử tóm tắt về kiến trúc GPT – GPT 1, GPT 2, GPT 3 và InstructGPT.
- Hiểu biết sâu sắc về Học tăng cường từ phản hồi của con người (RHLF).
Bắt đầu nào!
Tổng quan về dòng GPT
Kiến trúc tiên tiến nhất cho các mô hình ngôn ngữ là máy biến áp. Hoạt động của máy biến áp không kém gì phép thuật. OpenAI đã đưa ra một máy biến áp như vậy, tức là Mô hình máy biến áp được đào tạo trước, thường được gọi là GPT.
GPT được phát triển theo kiểu tự giám sát. Mô hình được đào tạo trên một tập dữ liệu lớn để dự đoán từ tiếp theo trong chuỗi. Điều này được gọi là mô hình ngôn ngữ thông thường. Mô hình ngôn ngữ này sau đó được tinh chỉnh trên tập dữ liệu được giám sát cho các tác vụ tiếp theo.
OpenAI đã phát hành ba phiên bản GPT khác nhau, tức là GPT-1, GPT-2 và GPT-3, để tạo ra các cuộc hội thoại giống con người. 3 phiên bản GPT có kích thước khác nhau. Mỗi phiên bản mới đều được đào tạo bằng cách mở rộng dữ liệu và thông số.
GPT-3 được gọi là mô hình tự hồi quy được đào tạo để đưa ra dự đoán chỉ bằng cách xem xét các giá trị trong quá khứ. GPT-3 có thể được sử dụng để phát triển các ứng dụng lớn như công cụ tìm kiếm, tạo nội dung, v.v. Nhưng tại sao GPT-3 lại không đạt được những cuộc trò chuyện giống con người? Hãy cùng tìm hiểu.
Tại sao lại hướng dẫn GPT?
Có 2 lý do chính khiến GPT-3 thất bại.
Một trong những vấn đề với tài khoản Chat Plus là đầu ra của mô hình không khớp với hướng dẫn/lời nhắc của người dùng. Nói tóm lại, GPT-3 không thể tạo ra phản hồi theo ý muốn của người dùng.
Ví dụ: được đưa ra lời nhắc “Giải thích việc hạ cánh lên mặt trăng cho một đứa trẻ 6 tuổi bằng một vài câu”, GPT-3 đã tạo ra phản hồi không mong muốn như trong hình bên dưới. Lý do chính đằng sau những phản hồi như vậy là mô hình được đào tạo để dự đoán từ tiếp theo trong câu. GPT-3 không được đào tạo để tạo ra phản hồi ưa thích của con người.
Một vấn đề khác là nó có thể tạo ra những bình luận không an toàn và có hại vì nó không có quyền kiểm soát văn bản.
Để giải quyết cả hai vấn đề này - sự liên kết và những bình luận có hại, một mô hình ngôn ngữ mới đã được đào tạo để có thể giải quyết những thách thức này. Chúng ta sẽ tìm hiểu thêm về nó trong phần tiếp theo.
InstructGPT là gì?
InstructGPT là mô hình ngôn ngữ tạo ra phản hồi ưa thích của người dùng với mục đích giao tiếp an toàn. Do đó, nó được gọi là mô hình Ngôn ngữ được căn chỉnh theo các hướng dẫn sau. Nó sử dụng thuật toán học tập có tên là Học tăng cường từ phản hồi của con người (RLHF) để tạo ra các phản hồi an toàn hơn.
Học tăng cường từ phản hồi của con người là một kỹ thuật học tăng cường sâu có tính đến phản hồi của con người cho việc học. Các chuyên gia về con người kiểm soát thuật toán học tập bằng cách cung cấp các phản hồi có khả năng xảy ra nhất của con người từ danh sách các phản hồi do mô hình tạo ra. Bằng cách này, tác nhân bắt chước các phản hồi an toàn và trung thực.
Nhưng tại sao Học tăng cường từ phản hồi của con người? Tại sao không phải là hệ thống Học tăng cường truyền thống?
Các hệ thống Học tăng cường truyền thống yêu cầu phải xác định chức năng khen thưởng để hiểu liệu tác nhân có đang đi đúng hướng hay không và nhằm mục đích tối đa hóa phần thưởng tích lũy. Tuy nhiên, việc truyền đạt chức năng khen thưởng cho nhân viên trong môi trường Học tăng cường hiện đại là rất khó khăn. Do đó, thay vì xác định chức năng khen thưởng cho tác nhân, chúng tôi huấn luyện tác nhân tìm hiểu chức năng khen thưởng dựa trên phản hồi của con người. Bằng cách này, tác nhân có thể tìm hiểu chức năng khen thưởng và hiểu các hành vi phức tạp của môi trường.
Trong phần tiếp theo, chúng ta sẽ tìm hiểu về một trong những chủ đề thịnh hành nhất trong lĩnh vực AI – ChatGPT.
Giới thiệu về ChatGPT
ChatGPT hiện đang gây tiếng vang trong lĩnh vực khoa học dữ liệu. ChatGPT đơn giản là một chatbot bắt chước các cuộc trò chuyện của con người. Nó có thể trả lời bất kỳ câu hỏi nào được đặt ra và ghi nhớ những cuộc trò chuyện đã xảy ra trước đó. Ví dụ: được đưa ra lời nhắc 'mã cho cây quyết định', ChatGPT đã phản hồi bằng việc triển khai cây quyết định trong python như trong hình bên dưới. Đó chính là sức mạnh của ChatGPT. Chúng ta sẽ xem xét những ví dụ vui nhộn hơn ở phần cuối.
Theo Open AI, ChatGPT là mô hình anh em với InstructGPT, được đào tạo để làm theo hướng dẫn một cách nhanh chóng và cung cấp phản hồi chi tiết. Đây là phiên bản sửa đổi của InstructGPT với sự thay đổi trong quy trình đào tạo mô hình. Nó có thể ghi nhớ những cuộc trò chuyện đã xảy ra trước đó và sau đó phản hồi tương ứng.
Bây giờ hãy xem Instruct GPT và ChatGPT khác nhau như thế nào nhé. Mặc dù Học tăng cường từ phản hồi của con người được kết hợp, InstructGPT không được căn chỉnh hoàn toàn và do đó vẫn độc hại. Do đó, điều này đã dẫn đến sự đột phá của ChatGPT với những thay đổi trong cách thiết lập thu thập dữ liệu.
ChatGPT được xây dựng như thế nào?
ChatGPT được đào tạo tương tự như InstructGPT với sự thay đổi trong cách thu thập dữ liệu. Bây giờ chúng ta hãy hiểu hoạt động của từng giai đoạn.
Trong bước đầu tiên này, chúng tôi tinh chỉnh GPT-3 trên tập dữ liệu chứa một cặp lời nhắc và câu trả lời có liên quan. Đây là một nhiệm vụ tinh chỉnh được giám sát. Các câu trả lời có liên quan được cung cấp bởi chuyên gia dán nhãn.
Trong bước tiếp theo, chúng ta sẽ tìm hiểu chức năng khen thưởng giúp tác nhân quyết định điều gì đúng và sai rồi đi đúng hướng đến mục tiêu. Chức năng khen thưởng được học thông qua phản hồi của con người, do đó đảm bảo tạo ra các phản hồi an toàn và trung thực của mô hình.
Dưới đây là danh sách các bước liên quan đến nhiệm vụ lập mô hình khen thưởng-
- Nhiều phản hồi được tạo cho lời nhắc nhất định
- Người gắn nhãn so sánh danh sách lời nhắc do mô hình tạo ra và xếp hạng từ tốt nhất đến tệ nhất.
- Dữ liệu này sau đó được sử dụng để đào tạo mô hình.
Ở bước cuối cùng, chúng ta sẽ tìm hiểu chính sách tối ưu chống lại hàm thưởng bằng thuật toán Tối ưu hóa chính sách gần nhất (PPO). PPO là một lớp kỹ thuật học tăng cường mới được Open AI giới thiệu. Ý tưởng đằng sau PPO là ổn định việc đào tạo đại lý bằng cách tránh cập nhật chính sách quá lớn.
Các bước thực hiện đào tạo mô hình
Những lời nhắc vui nhộn của ChatGPT
Bây giờ, chúng ta sẽ xem xét một số lời nhắc vui nhộn do ChatGPT tạo ra.
Lời nhắc 1:
Lời nhắc 2:
Lời nhắc 3:
XEM THÊM: Sở hữu tài khoản ChatGPT Plus để tận hưởng trải nghiệm AI tối ưu.
Phần kết luận
Điều này đưa chúng ta đến phần cuối của bài viết. Trong bài viết này, chúng tôi đã thảo luận về ChatGPT và cách nó được đào tạo bằng các kỹ thuật Học tăng cường sâu. Chúng tôi cũng đề cập đến lịch sử ngắn gọn về các biến thể GPT và cách chúng dẫn đến ChatGPT.
ChatGPT là một hiện tượng tuyệt đối trong lịch sử AI, nhưng nó còn rất nhiều điều cần làm để đạt được trí thông minh của con người. Bạn có thể thử ChatGPT tại đây .
Hy vọng bạn thích bài viết. Vui lòng cho tôi biết suy nghĩ và quan điểm của bạn về ChatGPT trong phần bình luận bên dưới.
Bài viết liên quan
05/02/2024
24/01/2024
01/03/2024
19/01/2024
24/02/2024
26/01/2024