Làm cách nào để sử dụng ChatGPT với tư cách là Nhà khoa học dữ liệu?
Ngày 23/01/2024 - 03:01Trong thử nghiệm này, tôi đã thử nghiệm tài khoản ChatGPT Plus và thách thức nó tự động tạo ra giải pháp cho vấn đề Khoa học dữ liệu. Bạn sẽ không muốn bỏ lỡ những kết quả đáng kinh ngạc mà chúng ta đã cùng nhau đạt được. Hãy tham gia cùng tôi khi chúng tôi đi sâu vào chi tiết thực tế về cách chúng tôi tạo ra các lời nhắc để đạt được kết quả mong muốn và tự mình xem các giải pháp chính xác đến mức nào. Tin tôi đi, đây là bài đăng trên blog mà bạn sẽ không muốn bỏ lỡ! Hãy cùng tìm hiểu cách sử dụng lời nhắc ChatGPT với tư cách là Nhà khoa học dữ liệu?
Tổng quan về các thí nghiệm
Tôi sẽ thực hiện 2 thí nghiệm khác nhau. Trong thử nghiệm đầu tiên, tôi muốn xem liệu ChatGPT có thể giúp tôi viết mã để xây dựng mô hình machine learning trên một tập dữ liệu cụ thể hay không. Chúng tôi cũng sẽ đánh giá mã trong sổ ghi chép jupyter để xem nó có chính xác hay không. Và trong thử nghiệm thứ hai, chúng ta sẽ tiếp thu những kiến thức đã học được từ thử nghiệm 1 và thiết kế lại lời nhắc để đạt được kết quả mong muốn. Nhìn chung, chúng tôi sẽ đánh giá các điểm sau-
- ChatGPT có thể tạo nội dung AI hoàn hảo và không có spam không?
- Bạn muốn tự động hóa mã hóa của mình bằng tính năng tạo mã dành riêng cho tập dữ liệu của ChatGPT?
- Hiểu cách nắm vững nghệ thuật ChatGPT và các mẹo để đạt được kết quả mong muốn với lời nhắc chính xác.
Thí nghiệm 1: ChatGPT cho Khoa học dữ liệu!
Hãy bắt đầu thử nghiệm đầu tiên ngay bây giờ.
Tôi sẽ xem xét tập dữ liệu Bán hàng Thứ Sáu Đen. Bạn có thể tải xuống tập dữ liệu từ đây . Tập dữ liệu chứa các giao dịch của khách hàng của một cửa hàng bán lẻ chứa thông tin nhân khẩu học của khách hàng, chi tiết sản phẩm và tổng số tiền mua hàng. Công ty muốn hiểu hành vi mua hàng của khách hàng để cá nhân hóa. Vì vậy, câu hỏi đặt ra là xây dựng một mô hình học máy để dự đoán số tiền mua hàng dựa trên thông tin nhân khẩu học của khách hàng và các sản phẩm đã mua trước đây.
Trong lời nhắc đầu tiên, tôi sẽ cho ChatGPT biết về tập dữ liệu và nội dung của nó.
Nhắc 1
Bạn được cung cấp tập dữ liệu của cửa hàng bán lẻ chứa các giao dịch của khách hàng. Mỗi hàng chứa thông tin nhân khẩu học của khách hàng, chi tiết sản phẩm và tổng số tiền mua từ tháng trước. Tập dữ liệu mẫu được đưa ra dưới đây.
Bây giờ, ChatGPT phản hồi lại yêu cầu tập dữ liệu. Trong lời nhắc tiếp theo, tôi sẽ cung cấp tập dữ liệu mẫu của tập dữ liệu bán hàng Thứ Sáu Đen.
Lưu ý: Bạn không thể tải tập dữ liệu trực tiếp lên ChatGPT cũng như không thể sao chép-dán toàn bộ tập dữ liệu.
Vì vậy, chúng tôi sẽ sao chép và dán khoảng 100-150 hàng từ tập dữ liệu.
Lời nhắc 2
User_ID,Product_ID,Giới tính,Tuổi,Nghề nghiệp,Thành phố_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Mua hàng
1005915,P00372445,M,18-25,4,C,0,0,20,,,371
1005916, P00370853, M,51-55,20,B,1,1,19,,,24
1005918,P00370853,M,26-35,12,A,3,1,19,,,12
1005919,P00370853,M,18- 25,0,C,0,0,19,,,48
1005920,P00375436,F,26-35,1,C,2,0,20,,,244
1005922,P00370853,M,55+,3,C ,3,0,19,,,12
1005923,P00371644,M,26-35,7,C,1,1,20,,,129
1005924,P00370293,M,36-45,0,B,0,1 ,19,,,49
1005925,P00371644,F,26-35,0,C,1,1,20,,,592
1005927,P00372445,M,36-45,14,B,4+,1,20, ,,358
1005929,P00370853,F,36-45,0,C,2,0,19,,,50
1005931,P00372445,F,18-25,7,A,3,0,20,,,129
1005932 ,P00371644,M,18-25,14,C,3,0,20,,,131
1005933,P00375436,M,26-35,2,C,3,1,20,,,364
Bây giờ, hãy yêu cầu ChatGPT viết mã xây dựng mô hình để dự đoán biến mục tiêu “Mua hàng”.
Lời nhắc 3
Tôi muốn bạn đóng vai trò là nhà khoa học dữ liệu và viết mã cho tôi. Vui lòng xây dựng mô hình học máy để dự đoán biến Mua hàng từ tập dữ liệu trên.
Như bạn có thể thấy, ChatGPT đã cung cấp cho chúng tôi mã để xây dựng mô hình máy học. Chúng tôi sẽ chạy mã trong sổ ghi chép jupyter và xem nó có hoạt động hay không.
Đoạn mã trên đưa ra lỗi.
ChatGPT đã bỏ lỡ một số bước xử lý trước dữ liệu-
- Có các biến phân loại trong tập dữ liệu. ChatGPT không bao gồm mã để xử lý nó.
- ChatGPT không xử lý được các giá trị còn thiếu trong tập dữ liệu.
- ChatGPT đã không loại bỏ các cột không cần thiết như ID người dùng và ID sản phẩm.
Bây giờ, trong lời nhắc tiếp theo, hãy để tôi yêu cầu ChatGPT cập nhật các bước tiền xử lý dữ liệu trong mã mà không đề cập rõ ràng loại bước cần thực hiện. Hãy tìm hiểu xem nó có thể làm được điều đó không.
Lời nhắc 4
Đoạn mã trên không đầy đủ. Cập nhật mã ở trên với các bước tiền xử lý dữ liệu cần thiết tùy thuộc vào tập dữ liệu được cung cấp.
Đoạn mã trên đưa ra lỗi.
Đúng như mong đợi, nó bao gồm mã để xác định giá trị bị thiếu và xử lý các biến phân loại. Nhưng đã bỏ lỡ việc mã hóa cột id sản phẩm và id người dùng.
Hãy hỏi về ChatGPT để mã hóa các cột id sản phẩm và id người dùng trong lời nhắc tiếp theo.
XEM THÊM: Tài khoản ChatGPT Plus giúp bạn khai phá tiềm năng AI một cách hoàn hảo!
Lời nhắc 5
Đoạn mã trên báo lỗi. Bạn đã bỏ lỡ việc mã hóa cột id người dùng và id sản phẩm.
Đoạn mã trên đưa ra lỗi. Nó mã hóa id sản phẩm và id người dùng vào các cột mới nhưng không loại bỏ các cột thực tế. Như bạn có thể thấy, đây là nội dung trục trặc do ChatGPT tạo ra.
Hãy nhắc ChatGPT sửa lại mã.
Lời nhắc 6
Bạn sai rồi. Đoạn mã trên vẫn báo lỗi.
ChatGPT phản hồi lại tìm kiếm lỗi. Hãy sao chép và dán lỗi gặp phải khi chạy mã. Đây sẽ là lời nhắc tiếp theo của chúng tôi.
Lời nhắc 7
ValueError: không thể chuyển đổi chuỗi thành float: 'P00233842'.
Có điều gì sai với mã không? Bây giờ bạn có thể thấy rằng ChatGPT đã bỏ lỡ việc mã hóa phần còn lại của các cột phân loại. Đây là nội dung trục trặc và thiếu sót. Dự kiến nó sẽ bao gồm phần còn lại của các cột phân loại vì nó đã mã hóa phần còn lại của các cột phân loại trước đó. Trong khi sửa mã hóa id sản phẩm và id người dùng, nó đã bỏ sót các cột khác.
Bây giờ, hãy tìm hiểu về ChatGPT để mã hóa phần còn lại của các biến phân loại.
Nhắc 8
Bạn đã bỏ lỡ việc mã hóa phần còn lại của các cột phân loại. Cập nhật mã.
Lần này, nó cung cấp cho tôi tất cả các bước xử lý trước dữ liệu cần thiết. Hãy chạy nó trong sổ ghi chép. Nó vẫn ném lỗi. Hãy nhờ ChatGPT khắc phục. Hy vọng đây là lời nhắc cuối cùng của chúng tôi.
Lời nhắc 9
Cập nhật mã. Mã đưa ra TypeError: Tên tính năng chỉ được hỗ trợ nếu tất cả các tính năng đầu vào có tên chuỗi, nhưng đầu vào của bạn có ['int', 'str'] làm loại tên tính năng/tên cột
Cuối cùng, chúng tôi đã đạt được một mã không có lỗi.
Thí nghiệm 2: Lời nhắc khoa học dữ liệu cho ChatGPT
Một số bài học rút ra từ thí nghiệm đầu tiên là
- Luôn cung cấp lời nhắc chi tiết để đạt được kết quả mong muốn.
- Yêu cầu ChatGPT sửa mã nếu sai. Nó có thể sửa mã riêng của nó.
Bây giờ, chúng ta sẽ bắt đầu thử nghiệm 2 với việc học của mình.
Nhắc 1
Bạn được cung cấp tập dữ liệu của cửa hàng bán lẻ chứa các giao dịch của khách hàng. Mỗi hàng chứa thông tin nhân khẩu học của khách hàng, chi tiết sản phẩm và tổng số tiền mua từ tháng trước. Tập dữ liệu mẫu được đưa ra dưới đây.
Lời nhắc 2
User_ID,Product_ID,Giới tính,Tuổi,Nghề nghiệp,Thành phố_Category,Stay_In_Current_City_Years,Marital_Status,Product_Category_1,Product_Category_2,Product_Category_3,Mua hàng
1005915,P00372445,M,18-25,4,C,0,0,20,,,371
1005916, P00370853, M,51-55,20,B,1,1,19,,,24
1005918,P00370853,M,26-35,12,A,3,1,19,,,12
1005919,P00370853,M,18- 25,0,C,0,0,19,,,48
1005920,P00375436,F,26-35,1,C,2,0,20,,,244
1005922,P00370853,M,55+,3,C ,3,0,19,,,12
1005923,P00371644,M,26-35,7,C,1,1,20,,,129
1005924,P00370293,M,36-45,0,B,0,1 ,19,,,49
1005925,P00371644,F,26-35,0,C,1,1,20,,,592
1005927,P00372445,M,36-45,14,B,4+,1,20, ,,358
1005929,P00370853,F,36-45,0,C,2,0,19,,,50
1005931,P00372445,F,18-25,7,A,3,0,20,,,129
1005932 ,P00371644,M,18-25,14,C,3,0,20,,,131
1005933,P00375436,M,26-35,2,C,3,1,20,,,364
Lời nhắc 3
Tôi muốn bạn đóng vai trò là nhà khoa học dữ liệu và viết mã cho tôi. Vui lòng xây dựng mô hình học máy để dự đoán biến Mua hàng từ tập dữ liệu trên. Bao gồm các bước xử lý trước dữ liệu như loại bỏ các cột ID không cần thiết, mã hóa các biến phân loại, xử lý các giá trị bị thiếu, v.v.
Lời nhắc 4
Cập nhật mã bao gồm đánh giá mô hình.
Một nội dung không phù hợp và trục trặc khác từ ChatGPT! Nó tạo ra mã cho vấn đề phân loại cho tập dữ liệu hồi quy.
XEM THÊM: Khi ChatGPT-4 trở thành ‘trợ lý ảo’ xuất sắc nhất bạn từng có!
Lời nhắc 5
Đoạn mã trên không chính xác. Tập dữ liệu đã cho là một vấn đề hồi quy.
Lời nhắc 6
Cập nhật mã bao gồm kỹ thuật tính năng. Giữ nguyên các bước còn lại.
Lời nhắc 7
Viết mã để điều chỉnh các siêu tham số của rừng ngẫu nhiên. Sử dụng kỹ thuật siêu điều chỉnh thông minh nhất để đạt được kết quả tốt nhất trong thời gian ngắn hơn.
Nhắc 8
Viết mã để hình dung các tính năng quan trọng nhất.
Lời nhắc 9
Tôi muốn giải thích kết quả của mô hình. Hãy viết một đoạn mã để diễn giải kết quả của mô hình.
Nhắc 10
Vui lòng viết mã để diễn giải kết quả mô hình bằng cách sử dụng vôi.
Đáng kinh ngạc! Không cần phải lập trình nữa. Việc mã hóa trở nên dễ dàng hơn rất nhiều với ChatGPT.
Phần kết luận
Trong bài viết này, chúng ta đã biết cách sử dụng ChatGPT cho Khoa học dữ liệu. Bạn có thể tự động hóa toàn bộ quá trình mã hóa của mình bằng ChatGPT dành riêng cho tập dữ liệu. Nhưng đôi khi, ChatGPT có thể cung cấp nội dung AI trục trặc và thiếu sót. Đó là những lúc bạn cần yêu cầu ChatGPT sửa chữa và tạo lại nội dung một cách rõ ràng. Nó có thể sửa chữa lỗi lầm của mình và học hỏi từ chúng.
Cuối cùng, chúng tôi hiểu tầm quan trọng của những lời nhắc phù hợp để có được kết quả mong muốn từ ChatGPT dành cho nhà khoa học dữ liệu. Chúng tôi cũng đã thấy một số lời nhắc Khoa học dữ liệu hữu ích hàng đầu.
Đó là tất cả cho ngày hôm nay. Hẹn gặp lại bạn trong blog tiếp theo.
Bài viết liên quan
21/01/2024
19/01/2024
22/01/2024
01/03/2024
23/01/2024
22/01/2024