Đánh giá nghiên cứu AI - Mô hình AI mới để tóm tắt âm thanh và video cho mọi trường hợp sử dụng
Ngày 19/02/2023 - 09:02Nội dung chính
Bài viết này đề cập đến câu hỏi cũ: Chúng ta có thể bản địa hóa kiến thức trong mạng không?
Rõ ràng, GPT đã biết được sự thật về thế giới của chúng ta. Ví dụ: GPT dự đoán Seattlecho văn bản đầu vào The Space Needle is in downtown. Vì vậy, nó đã biết rằng Space Needle đang ở Seattle.
Câu hỏi đặt ra là: chúng ta có thể tìm ra kiến thức này nằm ở đâu không? Và nếu có, chúng tôi có thể sửa đổi nó không?
Nội địa hóa sự thật
Để trả lời câu hỏi đầu tiên, các tác giả đã làm như sau:
Họ chạy mạng hai lần. Một lần bình thường. Sau đó, họ thay đổi đầu vào The space needlevà thêm một số nhiễu vào đó để kết quả sẽ là một thứ khác, ví dụ: Paris.
Sau đó, đối với mỗi trạng thái ẩn trong chuyển tiếp bị biến dạng, họ thay thế nó bằng trạng thái ban đầu. Họ quan sát thấy rằng nếu sao chép từ thẻ chuyển tiếp ban đầu, nó sẽ thay đổi đầu ra trở lại Seattle. Nếu đúng như vậy, họ coi trạng thái ẩn này là quan trọng đối với dự đoán.
Kết quả là, bạn nhận được một cụm hai cụm: trang sớm ngay sau chủ đề và trang muộn ngay trước khi cần dự đoán đầu ra.
Dựa trên những phát hiện này, họ cho rằng các kích hoạt MLP là vị trí của những sự kiện này.
Kích hoạt MLP bao gồm phép chiếu lên và xuống. Họ tập trung đặc biệt vào hình chiếu xuống.
Họ coi ma trận này giống như một kho lưu trữ khóa-giá trị. Giả thuyết là khóa tương ứng với chủ đề Space Needlevà giá trị tương ứng với một số dữ kiện về chủ đề, chẳng hạn như location=Seattle. Tại thời điểm này, mạng không biết rằng nó nên dự đoán một vị trí nên nó đang thu thập dữ kiện về chủ đề này.
Làm thế nào chúng ta có thể thay đổi một thực tế?
Để trả lời câu hỏi thứ hai, các tác giả đã làm như sau:
Dựa trên những phát hiện của họ từ bước trước, họ muốn thay đổi dự báo giảm kích hoạt MLP để tối đa hóa các tác động nhân quả từ bước trước.
Để làm điều này, họ thu thập một cặp khóa-giá trị mới mà họ muốn mô hình xuất ra.
Đầu vào sẽ là chìa khóa, rất dễ lấy vì họ chỉ cần sao chép nó từ đường dẫn chuyển tiếp.
Giá trị khó kiếm hơn vì nó không tồn tại. Vì vậy, họ đặt đầu ra thành Parisvà theo cách tương tự như cách người ta tạo ra một ví dụ đối nghịch, họ tối ưu hóa lại những gì vectơ v cần để đầu ra thay đổi thành Paris. Lan truyền ngược này không làm thay đổi bản thân mạng, nó chỉ đơn giản là tính toán vectơ v này.
Sau đó, họ chạy tối ưu hóa cục bộ trên một ma trận chiếu xuống cụ thể sao cho giá trị của khóa sẽ được thay đổi.
Nên chọn ma trận nào?
Như chúng ta có thể thấy trong hình, có một vùng lỗ trống chứa thông tin. Nhưng hóa ra chỉ cần thay đổi một ma trận cụ thể là đủ. Họ chọn ma trận nơi các hiệu ứng nhân quả đạt đến đỉnh điểm. Sự thay đổi cục bộ này của một ma trận là đủ để thay đổi dự đoán đầu ra thành Paris.
Các tác giả cho rằng điều này hoạt động có thể là do luồng dư. Họ cho rằng các MLP bằng cách nào đó ghi sự thật của họ vào luồng. Nếu bất kỳ cái nào trong số chúng ghi đè lên cái trước thì đó là sự thật mới.
bài học của chúng tôi
MLP dường như hoạt động giống như các kho lưu trữ khóa-giá trị và các sự kiện dường như được đặt trong đó.
Các sự kiện có thể được thay đổi bằng cách cập nhật một ma trận chiếu xuống duy nhất trong một trong các MLP.
Trong tương lai, người ta có thể cập nhật các sự kiện bên trong một mô hình ngôn ngữ trên quy mô lớn thay vì nhận một bộ dữ liệu đào tạo cập nhật và đào tạo lại mô hình.
Các mô hình mới là:
Cung cấp thông tin tốt nhất cho các tệp có một người nói, chẳng hạn như bản trình bày hoặc bài giảng
Cuộc trò chuyện phù hợp nhất cho bất kỳ cuộc trò chuyện nhiều người nào, chẳng hạn như cuộc gọi điện thoại của khách hàng/đại lý hoặc cuộc gọi phỏng vấn/người được phỏng vấn
Catchy tốt nhất để tạo tiêu đề video, podcast hoặc phương tiện truyền thông
Sau khi được đào tạo về dữ liệu liên quan đến một trường hợp sử dụng cụ thể, mỗi mô hình cung cấp kết quả tiên tiến nhất cho trường hợp sử dụng cụ thể đó. Mỗi mô hình cũng hỗ trợ các độ dài tóm tắt khác nhau, cho phép các nhóm sản phẩm điều chỉnh thêm các bản tóm tắt cho trường hợp sử dụng cụ thể của họ.
Các mô hình AI mới đang hoạt động
Chúng ta hãy lần lượt xem xét từng mô hình AI mới này.
Nhiều thông tin
Mô hình tóm tắt thông tin là tốt nhất cho âm thanh trong đó một người đang nói, chẳng hạn như trong bản trình bày hoặc bài giảng. Dưới đây, chúng ta có thể thấy bản ghi sự thật cơ bản cho một phân đoạn tin tức cùng với bản tóm tắt được tạo bởi mô hình Tóm tắt thông tin:
Một đoàn tàu đi từ Queens đến Manhattan đã bị chết máy bên dưới sông Đông vào khoảng 8:30 sáng thứ Hai. Một phần đế tiếp xúc của đoàn tàu được cho là đã chạm vào tấm ván thay vì đường ray, gây ra vụ việc. Hơn 500 hành khách đã được đưa đến Manhattan sau khoảng một tiếng rưỡi bị mắc kẹt. Dịch vụ trên tuyến số 7 đã bị đình chỉ trong gần hai giờ.
đối thoại
Mô hình tóm tắt cuộc trò chuyện phù hợp nhất với âm thanh trong đó có 2 người nói trở lên đang trò chuyện. Dưới đây, chúng tôi thấy bản ghi sự thật cơ bản cho một cuộc phỏng vấn cùng với bản tóm tắt được tạo bởi mô hình tóm tắt Cuộc trò chuyện:
Mary Brown đến gặp Mister Thompson để xin làm thư ký. Cô ấy nói với Mister Thompson rằng cô ấy có thể làm mọi thứ mà một thư ký phải làm và cô ấy mong đợi mức lương khoảng 800 đô la một tháng. Mister Thompson sẽ cho cô ấy biết kết quả sớm nhất có thể.
Làm say mê
Mô hình tóm tắt Catchy là cách tốt nhất để tự động tạo các dòng giới thiệu, tiêu đề, v.v. Dưới đây, chúng tôi xem bản ghi sự thật cơ bản cho một câu chuyện về các nhà khoa học khám phá ra sóng hấp dẫn cùng với phần tóm tắt do mô hình tóm tắt Catchy tạo ra:
Sau nhiều thập kỷ tìm kiếm, các nhà khoa học đã công bố hôm thứ Năm rằng họ đã phát hiện trực tiếp sóng hấp dẫn lần đầu tiên. Phát hiện này xác minh một phần chưa được chứng minh trong thuyết tương đối rộng của Einstein. Các nhà khoa học cho biết chúng tôi đã phát hiện ra sóng hấp dẫn. Chúng ta làm được rồi. Họ đã phát hiện ra các chấn động hấp dẫn từ một cặp lỗ đen xoắn ốc cách Trái đất khoảng 3 tỷ năm ánh sáng. Sự va chạm của các lỗ đen rất dữ dội, sóng xung kích của nó làm gợn sóng cấu trúc siêu phàm của không gian và thời gian trong khoảng cách hàng tỷ năm ánh sáng. Einstein đã dự đoán sóng hấp dẫn, hay gợn sóng, trong kết cấu của không thời gian, một thế kỷ trước. Nhưng các nhà khoa học trên toàn thế giới đã tìm kiếm bằng chứng về sóng hấp dẫn trong nhiều thập kỷ. Hơn 10 nhà nghiên cứu ở 15 quốc gia đã tham gia vào nghiên cứu dẫn đến thông báo hôm thứ Năm. Nhóm nghiên cứu do các nhà khoa học tại Viện Công nghệ California và Viện Công nghệ Massachusetts dẫn đầu. Họ đã sử dụng hai đài quan sát sóng hấp dẫn, một ở Hanford, Washington và một ở Livingston, Louisiana để đo sóng và kiểm tra chéo kết quả của chúng. Các máy dò LIGO này đo khoảng thời gian ánh sáng laze được điều khiển di chuyển giữa các gương treo. Và vào ngày 14 tháng 9 năm 2015, các nhà nghiên cứu cho biết họ có thể phát hiện ra sóng do các lỗ đen tạo ra khi chúng nghiền nát nhau để hợp nhất thành một lỗ đen duy nhất. Các nhà khoa học cho biết sóng hấp dẫn từ sự hợp nhất của các lỗ đen hoặc các vật thể khối lượng lớn khác tạo ra tiếng kêu. Tại sự kiện hôm thứ Năm, họ đã phát tín hiệu mà họ đã ghi lại. Trong nghiên cứu mới nhất này, các nhà khoa học cho biết họ đã thay đổi tần số âm thanh một chút để dễ nghe hơn. Bạn có nghe thấy nhà thờ không? Có một tiếng ầm ầm, và sau đó là một chiếc áo sơ mi. Hãy để tôi làm điều đó một lần nữa. Đó là nhà thờ mà chúng tôi đang tìm kiếm. Các nhà khoa học cho biết giờ đây họ biết các cặp lỗ đen có tồn tại, họ hy vọng sẽ sử dụng sóng hấp dẫn để thăm dò một số vật thể bí ẩn nhất trong không gian và có thêm manh mối về những bí mật của vũ trụ. Điều sắp xảy ra bây giờ là chúng ta sẽ có thể nghe nhiều hơn về những điều này. Và không còn nghi ngờ gì nữa, chúng ta sẽ nghe thấy những thứ mà chúng ta mong đợi được nghe, chẳng hạn như các lỗ đen nhị phân hoặc có lẽ là các sao neutron nhị phân va chạm. Nhưng chúng ta cũng sẽ nghe những điều mà chúng ta không bao giờ mong đợi. Và khi chúng ta mở ra một cửa sổ mới trong thiên văn học, chúng ta có thể thấy những thứ mà chúng ta chưa từng, chưa từng thấy trước đây. Đó là nhà thờ mà chúng tôi đang tìm kiếm. Các nhà khoa học cho biết giờ đây họ biết các cặp lỗ đen có tồn tại, họ hy vọng sẽ sử dụng sóng hấp dẫn để thăm dò một số vật thể bí ẩn nhất trong không gian và có thêm manh mối về những bí mật của vũ trụ. Điều sắp xảy ra bây giờ là chúng ta sẽ có thể nghe nhiều hơn về những điều này. Và không còn nghi ngờ gì nữa, chúng ta sẽ nghe thấy những thứ mà chúng ta mong đợi được nghe, chẳng hạn như các lỗ đen nhị phân hoặc có lẽ là các sao neutron nhị phân va chạm. Nhưng chúng ta cũng sẽ nghe những điều mà chúng ta không bao giờ mong đợi. Và khi chúng ta mở ra một cửa sổ mới trong thiên văn học, chúng ta có thể thấy những thứ mà chúng ta chưa từng, chưa từng thấy trước đây. Đó là nhà thờ mà chúng tôi đang tìm kiếm. Các nhà khoa học cho biết giờ đây họ biết các cặp lỗ đen có tồn tại, họ hy vọng sẽ sử dụng sóng hấp dẫn để thăm dò một số vật thể bí ẩn nhất trong không gian và có thêm manh mối về những bí mật của vũ trụ. Điều sắp xảy ra bây giờ là chúng ta sẽ có thể nghe nhiều hơn về những điều này. Và không còn nghi ngờ gì nữa, chúng ta sẽ nghe thấy những thứ mà chúng ta mong đợi được nghe, chẳng hạn như các lỗ đen nhị phân hoặc có lẽ là các sao neutron nhị phân va chạm. Nhưng chúng ta cũng sẽ nghe những điều mà chúng ta không bao giờ mong đợi. Và khi chúng ta mở ra một cửa sổ mới trong thiên văn học, chúng ta có thể thấy những thứ mà chúng ta chưa từng, chưa từng thấy trước đây. Điều sắp xảy ra bây giờ là chúng ta sẽ có thể nghe nhiều hơn về những điều này. Và không còn nghi ngờ gì nữa, chúng ta sẽ nghe thấy những thứ mà chúng ta mong đợi được nghe, chẳng hạn như các lỗ đen nhị phân hoặc có lẽ là các sao neutron nhị phân va chạm. Nhưng chúng ta cũng sẽ nghe những điều mà chúng ta không bao giờ mong đợi. Và khi chúng ta mở ra một cửa sổ mới trong thiên văn học, chúng ta có thể thấy những thứ mà chúng ta chưa từng, chưa từng thấy trước đây. Điều sắp xảy ra bây giờ là chúng ta sẽ có thể nghe nhiều hơn về những điều này. Và không còn nghi ngờ gì nữa, chúng ta sẽ nghe thấy những thứ mà chúng ta mong đợi được nghe, chẳng hạn như các lỗ đen nhị phân hoặc có lẽ là các sao neutron nhị phân va chạm. Nhưng chúng ta cũng sẽ nghe những điều mà chúng ta không bao giờ mong đợi. Và khi chúng ta mở ra một cửa sổ mới trong thiên văn học, chúng ta có thể thấy những thứ mà chúng ta chưa từng, chưa từng thấy trước đây.
Ngoài ba loại mô hình , mỗi loại được sử dụng tốt nhất với một loại đầu vào cụ thể , mỗi mô hình cũng cung cấp các loại tóm tắt khác nhau , được sử dụng để điều chỉnh đầu ra mong muốn .
Các loại tóm tắt là
gist - Tóm tắt từ 3-10 từ
headline - tóm tắt khoảng 20 từ (1-2 câu)
paragraph - Tóm tắt 30-100 từ (3-5 câu)
bullets - Danh sách gạch đầu dòng các đoạn tóm tắt (tối đa 6)
bullets_verbose- Giống như bullets, nhưng không giới hạn số lượng đạn
Các loại gistvà headlinetóm tắt có sẵn cho mô hình Hấp dẫn, trong khi các loại , headline, và tóm tắt có sẵn cho các mô hình Thông tin và Hội thoại.paragraphbulletsbullets_verbose
Mô hình Catchy đã tạo bản tóm tắt sau ở trên bằng cách sử dụng headlineloại tóm tắt:
Sử dụng các trường hợp để tóm tắt
Khách hàng của chúng tôi đã xây dựng các tính năng ROI cao, sáng tạo bằng cách sử dụng tóm tắt. Các mô hình Tóm tắt mới của chúng tôi sẽ mở ra cánh cửa cho những khả năng và giải pháp sáng tạo mới. Dưới đây là một vài trường hợp sử dụng mà tóm tắt rất phù hợp
Hội thoại thông minh
Trung tâm cuộc gọi - tóm tắt giúp dễ dàng chuyển thông tin lên chuỗi mệnh lệnh, thực hiện đánh giá và theo dõi cuộc gọi.
Các cuộc họp - dễ dàng tóm tắt các cuộc họp ảo hoặc trực tiếp, các cuộc phỏng vấn, v.v. cho những người không thể tham dự hoặc để lưu giữ hồ sơ.
Video và podcast
Podcasting - tóm tắt cho phép bạn, ví dụ, tự động tạo các mô tả tập theo tỷ lệ.
Tạo tiêu đề - thêm phần tóm tắt vào quy trình làm việc của bạn để tự động tạo tiêu đề cho các video clip, giúp dễ dàng phát hành nhanh chóng TikTok, YouTube Shorts, v.v.
Giám sát truyền thông
Tổng hợp tin tức - tổng hợp tin tức một cách thông minh bằng cách sử dụng tính năng tóm tắt để tạo tiêu đề và mô tả cho các phân đoạn tin tức trên nhiều kênh
Giám sát xã hội - giúp dễ dàng tiêu hóa và xử lý lượng dữ liệu khổng lồ trên các nền tảng truyền thông xã hội và hơn thế nữa
Đây chỉ là một số cách mà các công ty có thể kết hợp tính năng tóm tắt do AI cung cấp vào các quy trình của họ để luôn dẫn đầu đối thủ.
Sử dụng các mô hình tóm tắt
Bạn có thể xem sổ ghi chép Colab này để xem cách sử dụng các mô hình Tóm tắt mới với Python hoặc chuyển sang phần tiếp theo để kiểm tra chúng theo cách không cần mã.
Việc sử dụng các mô hình Tóm tắt mới cũng đơn giản như việc gửi yêu cầu POST tới API AssemblyAI.
import requests
import time
API_TOKEN = "YOUR-TOKEN-HERE"
ENDPOINT = "https://api.assemblyai.com/v2/transcript"
json = {
"audio_url": "https://bit.ly/3qDXLG8",
"summarization": True,
"summary_model": "informative",
"summary_type": "bullets"
}
headers = {
"authorization": API_TOKEN,
"content-type": "application/json"
}
response = requests.post(ENDPOINT, json=json, headers=headers)
Khi quá trình xử lý hoàn tất, một yêu cầu GET đơn giản sẽ lấy kết quả:
r = requests.get(f"{ENDPOINT}/{response.json()['id']}", headers=headers)
print(r.json()['summary'])
Có thể xem tóm tắt tương ứng cho tệp âm thanh mà chúng tôi đã sử dụng bên dưới:
Bài viết liên quan
28/01/2024
19/01/2024
27/02/2024
24/02/2024
23/01/2024
24/01/2024