Khi người dùng nhập nội dung vào chương trình trí tuệ nhân tạo (AI) tạo sinh như ChatGPT, chương trình sẽ phản hồi không chỉ dựa trên những gì họ đã hỏi mà còn dựa trên lịch sử trò chuyện trước đó. Tuy nhiên, theo một số nhà nghiên cứu, các tổ chức cần tiếp tục trang bị thêm cho AI một bộ nhớ có thể nâng cấp đầu ra của câu trả lời.
Mở rộng giới hạn ký tự đầu vào đòi hỏi những tính toán phức tạp
Trong một bài báo với tiêu đề “Tăng cường các mô hình ngôn ngữ bằng trí nhớ dài hạn” của nhà nghiên cứu Weizhi Wang (Đại học California) và các đồng nghiệp tại Microsoft, họ nhận định: “Giới hạn ký tự đầu vào của LLM đang ngăn cản khả năng xử lý thông tin của chúng”.
Ví dụ, GPT-3 của OpenAI chỉ nhận đầu vào khoảng 2.000 mã thông báo, chính vì vậy, nếu người dùng cung cấp cho chương trình một bài báo khoảng 5.000 từ, hoặc một cuốn tiểu thuyết 70.000 từ, hệ thống không thể xử lý thông tin. Bên cạnh đó, một vấn đề cũng đáng chú ý là thời gian phản hồi của các chương trình ngôn ngữ lớn, bao gồm ChatGPT và GPT-4 hiện được đòi hỏi sẽ tăng lên theo bình phương của lượng dữ liệu đầu vào được cung cấp.
Chính vì vậy, Wang và nhóm nghiên cứu cho biết, một số học giả đã cố gắng tạo ra ký ức thô cho hệ thống trí tuệ nhân tạo. Yuhui Wu và các đồng nghiệp tại Google năm ngoái đã giới thiệu Memorizing Transformer, khu vực lưu trữ bản sao của các câu trả lời trước đó có thể sử dụng trong tương lai. Khu vực này cho phép hoạt động trên 65.000 mã thông báo cùng một lúc.
Tuy nhiên, các nhà nghiên cứu cũng cho rằng dữ liệu có thể bị “lỗi thời”. Quá trình đào tạo biến đổi bộ nhớ khiến một số dữ liệu không thể đồng bộ với mạng thần kinh khi các trọng số hoặc tham số được cập nhật. Chình vì vậy, giải pháp của Wang và nhóm là xây dựng “mô hình ngôn ngữ nâng cao với trí nhớ dài hạn” hay còn gọi là LONGMEM. Theo đó, khi hệ thống kiểm tra đầu vào, LongMem sẽ lưu trữ một số dữ liệu vào trong ngân hàng bộ nhớ đồng thời hệ thống cũng gửi đầu ra đến một mạng thần kinh khác, được gọi là SideNet.
SideNet là hệ thống bộ nhớ và mạng thần kinh phụ để lưu trữ và xử lý thông tin dài hạn, từ đó cung cấp ngữ cảnh rõ ràng hơn cho các mô hình ngôn ngữ. SideNet có thể giao nhiệm vụ so sánh lời nhắc mà người dùng vừa nhập với nội dung của bộ nhớ để xem liệu có sự trùng khớp liên quan hay không. Không giống như Memory Transformer, SideNet có thể được đào tạo riêng ngoài mô hình ngôn ngữ chính. Bằng cách này, việc chọn nội dung trong bộ nhớ sẽ ngày càng tốt hơn và không bị cũ.
Wang và nhóm đã chạy thử nghiệm để so sánh LongMem với Memorizing Transformer và mô hình ngôn ngữ GPT-2 của OpenAI. Họ cũng so sánh LongMEM với các kết quả được báo cáo từ tài liệu cho các mô hình ngôn ngữ khác, bao gồm cả tham số 175 tỷ của GPT-3.
Họ sử dụng các tác vụ dựa trên ba bộ dữ liệu về tóm tắt các văn bản dài, bao gồm toàn bộ bài báo và sách giáo khoa: Project Gutenberg, máy chủ tệp arXiv và ChapterBreak. Khi Sun và nhóm thực hiện bài kiểm tra xác định xem đoạn nào là bắt đầu của chương tiếp theo trong Chapterbreak, kết quả cho thấy các mô hình ngôn ngữ đang không thực sự hiệu quả, chẳng hạn, GPT-3 chỉ đúng 28% thời gian.
Thế nhưng, chương trình LongMEM đã tạo ra bất ngờ, khi có thể đánh bại tất cả các mô hình ngôn ngữ tiêu chuẩn với điểm số cao nhất là 40,5%, mặc dù LongMEM chỉ có 600 triệu ký tự ít hơn nhiều so với 175 tỷ ký tự của GPT-3.
Wang và nhóm nghiên cứu viết: “Những cải tiến đáng kể trên các bộ dữ liệu này chứng minh rằng LONGMEM có thể hiểu ngữ cảnh dài trong bộ nhớ đệm để hoàn thành tốt việc mô hình hóa ngôn ngữ cho các đầu vào trong tương lai”.
Bộ nhớ trong hệ thống AI của Bytedance được đánh giá tốt hơn Chat GPT
Trong một bài báo đăng trên arXiv vào tháng 4 với tiêu đề “Giải phóng khả năng nhập liệu vô hạn cho các mô hình ngôn ngữ lớn với hệ thống bộ nhớ tự điều khiển”, nhà nghiên cứu Xinnian Liang của ByteDance và các đồng nghiệp đã phát triển một chương trình bổ sung mang giúp mô hình ngôn ngữ lớn của họ tăng khả năng lưu trữ các chuỗi dài hơn.
Trong một “hệ thống bộ nhớ tự kiểm soát” hay còn được gọi là SCM, đầu vào do người dùng nhập tại dấu nhắc được bộ điều khiển bộ nhớ đánh giá để xem liệu nó có yêu cầu nhúng vào hệ thống bộ nhớ lưu trữ được gọi là luồng bộ nhớ hay không. Nó giống như SideNet của Wang và nhóm và ngân hàng bộ nhớ đi kèm.
Nếu cần bộ nhớ, kho lưu trữ các đầu vào trước đó được truy cập thông qua các công cụ cơ sở dữ liệu vectơ như PineCone. Dữ liệu đầu vào của người dùng là một truy vấn và nó được so khớp để phù hợp với cơ sở dữ liệu.
Một số truy vấn của người dùng không yêu cầu bộ nhớ, chẳng hạn như “kể cho tôi nghe một câu chuyện cười”, đây là một yêu cầu ngẫu nhiên mà bất kỳ mô hình ngôn ngữ nào cũng có thể xử lý. Nhưng yêu cầu “Bạn có nhớ kết luận mà chúng tôi đã đưa ra vào tuần trước về chế độ ăn kiêng thể dục không?” là yêu cầu truy cập vào nội dung trò chuyện trước đó.
Nói một cách ngắn gọn, lời nhắc của người dùng và bộ nhớ truy xuất được kết hợp trong “kết hợp đầu vào” và văn bản được kết hợp này trở thành đầu vào cho mô hình ngôn ngữ mà nó tạo ra phản hồi.
Kết quả cuối cùng là SCM có thể dẫn đầu ChatGPT trong các nhiệm vụ liên quan đến việc tham chiếu lại hàng trăm lượt trước đó trong một cuộc đối thoại, Liang và nhóm viết. Họ đã kết nối SCM của mình với một phiên bản GPT-3, được gọi là text-davinci-003 và kiểm tra hiệu suất của nó với cùng một đầu vào so với ChatGPT.
Trong một chuỗi bao gồm 4.000 mã thông báo, khi người dùng tìm kiếm sở thích từng được họ thảo luận trước đó, “hệ thống SCM cung cấp phản hồi chính xác cho truy vấn, thể hiện trí nhớ đặc biệt”, trong khi “ngược lại, có vẻ ChatGPT bị phân tâm bởi một lượng đáng kể dữ liệu lịch sử không liên quan”.
SCM cũng có thể tạo ra các bản tóm tắt hàng nghìn từ cho các văn bản dài chẳng hạn như báo cáo công việc. Nó thực hiện điều này bằng cách tóm tắt đệ quy văn bản, nghĩa là lưu trữ phần tóm tắt đầu tiên trong một luồng bộ nhớ, sau đó kết hợp phần tóm tắt trước đó với phần tóm tắt tiếp theo, v.v.
SCM cũng có thể xây dựng các mô hình ngôn ngữ lớn không phải chatbot có thể hoạt động giống như bot trò chuyện. “Kết quả thử nghiệm cho thấy hệ thống SCM của chúng tôi cho phép các LLM, vốn không được tối ưu hóa cho đối thoại nhiều lượt, đạt được khả năng đối thoại nhiều lượt tương đương với ChatGPT”, họ viết.
Công việc của cả Microsoft và TikTok có thể được coi là phần mở rộng của mục đích ban đầu của mô hình ngôn ngữ. Trước ChatGPT và tiền thân của nó, Transformer của Google, các tác vụ ngôn ngữ tự nhiên thường được gọi là mạng thần kinh hồi quy hoặc RNN. Mạng thần kinh hồi quy là một loại thuật toán có thể quay lại dữ liệu đầu vào trước đó để so sánh nó với đầu vào hiện tại.
Transformer và LLM chẳng hạn như ChatGPT đã thay thế RNN bằng cách tiếp cận đơn giản hơn — sự chú ý. Sự chú ý tự động so sánh mọi thứ đã nhập với mọi thứ đã nhập trước đó, để quá khứ luôn được đưa vào sử dụng.
Do đó, công việc nghiên cứu của Microsoft và TikTok chỉ đơn giản là mở rộng sự chú ý bằng các thuật toán được tạo ra một cách rõ ràng để gợi lại các yếu tố của quá khứ theo cách có tổ chức hơn.
Việc bổ sung bộ nhớ sẽ sớm trở thành tiêu chuẩn của các mô hình ngôn ngữ lớn trong tương lai, giúp các chương trình có thể tham khảo nội dung trước đó, chẳng hạn như lịch sử trò chuyện hoặc để giải quyết bộ nhớ dài hơn chẳng hạn toàn bộ văn bản của các tác phẩm rất dài.