Tên đầy đủ của là Chat Generative Pre-trained Transformer. “Về cơ bản nhiệm vụ của các mô hình ngôn ngữ như ChatGPT là đoán từ tiếp theo dựa trên các từ đằng trước. Khi người dùng đưa vào một câu hỏi, nó dựa vào câu đó để phát sinh thành văn bản, và lại dựa vào văn bản nó đã phát sinh để phát sinh tiếp”, TS Nguyễn Xuân Hoài, nhà nghiên cứu học máy AI Academy, chia sẻ với Zing.
Theo từ điển Oxford, tiếng Anh có khoảng 170.000 nghìn từ đang được sử dụng. Nếu phát sinh văn bản chỉ dựa vào một từ ngay trước, thì với mỗi từ tạo ra mô hình cần khoảng 170.000 tham số - giá trị trong mạng được điều chỉnh trong quá trình vận hành.
“Càng dựa trên nhiều từ đằng trước để có ngữ cảnh, thì dự đoán càng chính xác, nhưng số tham số cần thiết sẽ tăng lên theo cấp số mũ. Dùng 2 từ thì sẽ cần 170.000^2 tham số”, chuyên gia giải thích. Nếu với mỗi từ phát sinh ra, mô hình dựa trên ngữ cảnh lớn hơn nữa để dự đoán, ví dụ như đoạn 20 từ ngay trước, thì gần như không máy tính nào có thể tính toán được lượng tham số lớn như vậy.
Vì thế các mô hình ngôn ngữ lớn như ChatGPT không sử dụng toàn bộ văn bản đằng trước làm ngữ cảnh, mà dùng một kỹ thuật để chọn ra một vài từ quan trọng nhất định và dự đoán dựa trên những từ đó.
“Nhưng vấn đề là từ nào quan trọng, từ tiếp theo sẽ bị ràng buộc bởi những từ nào trong cả đoạn trước đó? Kiến trúc để làm được điều này cho mô hình ngôn ngữ là Transformer”, TS Xuân Hoài cho biết. “Kiến trúc đột phá trong học máy này được đưa ra bởi Google năm 2017”.
Cùng với kiến trúc này, OpenAI sử dụng kỹ thuật học máy self-supervised hay tự giám sát. Khi được cho một câu dài, ví dụ như “Tôi đến trò chuyện với phóng viên ở tòa soạn”, máy sẽ tự cắt một phần của câu và học cách dự đoán dựa trên phần còn lại, chuyên gia giải thích. Chẳng hạn, mô hình có thể chọn ra các từ “phóng viên” và “đến” ở đoạn trước để dự đoán từ “tòa soạn” hay “ở” ở đoạn sau.
Quy mô của GPT-3, được OpenAI ra mắt năm 2020, là 175 tỷ tham số, gấp hơn 15 lần thế hệ mô hình ngôn ngữ lớn trước của công ty là GPT-2. Để huấn luyện được mô hình với lượng tham số lớn như vậy cần một lượng dữ liệu khổng lồ, và cơ chế học này giúp OpenAI xử lý dữ liệu và huấn luyện được mô hình GPT-3, nền tảng của ChatGPT.
“Có thể tóm tắt như vậy về các kỹ thuật cơ bản đằng sau GPT-3 và ChatGPT, nhưng trên thực tế OpenAI đã mất nhiều năm nghiên cứu và còn rất nhiều kỹ thuật và bí mật công nghệ đằng sau để có thể xây dựng được mô hình ngôn ngữ lớn như vậy”, TS Xuân Hoài cho biết.
Hiện có một làn sóng lo ngại rằng AI, với những nghiên cứu thiếu sót hay thậm chí bịa đặt, có thể gây nguy hại cho các tài liệu học thuật. Springer-Nature, một đơn vị xuất bản gần 3.000 tạp chí, đã cập nhật chính sách của mình, tuyên bố rằng ChatGPT không thể được liệt kê là tác giả. Nhiều đơn vị xuất bản khác đã thực hiện những cập nhật tương tự.