Thời điểm ra mắt, Gemini của Google thường “so kè” với ChatGPT về tốc độ khi liên tục được nhấn mạnh rằng mạnh gấp 5 lần và nhanh gấp nhiều lần GPT-4 trong khi "ngốn" ít GPU hơn.
Có vẻ như OpenAI không hề thích điều này, bởi chatbot GPT-4o vừa mới ra mắt nhanh hơn nhiều so với GPT-4, đến nỗi biến GPT-4 trở nên lỗi thời khi đặt trên bàn cân.
Tốc độ nhanh gấp 2 lần GPT-4 Turbo
Trên thực tế, GPT-4 đã quá đủ tốt cho nhiều người dùng, nhưng nhược điểm lớn nhất của nó là nó chậm so với các LLM khác. Gemini của Google hay Claude 3 từ Anthropic hoàn toàn vượt trội ChatGPT ở tốc độ phản hồi. Đương nhiên, GPT-4 vẫn có một số lợi thế khác để giữ chân người dùng, nhưng tốc độ, chất lượng câu trả lời và ngôn ngữ được hỗ trợ là những gì đang kìm hãm mô hình này.
GPT-4o ra mắt như một lời đáp trả. Trong bản demo, GPT-4o đã tạo ra câu trả lời 488 từ trong vòng chưa đầy 12 giây. Một câu lệnh tương tự có thể sẽ mất gần một phút nếu dùng GPT-4. Đây cũng là với những cải tiến nhỏ mà GPT-4o mang lại. Nó nhanh đến mức đáng kinh ngạc, một lần nữa đặt ra câu hỏi liệu ChatGPT có phải là vua của mô hình ngôn ngữ hay không, XDA nhận định.
Trong video khác, việc tạo một tệp tin CSV chứa thông tin về 50 thành phố lớn nhất thế giới mất GPT-4o chưa đầy một phút, trong khi GPT-4 mất rất nhiều thời gian để thực hiện tác vụ tương tự. Giám đốc công nghệ OpenAI Mira Murati nói với khán giả rằng nó nhanh hơn nhiều so với mô hình ChatGPT-4 trước đó và được cải thiện về văn bản, video và âm thanh. "Xét về tính ứng dụng và độ tiện lợi, đây là một bước tiến lớn", bà Murati khẳng định.
Nếu với bạn, nhược điểm lớn nhất của GPT-4 là tốc độ, hãy yên tâm rằng vấn đề đó đã biến mất hoàn toàn. GPT-4o nhanh hơn đáng kể so với GPT-4 thông thường, thậm chí nhanh gấp đôi GPT-4 Turbo. Thêm vào đó, mô hình này rẻ hơn 50% cho các nhà phát triển nếu muốn tự triển khai và cũng được nâng mức giới hạn tốc độ cao hơn nhiều để sử dụng. Nó được hưởng lợi từ khả năng suy luận đã qua cải thiện của GPT-4 Turbo.
Dịch song ngữ ngay tức thì
GPT-4 Omni (hay viết tắt là GPT-4o) được OpenAI giới thiệu vào ngày 13/5 với tên gọi “bản cập nhật mùa xuân”. Ngoài việc làm cho phiên bản ChatGPT này nhanh hơn và miễn phí cho nhiều người hơn, GPT-4o mở rộng cách người dùng tương tác như trò chuyện tự nhiên thông qua ứng dụng dành cho smartphone hay PC.
ChatGPT mới được cập nhật cùng với trợ lý giọng nói có thể cạnh tranh với Alexa của Amazon. Chatbot nói chuyện tự nhiên đến mức có thể bắt chước các đặc điểm của người thật như ngắt lời, nghe - hiểu tông giọng và thậm chí là cố tình mắc lỗi.
Trong bản demo trực tiếp, MC đã yêu cầu GPT-4o phản hồi về kỹ thuật thở của mình. Anh thở dốc vào điện thoại, khiến ChatGPT trả lời bằng câu châm biếm dí dỏm: "Anh không phải là một chiếc máy hút bụi", sau đó đưa ra lời khuyên học cách thở chậm hơn. Điều này thể hiện khả năng nghe - hiểu và phản ứng với các sắc thái của con người.
GPT-4o cũng có khả năng trả lời các bình luận y hệt con người. Chẳng hạn như khi được khen là "hữu ích và tuyệt vời", nó trả lời: "Ồ dừng lại đi, bạn khiến tôi đỏ mặt đấy".
Ngoài khiếu hài hước, chatbot mới cũng có khả năng thay đổi giọng điệu của câu trả lời, thêm nhiều cử chỉ trong lúc truyền tài "suy nghĩ" bằng lời nói. Giống như các cuộc trò chuyện giữa người với người, bạn có thể cắt ngang giọng của trợ lý AI và sửa nó, để nó thay đổi nội dung hoặc ngừng nói. Bạn thậm chí có thể yêu cầu nó nói bằng một giọng điệu khác hay nói theo giọng robot tùy thích và cung cấp bản dịch đi kèm.
Trong một bản demo khác, 2 người thuyết trình trên sân khấu - một người nói tiếng Anh và một người nói tiếng Italy - đã có một cuộc trò chuyện với bằng GPT-4o. Nó có thể nhanh chóng cung cấp bản dịch từ tiếng Italy sang tiếng Anh và sau đó dịch liền mạch từ tiếng Anh trở lại tiếng Italy.
AI hiểu và biểu đạt cảm xúc như người thật
Bên cạnh đó, GPT-4o không chỉ hiểu giọng nói con người, mà cũng có thể nhìn - hiểu hình ảnh. Đơn cử như chatbot có thể nhìn vào một bức ảnh selfie và viết phần mô tả liên quan đến trang phục bạn đang mặc hay cảm xúc của bạn lúc đó.
OpenAI cho biết GPT-4o không giống như các phiên bản trước, người dùng có thể làm gián đoạn mô hình AI khi nó đang nói và yêu cầu nó trả lời trong thời gian thực, giảm độ trễ thời gian 2-3 giây.
ChatGPT hiện cũng có khả năng phát hiện cảm xúc bằng cách nhìn vào khuôn mặt qua camera. Trong bản demo, AI nhận biết được khuôn mặt tươi cười của đại diện OpenAI và hỏi: “Bạn có muốn chia sẻ điều gì đã khiến tâm trạng bạn tốt thế không”.
Ngoài cảm nhận được cảm xúc, GPT-4o còn có thể tạo ra cảm xúc. Khi trình diễn, nhân viên OpenAI đã yêu cầu trợ lý AI đọc một câu chuyện trước khi đi ngủ với biểu cảm đa dạng và kịch tính hơn. Kết quả là, GPT-4o đọc với giọng hùng hồ hơn rất nhiều và thậm chí có thể chuyển sang giọng nói robot theo lệnh. Bạn thậm chí có thể yêu cầu nó hát và ngay lập tức nhận thấy sự thay đổi.
Trong suốt thời gian dùng thử, ChatGPT hoạt động nhanh chóng và không gặp khó khăn gì trong tác vụ nghe, đọc hiểu vấn đề khi người dùng đặt câu hỏi cho. GPT-4o cũng tự nhiên hơn so với việc nhập truy vấn, vì người dùng có thể nói chuyện với điện thoại của mình và nhận được phản hồi như ý muốn - không phải là câu trả lời kiểu mẫu: “Hãy tự tra Google đi”.
Một cập nhật lớn khác là mô hình AI của OpenAI đang được đưa lên Giao diện lập trình ứng dụng trí tuệ nhân tạo (API). Điều này có nghĩa là các nhà phát triển có thể bắt đầu xây dựng mô hình của riêng họ với giá rẻ hơn 50% và nhanh hơn 2 lần. ChatGPT-4o cũng có sẵn bằng 50 ngôn ngữ, hỗ trợ 97% dân số thế giới.
Theo Tom’s Guide, đây mới chỉ là cái nhìn thoáng qua về những gì ChatGPT-4o có thể làm. Nhưng như thế cũng đã đủ cho thấy nó đã có những bước nhảy vọt thông minh và linh hoạt hơn Siri, Google Assistant/Gemini và Alexa. Với tin đồn Apple đang cải tiến Siri 2.0 và Google I/O sắp tổ chức vào ngày mai, cuộc đua AI đang ngày càng nóng lên.