Danh hiệu AI tạo sinh số một vẫn thuộc về GPT-4 kể từ thời điểm nó được giới thiệu. Công cụ này đứng đầu trong các mục đánh giá quan trọng. Đặc biệt, sản phẩm từ OpenAI bỏ xa đối thủ về “vibes” (tạm dịch: xúc cảm). Hầu hết người dùng dành thời gian sử dụng, so sánh các mô hình ngôn ngữ lớn đồng tình về khả năng làm việc vượt trội của GPT-4, từ thời điểm nó được giới thiệu.
Tuy nhiên gần đây, bản cập nhật lớn cho các LLM khác khiến sự vượt trội của ChatGPT lung lay. 4 sản phẩm mới được ra mắt trong một tuần, có điểm chuẩn tiệm cận và vượt qua công cụ từ OpenAI. Đặc biệt, phần cảm xúc của chúng cũng rất tốt.
Trong đó, giới chuyên gia đánh giá cao phiên bản Claude 3 Opus của Anthropic. Khả năng thể hiện cảm xúc từ giải pháp này rất mạnh mẽ. Nó được đánh giá có thể vượt qua GPT-4 với cách biệt rõ ràng. Trong các bài đánh giá hiệu năng (benchmark) LLM, Claude 3 Opus có điểm số dẫn đầu ở mọi hạng mục. Nó thể hiện khả năng vượt trội ở phần lý luận, giải toán…
Chuyên gia AI Simon Willison cho biết đã chuyển sang sử dụng Claude 3 cho hầu hết tác vụ, thay thế sản phẩm từ OpenAI. Trong đó, ông đánh giá cao khả năng xử lý các đoạn code trong việc lập trình.
“Gần đây tôi gặp sự cố khi nhập câu lệnh phức tạp, làm cho GPT-4 tạo ra phần code JavaScript thất bại. Tuy nhiên, tôi có câu trả lời hoàn hảo khi chạy bằng Claude 3”, Simon Willison cho biết.
TechCrunch đánh giá cao giải pháp từ Anthropic trong tác vụ tóm tắt tài liệu. Theo đó, các mô hình AI thường gặp lỗi với đầu vào quá lớn. Claude 3 cho ra kết quả tốt nhất trong những phiên bản LLM được đưa vào thử nghiệm.
“Claude 3 Opus là một trong những chatbot làm việc hiệu quả nhất tôi từng dùng qua. Ít nhất nó cũng cho ra những câu trả lời ngắn gọn, dễ hiểu và không chứa từ chuyên ngành”, phóng viên Kyle Wiggers của TechCrunch nhận xét.
Tuy nhiên, công cụ của Anthropic không được mở rộng để làm việc với dữ liệu trên website hoặc các đầu vào khác. Nó chỉ trả lời được câu hỏi về vấn đề xảy ra trước tháng 8/2023. Đồng thời, Claude 3 Opus cũng thua kém chatbot khác khi nói đến những sự kiện gần đây.
GPT-4 có thể làm việc với rất nhiều loại dữ liệu đầu vào. Gemini 1.5 phân tích được cả video. Công cụ từ Google được mở để truy cập hộp thư Gmail. Đây là những điều mà Anthropic chưa phát triển cho Claude 3. Dù có khả năng xử lý nhanh, chính xác và thông minh hơn, giá 20 USD/tháng của sản phẩm này vẫn bị cho là đắt khi so với GPT-4 và Gemini.