Công nghệ

Claude 3 Opus đánh bại GPT-4 trên Đấu trường Chatbot



Nếu bạn hỏi công chúng mô hình AI tốt nhất là gì, rất có thể hầu hết mọi người sẽ trả lời bằng ChatGPT. Mặc dù có nhiều người chơi tham gia vào năm 2024, LLM của OpenAI là thứ thực sự mang tính đột phá và giới thiệu AI có khả năng tạo ra sức mạnh mạnh mẽ cho đại chúng. Và như điều đó sẽ xảy ra, Mô hình ngôn ngữ lớn (LLM) của ChatGPT, GPT, đã liên tục được xếp hạng là mô hình có hiệu suất cao nhất trong số các mô hình ngang hàng, từ khi giới thiệu GPT-3.5, đến GPT-4 và hiện tại là GPT-4 Turbo.

Nhưng tình thế dường như đang thay đổi: Tuần này, Claude 3 Opus, LLM của Anthropic, lần đầu tiên đã vượt qua GPT-4 trên Chatbot Arena, khiến nhà phát triển ứng dụng Nick Dobos phải tuyên bố, “Nhà vua đã chết.” Nếu bạn kiểm tra bảng xếp hạng tại thời điểm viết bài này, Claude vẫn có lợi thế hơn GPT: Claude 3 Opus có thứ hạng Arena Elo là 1253, trong khi GPT-4-1106-preview có thứ hạng 1251, theo sát bởi GPT-4-0125-preview, với thứ hạng 1248.

Về giá trị của nó, Chatbot Arena xếp cả ba LLM này ở vị trí đầu tiên, nhưng Claude 3 Opus có lợi thế hơn một chút.

Các LLM khác của Anthropic cũng đang hoạt động tốt. Claude 3 Sonnet đứng thứ năm trong danh sách, ngay dưới Gemini Pro của Google (cả hai đều xếp ở vị trí thứ tư), trong khi Claude 3 Haiku, LLM cấp thấp hơn của Anthropic để xử lý hiệu quả, xếp ngay dưới phiên bản 0613 của GPT-4, nhưng chỉ trên phiên bản 0613 của GPT-4.

Cách Chatbot Arena xếp hạng LLM

Để xếp hạng các LLM khác nhau hiện có, Chatbot Arena yêu cầu người dùng nhập lời nhắc và đánh giá cách phản hồi của hai mô hình khác nhau, chưa được đặt tên. Người dùng có thể tiếp tục trò chuyện để đánh giá sự khác biệt giữa hai mô hình cho đến khi họ quyết định xem mô hình nào họ cho là hoạt động tốt hơn. Người dùng không biết họ đang so sánh mô hình nào (bạn có thể so sánh Claude với ChatGPT, Gemini với Llama của Meta, v.v.), điều này giúp loại bỏ mọi thành kiến ​​​​do sở thích thương hiệu.

Tuy nhiên, không giống như các loại điểm chuẩn khác, không có tiêu chí đánh giá thực sự nào để người dùng đánh giá các mô hình ẩn danh của họ. Người dùng có thể tự quyết định LLM nào hoạt động tốt hơn, dựa trên bất kỳ số liệu nào mà họ quan tâm. Như nhà nghiên cứu AI Simon Willison nói với Ars Technica, phần lớn điều khiến LLM hoạt động tốt hơn trong mắt người dùng là về “rung cảm” hơn bất kỳ thứ gì khác. Nếu bạn thích cách Claude trả lời hơn ChatGPT, đó mới là điều thực sự quan trọng.

Trên hết, đó là minh chứng cho thấy những LLM này đã trở nên mạnh mẽ như thế nào. Nếu bạn đưa ra bài kiểm tra tương tự này nhiều năm trước, bạn có thể sẽ tìm kiếm dữ liệu được tiêu chuẩn hóa hơn để xác định LLM nào mạnh hơn, cho dù đó là tốc độ, độ chính xác hay tính mạch lạc. Giờ đây, Claude, ChatGPT và Gemini đang trở nên rất tốt, chúng gần như có thể thay thế cho nhau, ít nhất là trong phạm vi sử dụng AI tổng quát.

Mặc dù thật ấn tượng khi Claude lần đầu tiên vượt qua LLM của OpenAI, nhưng điều ấn tượng hơn là GPT-4 đã trụ vững được lâu như vậy. Bản thân LLM đã được một năm tuổi, trừ các bản cập nhật lặp đi lặp lại như GPT-4 Turbo, trong khi Claude 3 ra mắt trong tháng này. Ai biết được điều gì sẽ xảy ra khi OpenAI tung ra GPT-5, mà ít nhất theo một CEO ẩn danh, là “… thực sự tốt, giống như tốt hơn về mặt vật chất.” Hiện tại, có nhiều mô hình AI tổng quát, mỗi mô hình đều hiệu quả như nhau.

Chatbot Arena đã tích lũy được hơn 400.000 phiếu bầu của con người để xếp hạng các LLM này. Bạn có thể tự mình làm bài kiểm tra và thêm tiếng nói của mình vào bảng xếp hạng.



Mẹo vặt hay | Mẹo vặt cuộc sống | Kiến thức hằng ngày

Tin cùng loại

Các thành phố tốt nhất của Hoa Kỳ cho việc làm công nghệ bên ngoài Thung lũng Silicon

Mẹo Vặt

Giá của Tidal đang giảm (rất nhiều)

Mẹo Vặt

Imaginative and prescient Professional có thể có ý nghĩa gì đối với tương lai của thực tế hỗn hợp (và Apple)

Mẹo Vặt