Claude 3 Opus đánh bại GPT-4 trên Đấu trường Chatbot

Nếu bạn hỏi công chúng mô hình AI tốt nhất là gì, rất có thể hầu hết mọi người sẽ trả lời bằng ChatGPT. Mặc dù có nhiều người chơi tham gia vào năm 2024, LLM của OpenAI là thứ thực sự mang tính đột phá và giới thiệu AI có khả năng tạo ra sức mạnh mạnh mẽ cho đại chúng. Và như điều đó sẽ xảy ra, Mô hình ngôn ngữ lớn (LLM) của ChatGPT, GPT, đã liên tục được xếp hạng là mô hình có hiệu suất cao nhất trong số các mô hình ngang hàng, từ khi giới thiệu GPT-3.5, đến GPT-4 và hiện tại là GPT-4 Turbo.

Nhưng tình thế dường như đang thay đổi: Tuần này, Claude 3 Opus, LLM của Anthropic, lần đầu tiên đã vượt qua GPT-4 trên Chatbot Arena, khiến nhà phát triển ứng dụng Nick Dobos phải tuyên bố, “Nhà vua đã chết.” Nếu bạn kiểm tra bảng xếp hạng tại thời điểm viết bài này, Claude vẫn có lợi thế hơn GPT: Claude 3 Opus có thứ hạng Arena Elo là 1253, trong khi GPT-4-1106-preview có thứ hạng 1251, theo sát bởi GPT-4-0125-preview, với thứ hạng 1248.

Về giá trị của nó, Chatbot Arena xếp cả ba LLM này ở vị trí đầu tiên, nhưng Claude 3 Opus có lợi thế hơn một chút.

Các LLM khác của Anthropic cũng đang hoạt động tốt. Claude 3 Sonnet đứng thứ năm trong danh sách, ngay dưới Gemini Pro của Google (cả hai đều xếp ở vị trí thứ tư), trong khi Claude 3 Haiku, LLM cấp thấp hơn của Anthropic để xử lý hiệu quả, xếp ngay dưới phiên bản 0613 của GPT-4, nhưng chỉ trên phiên bản 0613 của GPT-4.

Cách Chatbot Arena xếp hạng LLM

Để xếp hạng các LLM khác nhau hiện có, Chatbot Arena yêu cầu người dùng nhập lời nhắc và đánh giá cách phản hồi của hai mô hình khác nhau, chưa được đặt tên. Người dùng có thể tiếp tục trò chuyện để đánh giá sự khác biệt giữa hai mô hình cho đến khi họ quyết định xem mô hình nào họ cho là hoạt động tốt hơn. Người dùng không biết họ đang so sánh mô hình nào (bạn có thể so sánh Claude với ChatGPT, Gemini với Llama của Meta, v.v.), điều này giúp loại bỏ mọi thành kiến do sở thích thương hiệu.

Tuy nhiên, không giống như các loại điểm chuẩn khác, không có tiêu chí đánh giá thực sự nào để người dùng đánh giá các mô hình ẩn danh của họ. Người dùng có thể tự quyết định LLM nào hoạt động tốt hơn, dựa trên bất kỳ số liệu nào mà họ quan tâm. Như nhà nghiên cứu AI Simon Willison nói với Ars Technica, phần lớn điều khiến LLM hoạt động tốt hơn trong mắt người dùng là về “rung cảm” hơn bất kỳ thứ gì khác. Nếu bạn thích cách Claude trả lời hơn ChatGPT, đó mới là điều thực sự quan trọng.

Trên hết, đó là minh chứng cho thấy những LLM này đã trở nên mạnh mẽ như thế nào. Nếu bạn đưa ra bài kiểm tra tương tự này nhiều năm trước, bạn có thể sẽ tìm kiếm dữ liệu được tiêu chuẩn hóa hơn để xác định LLM nào mạnh hơn, cho dù đó là tốc độ, độ chính xác hay tính mạch lạc. Giờ đây, Claude, ChatGPT và Gemini đang trở nên rất tốt, chúng gần như có thể thay thế cho nhau, ít nhất là trong phạm vi sử dụng AI tổng quát.

Mặc dù thật ấn tượng khi Claude lần đầu tiên vượt qua LLM của OpenAI, nhưng điều ấn tượng hơn là GPT-4 đã trụ vững được lâu như vậy. Bản thân LLM đã được một năm tuổi, trừ các bản cập nhật lặp đi lặp lại như GPT-4 Turbo, trong khi Claude 3 ra mắt trong tháng này. Ai biết được điều gì sẽ xảy ra khi OpenAI tung ra GPT-5, mà ít nhất theo một CEO ẩn danh, là “… thực sự tốt, giống như tốt hơn về mặt vật chất.” Hiện tại, có nhiều mô hình AI tổng quát, mỗi mô hình đều hiệu quả như nhau.

Chatbot Arena đã tích lũy được hơn 400.000 phiếu bầu của con người để xếp hạng các LLM này. Bạn có thể tự mình làm bài kiểm tra và thêm tiếng nói của mình vào bảng xếp hạng.

Mẹo vặt hay | Mẹo vặt cuộc sống | Kiến thức hằng ngày

10 hashtag nổi tiếng nhất trên Instagram…

Sử dụng phương pháp 12-12-12 để dọn…

‘TikTok Notes’ là cuộc thi mới nhất…

Digital Interview Tricks to Get ready for…

Những người bạn đồng hành kỳ lạ…

Làm thế nào bạn có thể thêm…

Cách thiết lập Home windows 11 mà…

What to Do When You Get Laid…

Các sản phẩm và công cụ tốt…

Cách tắt Meta AI trên Fb, Instagram,…

Claude 3 Opus đánh bại GPT-4 trên Đấu trường Chatbot

Cách Chatbot Arena xếp hạng LLM

10 hashtag nổi tiếng nhất trên Instagram là gì?

Sử dụng phương pháp 12-12-12 để dọn dẹp ngôi nhà...

‘TikTok Notes’ là cuộc thi mới nhất của Instagram

Digital Interview Tricks to Get ready for and Ace Your...

Những người bạn đồng hành kỳ lạ mà bạn chưa...

Làm thế nào bạn có thể thêm một phòng tắm...

Nghề nghiệp

Digital Interview Tricks to Get ready for and Ace Your Interview

What to Do When You Get Laid Off: Guidelines and Subsequent Steps

7 Other Kinds of Resumes to Discover a Task

Be informed How To Get A Activity With No Revel in

How To Get A Far flung Task (2024)

Du lịch

≡ 8 thứ bạn không bao giờ nên chạm vào trong phòng khách sạn 》 Mẹo vặt cuộc sống 360

≡ 27 mẹo hay trong khách sạn để cứu mạng bạn 》 Mẹo vặt cuộc sống 360

≡ 10 Điều Nên & Không Nên Khi Đi Máy Bay Giữa Đại Dịch 》 Mẹo vặt Cuộc sống 360

≡ Best 10 Địa Điểm Du Lịch Năm 2021 》 Mẹo vặt Lifestyles 360

≡ 6 lầm tưởng về sòng bạc mà bạn luôn nghĩ là đúng 》 Mẹo Cuộc Sống 360

Công nghệ

10 hashtag nổi tiếng nhất trên Instagram là gì?

‘TikTok Notes’ là cuộc thi mới nhất của Instagram

Cách thiết lập Home windows 11 mà không cần tài khoản Microsoft

Cách tắt Meta AI trên Fb, Instagram, Messenger và WhatsApp

Đánh giá: Anker Solix F3800 mang đến một cách ấn tượng (nhưng đắt tiền) để duy trì nguồn điện khi...

Liên kết website

Cách Chatbot Arena xếp hạng LLM

Tin cùng loại