Phiên bản mới nhất của AI của Google—Gemini 1.5 Pro—hiện có thể nghe thấy bạn.
Gemini là bot được đổi thương hiệu của Google, trước đây được gọi là Bard và Gemini 1.5 Pro là phiên bản mới nhất của mô hình được cung cấp cho một số nhà phát triển hạn chế vào tháng 2 năm nay. Gemini 1.5 Pro có khả năng xử lý các luồng âm thanh văn bản, mã, video và (hiện) đã tải lên, bao gồm cả âm thanh từ video mà nó có thể nghe, phân tích và trích xuất thông tin mà không cần bản ghi tương ứng.
Trên thực tế, việc hỗ trợ các tệp âm thanh có nghĩa là người dùng có thể sử dụng Gemini 1.5 Pro để thu thập thông tin từ các cuộc gọi thu nhập, ghi lại các cuộc phỏng vấn đã ghi hoặc phân tích video bằng âm thanh—về cơ bản là bất kỳ loại tệp âm thanh nào. AI có thể xử lý các lời nhắc bao gồm một giờ video, 11 giờ âm thanh, 30.000 dòng mã hoặc hơn 700.000 từ trong một luồng.
Google cũng đang cung cấp Gemini 1.5 Pro dưới dạng bản xem trước công khai cho những người có quyền truy cập vào Vertex AI, nhưng chưa có bản thử nghiệm beta công khai nào sắp diễn ra. Hiện tại, hầu hết người dùng tương tác với AI của Google thông qua chatbot Gemini.