Tất cả chúng ta nên sợ hãi trước Trình tạo video AI mới của OpenAI

Hôm qua, Sam Altman, Giám đốc điều hành của OpenAI, đã công bố Sora, trình tạo video AI mới của công ty. Giống như DALL-E và ChatGPT trước đó, Sora có thể nhận các lệnh ngôn ngữ tự nhiên từ người dùng, hiểu yêu cầu và tái tạo nó như quảng cáo. Chỉ thay vì tạo ra phản hồi dựa trên văn bản hoặc tạo hình ảnh, Sora tạo ra một video hoàn chỉnh, chân thực hơn bất kỳ chương trình AI nào tôi từng thấy. Tôi không có ý nói đó là một lời khen.

Ấn tượng ban đầu về Sora: Khủng bố

OpenAI có một loạt video khác nhau trên trang thông báo của Sora thể hiện những gì nó có thể làm và chúng thật ấn tượng—theo cách tệ nhất. Sora có thể tạo nội dung hoạt hình, chẳng hạn như “con quái vật lông ngắn quỳ bên cạnh ngọn nến đỏ đang tan chảy” hoặc “phim hoạt hình kangaroo disco nhảy múa”. Mặc dù kết quả cuối cùng không sánh được với chất lượng của Pixar hay DreamWorks, nhưng phần lớn chúng trông có vẻ chuyên nghiệp (và một số chắc chắn trông đẹp hơn những người khác). Tôi nghi ngờ nhiều người thoạt nhìn có thể đoán được rằng con người không tham gia vào quá trình này.

Nhưng mặc dù tiềm năng hoạt hình của nó đã đủ đáng lo ngại, nhưng chính những video thực tế lại hết sức đáng sợ. OpenAI đã trình chiếu “cảnh quay bằng máy bay không người lái” về một nhà thờ lịch sử trên bờ biển Amalfi, cuộc diễu hành của người dân mừng Tết Nguyên đán và cảnh quay theo dõi một con phố đầy tuyết ở Tokyo, và tôi hứa với bạn rằng bạn sẽ cho rằng những video này là có thật trên chiếc đồng hồ đầu tiên của bạn. Ý tôi là, một số trong số chúng dường như không được tạo ra bởi AI đối với tôi, và tôi biết họ đang.

Ngay cả những lỗi có lỗi AI, như cong vênh và dịch chuyển nội dung, cũng có thể bị nhầm lẫn với việc nén video. Có một video quay cảnh những chú chó con đang chơi đùa trên tuyết và mặc dù có một số trục trặc mà bạn sẽ phát hiện ra sau khi biết nó không có thật, nhưng tính chất vật lý và chất lượng của hình ảnh sẽ tạo ra ảo ảnh. Làm thế nào không có con chó con nào có thật? Họ rõ ràng rất yêu tuyết. Chúa ơi, có phải chúng ta đang sống trong Ma trận rồi không?

Sora hoạt động như thế nào?

Mặc dù chúng tôi không có tất cả thông tin chi tiết nhưng OpenAI mô tả các quy trình cốt lõi của Sora trong báo cáo kỹ thuật của nó. Trước hết, Sora là một mô hình phổ biến. Giống như trình tạo hình ảnh AI, Sora tạo video bằng cách bắt đầu bằng một loạt nhiễu tĩnh và loại bỏ nhiễu đó cho đến khi nó giống với hình ảnh bạn đang tìm kiếm.

Sora được đào tạo về các đơn vị dữ liệu được gọi là bản vá: Các bản vá này được tạo bằng cách nén hình ảnh và video vào “không gian tiềm ẩn có chiều thấp hơn”, sau đó chia nhỏ dữ liệu đó thành các bản vá “không thời gian”, đơn vị mà mô hình thực sự hiểu được. Các bản vá này chứa thông tin về không gian và thời gian cho một video nhất định. Sau đó, Sora tạo video trong không gian “tiềm ẩn” đó và bộ giải mã sẽ ánh xạ video đó trở lại không gian “pixel”, tạo ra kết quả cuối cùng.

Tuy nhiên, công ty không xác nhận dữ liệu video và hình ảnh này đến từ đâu. (Thật tò mò.) Họ nói rằng Sora được xây dựng dựa trên nghiên cứu từ các mô hình DALL-E và GPT, sử dụng kỹ thuật tạo lại phụ đề tương tự từ DALL-E 3 để huấn luyện mô hình theo lời nhắc mô tả của người dùng.

Sora có thể làm gì khác?

Mặc dù rõ ràng nó có thể tạo video từ lời nhắc tiêu chuẩn, nhưng OpenAI cho biết Sora có thể tạo video từ hình ảnh tĩnh. Các nhà nghiên cứu của Apple đang nghiên cứu loại quy trình tương tự với chương trình Keyframer của họ.

Nó cũng có thể mở rộng video hiện có về phía trước hoặc phía sau theo thời gian. OpenAI đã đưa ra một ví dụ về điều này bằng cách sử dụng video về xe điện ở San Francisco. Nó đã thêm khoảng 15 giây video bổ sung vào phần đầu theo ba cách khác nhau. Vì vậy, ban đầu cả ba đều có vẻ khác nhau nhưng cuối cùng tất cả đều đồng bộ hóa thành cùng một video clip gốc. Họ cũng có thể sử dụng kỹ thuật này để tạo ra “vòng lặp hoàn hảo”.

OpenAI cho rằng Sora hoàn hảo cho việc mô phỏng thế giới. (Thật tuyệt vời!) Nó có thể tạo video với các thành phần 3D nhất quán để mọi người và đồ vật ở đúng vị trí và tương tác như bình thường. Sora không mất dấu người và đồ vật khi họ rời khỏi khung hình; nó có thể ghi nhớ những gì con người và đồ vật làm để lại tác động đến “thế giới”, chẳng hạn như ai đó đang vẽ trên vải. Nó cũng có thể tạo ra Minecraft một cách nhanh chóng, mô phỏng người chơi đồng thời tạo ra thế giới xung quanh nó.

Sora không hoàn hảo

Đối với họ, OpenAI lưu ý đến những điểm yếu và hạn chế hiện tại của Sora. Theo công ty, mô hình này có thể gặp khó khăn trong việc tái tạo vật lý chính xác trong một “cảnh phức tạp” cũng như các tình huống nguyên nhân và kết quả nhất định. OpenAI đưa ra ví dụ về video một người đang ăn bánh quy nhưng khi nhìn thấy chiếc bánh sau đó lại không có vết cắn. Rõ ràng, kính vỡ cũng là một vấn đề cần kết xuất.

Công ty cũng cho biết Sora có thể làm xáo trộn “chi tiết không gian” trong lời nhắc của bạn (chẳng hạn như nhầm lẫn từ trái sang phải) và có thể không thể hiển thị chính xác các sự kiện xảy ra theo thời gian.

Bạn có thể thấy một số hạn chế này trong các video mà OpenAI hiển thị làm bằng chứng cho thấy Sora đã mắc “sai lầm”. Đối với lời nhắc yêu cầu Sora tạo ra một người đang chạy, Sora tạo ra một người đàn ông chạy sai hướng trên máy chạy bộ; Khi lời nhắc yêu cầu các nhà khảo cổ học phát hiện ra một chiếc ghế nhựa trên sa mạc, các “nhà khảo cổ học” sẽ kéo một tấm vải ra khỏi cát và về cơ bản chiếc ghế đó sẽ biến thành hiện thực từ hư không. (Cái này đặc biệt khó xem).

Tương lai không phải là bây giờ, nhưng nó sẽ rất sớm thôi

Nếu bạn lướt qua trang giới thiệu của Sora, bạn có thể bị một cơn hoảng loạn nhỏ. Nhưng ngoại trừ những video mà OpenAI nêu rõ là sai sót, đây là những video hay nhất mà Sora có thể sản xuất hiện tại, được tuyển chọn để thể hiện khả năng của mình.

Sam Altman đã lên Twitter sau thông báo và yêu cầu người dùng gửi phản hồi cho anh ấy để thông qua Sora. Anh ấy đã tweet kết quả cuối cùng về khoảng tám lựa chọn và tôi nghi ngờ bất kỳ lựa chọn nào trong số đó sẽ được đưa lên trang thông báo. Lần thử đầu tiên về “Nửa vịt nửa rồng bay qua khung cảnh hoàng hôn tuyệt đẹp với một chú chuột hamster mặc đồ phiêu lưu trên lưng” tệ đến mức nực cười, trông giống như thứ gì đó trong bản thảo đầu tiên của một bộ phim hoạt hình chuyển trực tiếp sang DVD từ những năm 2000 .

Tweet có thể đã bị xóa

Các kết quả cuối cùng Mặt khác, đối với “hai chú chó tha mồi vàng đang podcast trên đỉnh núi”, thì thật khó hiểu: Có vẻ như ai đó đã lấy đoạn phim có sẵn của tất cả nội dung và nhanh chóng chỉnh sửa chúng chồng lên nhau. Nó trông không “thật” như Photoshop, điều này một lần nữa đặt ra câu hỏi là cái gì chính xác Sora được đào tạo về:

Tweet có thể đã bị xóa

Những bản demo nhanh này thực sự khiến tôi cảm thấy tốt hơn một chút, nhưng chỉ vậy thôi. Tôi không nghĩ Sora đã đến mức có thể tạo ra những video sống động như thật mà không thể nhận thấy so với thực tế chỉ trong chốc lát. Có thể có hàng nghìn kết quả mà OpenAI đã trải qua trước khi giải quyết những điểm nổi bật mà chúng tôi thấy trong thông báo của nó.

Nhưng điều đó không có nghĩa là Sora không đáng sợ. Sẽ không mất nhiều nghiên cứu hoặc thời gian để cải thiện nó. Ý tôi là, đây là nơi tạo ra video AI cách đây 10 tháng. Tôi tự hỏi Sora sẽ phun ra điều gì nếu được nhắc nhở tương tự:

OpenAI kiên quyết rằng họ đang thực hiện các biện pháp phòng ngừa thích hợp ở đây: Họ hiện đang làm việc với các nhóm đỏ để nghiên cứu giảm thiểu tác hại và muốn cung cấp cho nội dung do Sora tạo ra một hình mờ tương tự như các chương trình AI khác, vì vậy bạn luôn có thể biết khi nào thứ gì đó được tạo ra bằng công nghệ của OpenAI .

Nhưng ý tôi là, hãy đến TRÊN: Một số video này quá hay. Chúng tôi đang bỏ qua những thứ có thể đánh lừa bạn ngay từ cái nhìn đầu tiên, nhưng nhìn lại thì trông có vẻ giả tạo. Bây giờ, một số video này thật khó tin không phải thực tế. Nếu công cụ này có thể gây ấn tượng với những người trong chúng ta, những người nhìn chằm chằm vào nội dung AI để kiếm sống, thì làm sao người dùng mạng xã hội bình thường có thể biết video thực tế trên nguồn cấp dữ liệu Facebook của họ được tạo bởi robot?

Ở đây không quá đen tối, nhưng hơn 50 quốc gia sẽ tổ chức các cuộc bầu cử có tỷ lệ cược cao trong năm nay và ở Hoa Kỳ, AI đã được sử dụng để cố gắng đánh lừa cử tri—và đó chỉ là với âm thanh. Bạn thực sự sẽ cần phải tăng công suất phát hiện những điều nhảm nhí của mình lên mức tối đa trong năm nay, bởi vì tôi tưởng tượng rằng chúng ta sẽ thấy một số chiến dịch lừa đảo đa phương tiện và thông tin sai lệch thuyết phục nhất từ trước đến nay.

Tốt hơn hết bạn nên hy vọng những hình mờ này thực sự hoạt động, mọi người. Nó sẽ là một hoang dã lái.

Mẹo vặt hay | Mẹo vặt cuộc sống | Kiến thức hằng ngày

Ấn tượng ban đầu về Sora: Khủng bố

Sora hoạt động như thế nào?

Sora có thể làm gì khác?

Sora không hoàn hảo

Tương lai không phải là bây giờ, nhưng nó sẽ rất sớm thôi

Tin cùng loại