Các công ty AI đang cạn kiệt Web

AI đang cạn kiệt internet để sử dụng. Trong khi bạn và tôi đăng nhập vào trang web toàn cầu này của chúng ta để tận hưởng (hoặc có thể không), đào tạo và kết nối, các công ty sẽ sử dụng dữ liệu đó để đào tạo các mô hình ngôn ngữ lớn (LLM) và phát triển khả năng của họ. Đó là cách ChatGPT không chỉ biết thông tin thực tế mà còn biết cách xâu chuỗi các câu trả lời lại với nhau: Phần lớn những gì nó “biết” dựa trên cơ sở dữ liệu khổng lồ về nội dung internet.

Nhưng trong khi nhiều công ty dựa vào internet để đào tạo LLM của họ, họ đang gặp phải một vấn đề: Internet là hữu hạn và các công ty phát triển AI muốn họ tiếp tục phát triển—một cách nhanh chóng. Như tờ Wall Street Journal đưa tin, các công ty như OpenAI và Google đang phải đối mặt với thực tế này. Một số ước tính trong ngành cho biết họ sẽ hết Internet trong khoảng hai năm nữa, vì cả dữ liệu chất lượng cao đều trở nên khan hiếm và do một số công ty giữ dữ liệu của họ không lọt vào tay AI.

AI cần một nhiều Dữ liệu

Đừng đánh giá thấp lượng dữ liệu mà các công ty này cần, hiện tại và trong tương lai. Nhà nghiên cứu Epoch Pablo Villalobos nói với Wall Street Journal rằng OpenAI đã đào tạo GPT-4 trên khoảng 12 triệu mã thông báo, đó là các từ và các phần từ được chia nhỏ theo cách LLM có thể hiểu được. (OpenAI cho biết một mã thông báo có khoảng 0,75 từ, vì vậy 12 triệu mã thông báo là khoảng chín triệu từ.) Villalobos tin rằng GPT-5, mô hình lớn tiếp theo của OpenAI, sẽ cần 60 đến 100 nghìn tỷ token để theo kịp mức tăng trưởng dự kiến. Đó là 45 đến 75 nghìn tỷ từ, theo số lượng của OpenAI. Người đá? Villalobos cho biết sau khi sử dụng hết tất cả dữ liệu chất lượng cao có sẵn trên internet, bạn vẫn cần từ 10 đến 20 nghìn tỷ token hoặc thậm chí nhiều hơn.

Mặc dù vậy, Villalobos không tin rằng tình trạng thiếu dữ liệu này sẽ thực sự xảy ra cho đến khoảng năm 2028, nhưng những người khác lại không lạc quan như vậy, đặc biệt là các công ty AI. Họ nhìn thấy chữ viết trên tường và đang tìm kiếm các lựa chọn thay thế cho dữ liệu Internet để đào tạo mô hình của họ.

Vấn đề dữ liệu AI

Tất nhiên, có một số vấn đề cần giải quyết ở đây. Đầu tiên là tình trạng thiếu dữ liệu đã nói ở trên: Bạn không thể đào tạo LLM mà không có dữ liệu và các mô hình khổng lồ như GPT và Gemini cần một nhiều Dữ liệu. Tuy nhiên, điều thứ hai là chất lượng của dữ liệu đó. Các công ty sẽ không khai thác mọi ngóc ngách có thể tưởng tượng được của Internet vì ở đây có rất nhiều rác. OpenAI không muốn đưa thông tin sai lệch và nội dung kém chất lượng vào GPT, vì mục tiêu của nó là tạo ra LLM có thể phản hồi chính xác lời nhắc của người dùng. (Tất nhiên, chúng tôi đã thấy rất nhiều ví dụ về việc AI đưa ra thông tin sai lệch.) Việc lọc nội dung đó khiến họ có ít lựa chọn hơn trước.

Cuối cùng, ngay từ đầu đã có đạo đức của việc tìm kiếm dữ liệu trên Internet. Cho dù bạn có biết hay không thì các công ty AI có thể đã lấy dữ liệu của bạn và sử dụng nó để đào tạo LLM của họ. Tất nhiên, những công ty này không quan tâm đến quyền riêng tư của bạn: Họ chỉ muốn dữ liệu. Nếu họ được phép, họ sẽ lấy nó. Đó cũng là một công việc kinh doanh lớn: Reddit đang bán nội dung của bạn cho các công ty AI, trong trường hợp bạn không biết. Một số nơi đang phản đối — New York Times đang kiện OpenAI về vấn đề này — nhưng cho đến khi có các biện pháp bảo vệ người dùng thực sự trên sổ sách, dữ liệu internet công cộng của bạn sẽ được chuyển đến LLM gần bạn.

Vì vậy, các công ty đang tìm kiếm thông tin mới này ở đâu? OpenAI đang dẫn đầu cuộc tấn công. Đối với GPT-5, công ty đang xem xét đào tạo mô hình về bản chép lại các video công khai, chẳng hạn như những video được lấy từ YouTube, bằng cách sử dụng trình chuyển mã Whisper của nó. (Có vẻ như công ty đã sử dụng chính các video này cho Sora, công cụ tạo video AI của họ.) OpenAI cũng đang nỗ lực phát triển các mô hình nhỏ hơn cho các ngóc ngách cụ thể, cũng như phát triển một hệ thống trả tiền cho các nhà cung cấp thông tin dựa trên chất lượng cao như thế nào. dữ liệu đó là

Dữ liệu tổng hợp có phải là câu trả lời?

Nhưng có lẽ bước tiếp theo gây tranh cãi nhất mà một số công ty đang cân nhắc là sử dụng dữ liệu tổng hợp để đào tạo mô hình. Dữ liệu tổng hợp chỉ đơn giản là thông tin được tạo bởi tập dữ liệu hiện có: Ý tưởng là tạo tập dữ liệu mới giống với tập dữ liệu gốc nhưng hoàn toàn mới. Về lý thuyết, nó có thể được sử dụng để che giấu nội dung của tập dữ liệu gốc, đồng thời cung cấp cho LLM một bộ tương tự để đào tạo.

Tuy nhiên, trên thực tế, việc đào tạo LLM về dữ liệu tổng hợp có thể dẫn đến “sự sụp đổ mô hình”. Đó là vì dữ liệu tổng hợp chứa các mẫu hiện có từ tập dữ liệu gốc. Khi LLM được đào tạo theo cùng một mẫu, nó không thể phát triển và thậm chí có thể quên các phần quan trọng của tập dữ liệu. Theo thời gian, bạn sẽ thấy các mô hình AI của mình trả về kết quả tương tự vì nó không có dữ liệu đào tạo đa dạng để hỗ trợ các phản hồi riêng biệt. Điều đó giết chết thứ gì đó như ChatGPT và đánh bại mục đích sử dụng dữ liệu tổng hợp ngay từ đầu.

Tuy nhiên, các công ty AI vẫn lạc quan về dữ liệu tổng hợp ở một mức độ nào đó. Cả Anthropic và OpenAI đều thấy công nghệ này có vị trí trong bộ đào tạo của họ. Đây là những công ty có năng lực, vì vậy nếu họ có thể tìm ra cách triển khai dữ liệu tổng hợp vào mô hình của mình mà không làm cháy nhà, họ sẽ có thêm sức mạnh. Trên thực tế, thật vui khi biết các bài đăng trên Facebook của tôi từ năm 2010 không được sử dụng để thúc đẩy cuộc cách mạng AI.

Mẹo vặt hay | Mẹo vặt cuộc sống | Kiến thức hằng ngày

AI cần một nhiều Dữ liệu

Vấn đề dữ liệu AI

Dữ liệu tổng hợp có phải là câu trả lời?

Tin cùng loại