Nếu bạn điều hành một trang web WordPress hoặc có một blog trên Tumblr, bạn có thể đã sản xuất và xuất bản một lượng lớn nội dung ở đó. Mặc dù tất cả chúng ta đều biết Internet không phải là “riêng tư”, nhưng bạn có thể đã đăng những văn bản và hình ảnh đó vì nghĩ rằng chúng là của mình và sẽ không bị đánh cắp bởi chính các công ty mà bạn tin cậy để lưu trữ chúng.
Khi điều đó xảy ra, WordPress và Tumblr đang chuẩn bị làm điều đó. Theo báo cáo đầu tiên của 404 Media, công ty mẹ của cả hai trang web, Automattic, đã ký một thỏa thuận bán dữ liệu người dùng từ Tumblr và WordPress cho các công ty AI như Midjourney và OpenAI. Các công ty AI có ý định sử dụng dữ liệu để đào tạo hệ thống của họ.
Như thể điều đó vẫn chưa đủ tệ, việc chuẩn bị cho đợt giảm giá còn diễn ra kém cỏi và có vẻ như các danh mục lớn các bài đăng trên Tumblr đáng lẽ không được bán đã được thêm vào danh sách hỗn hợp. Dữ liệu đó bao gồm:
-
Bài đăng riêng tư từ tài khoản công khai
-
Bài viết trên tài khoản bị xóa hoặc bị đình chỉ
-
Những câu hỏi chưa được trả lời
-
Câu trả lời riêng tư
-
bài viết rõ ràng
-
Bài đăng từ tài khoản đối tác, như chiến dịch quảng cáo mà Tumblr không sở hữu quyền. (Apple được đặt tên cụ thể ở đây.)
Có thể dữ liệu này không thực sự được gửi tới OpenAI và Midjourney mà chỉ được xác định và xóa cho mục đích sử dụng đó. Tuy nhiên, 404 Media không thể xác nhận điều này. Tuy nhiên, họ có thể xác nhận rằng các bài đăng, tin nhắn trực tiếp và phương tiện được bảo vệ bằng mật khẩu không nằm trong nhóm này. Vậy… điều đó tốt.
Nó có thể không phải là tất cả các trang web WordPress
Automattic chỉ định rằng chỉ các trang web WordPress.com bị ảnh hưởng bởi việc thu thập dữ liệu này, trái ngược với nội dung được tạo trên WordPress CMS mà bạn có thể sử dụng với một trang web được lưu trữ ở nơi khác. Về lý thuyết, các trang WordPress CMS của bạn không được lưu trữ bằng Automattic sẽ an toàn trước những hành động này.
Điều đó cho thấy, 404 Media không thể xác nhận liệu việc sử dụng các plugin Automattic như JetPack có đưa trang web tự lưu trữ vào chính sách chia sẻ dữ liệu cặn bã của Automattic hay không.
Bạn không cần phải đồng ý với việc Automattic bán dữ liệu của bạn
Một nguồn tin nói với 404 Media rằng Automattic sẽ thêm cài đặt mới cho các thuộc tính của mình vào thứ Tư để cho phép người dùng chọn không bán và chia sẻ dữ liệu với các công ty bên thứ ba. Cửa hàng đã nhận được một bản sao của phần Câu hỏi thường gặp mới, trong đó nêu chi tiết rằng tùy chọn chọn không tham gia này sẽ chặn trình thu thập thông tin truy cập vào trang web của bạn nếu bạn bật nó “ngay từ đầu”. Nếu sau này bạn chọn không tham gia, Automattic sẽ liên hệ với các đối tác và “yêu cầu” họ xóa nội dung của bạn khỏi tập dữ liệu và chương trình đào tạo của họ.
Từ ngữ này không đặc biệt đáng khích lệ. Tuy nhiên, bất cứ khi nào Automattic làm đưa ra tùy chọn từ chối này, tôi khuyên bạn nên sử dụng nó trên các trang Tumblr và WordPress của mình.
Sau phần 404 Media, Automattic đã đưa ra một tuyên bố cho biết họ chặn các trình thu thập dữ liệu nền tảng AI chính và cập nhật danh sách của mình để thêm các trình thu thập mới; có các tính năng chặn công cụ tìm kiếm lập chỉ mục các trang web của bạn, điều này cũng có thể ngăn cản việc thu thập dữ liệu của AI; và họ chỉ chia sẻ nội dung công khai được lưu trữ trên WordPress và Tumblr từ các trang web chưa chọn không tham gia. Điều đó nói rằng, họ thừa nhận không có luật nào tồn tại để ngăn chặn trình thu thập dữ liệu tuân theo các tùy chọn này và họ đang làm việc với một số công ty AI nhất định, “miễn là kế hoạch của họ phù hợp với những gì cộng đồng của chúng tôi quan tâm: phân bổ, chọn không tham gia và kiểm soát. “
Các công ty AI sẽ làm gì với dữ liệu này?
Các công ty như Midjourney và OpenAI yêu cầu to lớn bộ dữ liệu để đào tạo hệ thống AI của họ. Các chương trình như Midjourney và ChatGPT sẽ không thể thực hiện được nếu không cung cấp lượng thông tin khổng lồ theo cách của chúng: Đó là cách chúng “học” cách thực hiện những việc chúng làm.
Vì vậy, các bài đăng trên blog WordPress chứa đầy các công thức nấu ăn yêu thích của bạn có thể được cung cấp cho các mô hình AI tổng hợp để huấn luyện chúng cách “nói” về thực phẩm (hoặc bất cứ thứ gì); kho ảnh của bạn trên Tumblr có thể đào tạo người mẫu về cách nhận biết các đối tượng như một chiếc ô tô hoặc một con chim. Dữ liệu từ tất cả các trang web của bạn cùng với các trang web của hàng triệu người dùng khác là vô giá đối với các công ty AI, điều đó có nghĩa là nó vô cùng có giá trị đối với các công ty sở hữu những trang web đó và có thể bán nó. Automattic có thể sẽ kiếm được rất nhiều tiền từ thỏa thuận này, cũng như Reddit có thể sẽ kiếm được rất nhiều tiền từ thỏa thuận cấp phép nội dung AI của riêng mình với Google.
Thật thú vị khi đăng và chia sẻ trên internet, nhưng có lẽ đã đến lúc lấy lại những gì thuộc về bạn: Nếu bạn không sở hữu nền tảng mà bạn đang chia sẻ ý tưởng ban đầu của mình, hãy cân nhắc đưa chúng đến nền tảng mà bạn sở hữu trước đó. ý tưởng của bạn trở thành bánh xe đào tạo cho trí tuệ nhân tạo.