Quyền được lãng quên trong thời đại AI

Quyền được lãng quên trong thời đại AI

Khi AI ghi nhớ những điều lẽ ra nên quên, quyền riêng tư của người dùng sẽ bị đe dọa. Theo Tiến sĩ James Kang, giảng viên cấp cao ngành Khoa học máy tính, Đại học RMIT, cần dạy AI biết cách quên để khôi phục niềm tin của công chúng vào công nghệ này.

Quyền riêng tư bị tổn hại khi AI nhớ mọi thứ

Vài tháng trước, một phụ nữ tên Pruthvi Mehta hỏi ChatGPT cách chăm sóc cây cảnh. Cô đã rất sốc khi chatbot này tiết lộ thông tin cá nhân của người khác trong câu trả lời, bao gồm cả sơ yếu lý lịch đầy đủ và thông tin liên hệ.

Trong một bài đăng trên LinkedIn, cô Mehta viết: “Tôi chỉ muốn cứu một chiếc lá đang chết, không phải tình cờ biết hết sự nghiệp của ai đó”.

Sự cố này nêu bật rủi ro mất quyền riêng tư ngày càng tăng khi sử dụng trí tuệ nhân tạo (AI), cho thấy việc dữ liệu nhạy cảm có thể dễ dàng bị các hệ thống để lộ ra ngoài như thế nào. Ví dụ này cũng chỉ ra thách thức trong việc đảm bảo rằng AI có thể “quên” dữ liệu – đặc biệt là khi dữ liệu đó không còn cần thiết hoặc bị hấp thụ một cách vô tình.

Khi bạn cung cấp dữ liệu để huấn luyện AI, hệ thống không chỉ lưu lại dữ liệu như một tập tin trong thư mục. Thuật toán AI học từ dữ liệu đó và liên tục trộn lẫn dữ liệu với kiến thức khác. Vì vậy, ngay cả khi dữ liệu gốc bị xóa, mô hình AI vẫn có thể giữ lại và tiết lộ thông tin đã học từ dữ liệu ban đầu.

Code trên màn hình Tiến sĩ James Kang, giảng viên cấp cao ngành Khoa học máy tính, Đại học RMIT Việt Nam (Hình: RMIT)

Điều này có thể gây ra nhiều vấn đề lớn về quyền riêng tư. Ví dụ, các nghiên cứu phát hiện rằng AI đôi khi có thể vô tình rò rỉ thông tin cá nhân như tên hoặc địa chỉ từ dữ liệu đã được huấn luyện, ngay cả khi thông tin đó chính ra không được lưu lại. Đối với những nơi như bệnh viện, tòa án hoặc trường học, một vụ rò rỉ dữ liệu như vậy có thể gây hậu quả nghiêm trọng về quyền riêng tư và an toàn.

Tuy nhiên, một kỹ thuật mới có tên “machine unlearning” (tạm dịch: dạy máy học cách quên) mang lại giải pháp đầy hứa hẹn cho thách thức này.

Machine unlearning là gì và liệu chúng ta có thể tin rằng AI sẽ thực sự quên?

Các thuật toán machine unlearning được thiết kế để loại bỏ dữ liệu cụ thể và ảnh hưởng của dữ liệu đó lên mô hình AI mà không cần xây dựng lại toàn bộ hệ thống. Hướng tiếp cận này có thể giúp các tổ chức phản hồi các thắc mắc về quyền riêng tư nhanh hơn và tiết kiệm nguồn lực hơn.

Phương pháp này không chỉ đơn thuần xóa các tập tin riêng lẻ, mà là xóa trí nhớ của mô hình để nó không còn sử dụng, lưu trữ hoặc bị ảnh hưởng bởi các điểm dữ liệu cụ thể.

Tuy nhiên, một câu hỏi quan trọng vẫn hiện hữu: Sau khi thuận toán thực hiện thao tác xóa dữ liệu, làm sao để kiểm chứng rằng dữ liệu đã thực sự bị xóa bỏ? Nếu một người yêu cầu hệ thống AI quên họ, bằng chứng nào có thể đảm bảo rằng hệ thống không còn ghi nhớ?

Các nhà nghiên cứu đang phát triển phương pháp kiểm tra và xác minh rằng AI đã thực sự quên. Một số đề xuất sử dụng các cam kết chính thức hoặc chứng nhận xóa dữ liệu. Hiện tại, machine unlearning vẫn là một tham vọng kỹ thuật hơn là điều có thể diễn ra trong thực tế. Nhưng khi AI ngày càng được tích hợp vào các lĩnh vực nhạy cảm như y tế, giáo dục và thực thi pháp luật, quyền được lãng quên và khả năng chứng minh điều đó sẽ trở thành một nhu cầu công nghệ, pháp lý và đạo đức ngày càng cấp thiết.

Giới nghiên cứu đang giải quyết vấn đề này ra sao?

Các nhà khoa học đang nỗ lực dạy cho hệ thống AI cách “quên” mà không cần bắt đầu lại từ đầu. Giải pháp hiển nhiên nhất hiện nay là huấn luyện lại toàn bộ mô hình mà không dùng dữ liệu không mong muốn. Nhưng việc này không hề rẻ – theo tiết lộ của CEO OpenAI Sam Altman, việc huấn luyện GPT-4 đã tiêu tốn hơn 100 triệu đô la Mỹ.

Để tránh phải huấn luyện lại toàn bộ, các nhà nghiên cứu đang thử nghiệm những giải pháp thông minh hơn. Một phương pháp tiềm năng là điều chỉnh các tham số bên trong của mô hình để giảm mức độ ghi nhớ một số dữ liệu huấn luyện nhất định. Qua đó, AI có thể quên một số thông tin cụ thể mà không mất đi toàn bộ kiến thức đã học.

Hình TS James Kang Tiến sĩ James Kang, giảng viên cấp cao ngành Khoa học máy tính, Đại học RMIT Việt Nam (Hình: RMIT)

Các nhà nghiên cứu tại Đại học Khoa học Tokyo đã phát triển một kỹ thuật khác, không cần tới huấn luyện lại. Thay vào đó, phương pháp của họ điều chỉnh cách mô hình AI phản hồi các lệnh của người dùng, cho phép nó “gỡ bỏ” một số thông tin trong khi vẫn giữ nguyên phần kiến thức còn lại. Như vậy, AI quên đi dữ liệu không cần thiết hoặc nhạy cảm một cách chọn lọc.

Các cơ chế mới giúp AI quên bao gồm federated learning (học liên kết) – một phương pháp phi tập trung để đào tạo các mô hình học máy, trong đó dữ liệu được giữ lại trên thiết bị của người dùng thay vì lưu trên máy chủ trung tâm. Ngoài ra, có thể kể đến differential privacy – thêm ngẫu nhiên dữ liệu nhiễu vào để bảo vệ quyền riêng tư trong khi vẫn cho phép AI học các dữ liệu hữu ích.

Mục tiêu chung của tất cả những nỗ lực này là trao cho người dùng quyền kiểm soát nhiều hơn đối với những gì AI ghi nhớ và đưa quyền riêng tư dữ liệu đến gần hơn với thực tế.

Tại sao điều này quan trọng ở Việt Nam?

Người dân Việt Nam đang sử dụng giao dịch trực tuyến hằng ngày – từ gọi món ăn đến thanh toán hóa đơn. AI chủ yếu hoạt động âm thầm phía sau bằng cách thu thập và xử lý tên, địa chỉ, thông tin thẻ thanh toán, thậm chí cả hồ sơ y tế của chúng ta. Nhưng khi thông tin đó bị lạm dụng hoặc rò rỉ, hậu quả có thể rất nghiêm trọng khiến tiền mất tật mang và danh tiếng bị tổn hại.

Luật Bảo vệ dữ liệu cá nhân mới ban hành (có hiệu lực từ ngày 1/1/2026) là một bước đi đúng hướng, nhưng luật pháp không thể bảo vệ chúng ta khỏi mọi rủi ro. Nếu AI không thể thực sự “quên” những gì đã học, con người có nguy cơ xây dựng nên những hệ thống mãi mãi lưu giữ dữ liệu từ cuộc sống riêng tư của chúng ta.

Niềm tin không được xây dựng bằng lời hứa, mà bằng bằng chứng. Nếu muốn có một tương lai số mà người dân Việt Nam có thể đặt niềm tin vào, chúng ta cần đảm bảo rằng AI có thể “học quên” thuần thục như cách học kiến thức mới. Khi đó, chúng ta có thể bảo vệ quyền riêng tư và xây dựng những hệ thống phục vụ con người chứ không chỉ phục vụ dữ liệu.

Bài: Tiến sĩ James Kang, giảng viên cấp cao ngành Khoa học máy tính, Khoa Khoa học, Kỹ thuật và Công nghệ, Đại học RMIT Việt Nam

Hình đại diện: Elnur – stock.adobe.com | Hình đầu trang: tippapatt – stock.adobe.com

Tin tức liên quan