Được viết bởi: Ingonyama
Sự trỗi dậy của trí tuệ nhân tạo thật đáng kinh ngạc. Từ các thuật toán cơ bản đến các mô hình học ngôn ngữ (LLM) như ChatGPT và Copilot, trí tuệ nhân tạo luôn đi đầu trong quá trình phát triển công nghệ. Khi các mô hình này tương tác với người dùng và xử lý lượng lớn dữ liệu cũng như tín hiệu, các vấn đề về quyền riêng tư dữ liệu trở nên đặc biệt quan trọng. Trong số đó, các công ty lớn như Amazon và Apple đã hạn chế quyền truy cập của nhân viên vào các API công khai như ChatGPT để ngăn chặn khả năng rò rỉ dữ liệu do tương tác AI gây ra. Hơn nữa, thật hợp lý khi dự đoán rằng các quy định liên quan sẽ sớm được đưa ra nhằm yêu cầu một mức độ bảo vệ quyền riêng tư nhất định của người dùng.
Làm cách nào để chúng tôi đảm bảo rằng dữ liệu chúng tôi tương tác, đặt câu hỏi và chia sẻ với các mô hình này vẫn ở chế độ riêng tư?
Giới thiệu về Mã hóa đồng hình hoàn toàn (FHE)
Trong lĩnh vực mật mã, mã hóa đồng cấu hoàn toàn là một khái niệm mang tính đột phá. Sự hấp dẫn của nó nằm ở khả năng độc đáo: nó cho phép thực hiện các phép tính trực tiếp trên dữ liệu được mã hóa mà không cần giải mã dữ liệu trước, do đó cho phép suy luận riêng tư về thông tin nhạy cảm.
Hai điều quan trọng được đảm bảo với sự trợ giúp của tính năng này: dữ liệu vẫn được bảo mật trong quá trình xử lý và tài sản trí tuệ mẫu (IP) được bảo vệ hoàn toàn.
Lý luận về quyền riêng tư và bảo vệ sở hữu trí tuệ
Ngày nay, "quyền riêng tư" và "trải nghiệm người dùng" dường như là mối quan hệ giữa cá và gấu và bạn không thể có cả hai. Mọi người thường tin tưởng các bên thứ ba sẽ xử lý thông tin của họ để mang lại trải nghiệm tốt hơn cho người dùng. Chúng tôi tin rằng các công ty bên thứ ba này có thể tìm thấy sự cân bằng giữa quyền riêng tư của người dùng và chất lượng dịch vụ người dùng mà không cần phải lựa chọn giữa các giải pháp gốc riêng tư hơn nhưng thiếu tính năng hoặc hy sinh quyền riêng tư cho các dịch vụ giàu tính năng mà bạn chọn.
Mã hóa hoàn toàn đồng hình cho phép suy luận riêng tư đồng thời bảo vệ hoàn toàn tài sản trí tuệ của mô hình. Bằng cách thực hiện các phép tính trên dữ liệu được mã hóa, nó đảm bảo tính bảo mật hoàn toàn của các từ gợi ý đồng thời bảo vệ quyền sở hữu trí tuệ của các mô hình ngôn ngữ lớn.
Phương pháp mã hóa truyền thống VS FHE
Trong các sơ đồ mã hóa truyền thống, nếu bạn muốn thực hiện các thao tác có ý nghĩa trên dữ liệu ở dạng được mã hóa, trước tiên bạn cần giải mã nó. Nhưng việc giải mã sẽ làm lộ văn bản đơn giản của dữ liệu, điều đó có nghĩa là dữ liệu sẽ trở nên dễ vỡ và dễ bị tấn công, ngay cả khi nó chỉ được giải mã trong giây lát.
Ngược lại, mã hóa đồng cấu hoàn toàn có thể hoạt động trực tiếp trên văn bản mã hóa, đảm bảo rằng thông tin nhạy cảm vẫn “ẩn” trong toàn bộ hoạt động.
Tại sao FHE lại quan trọng
Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.
Cơ sở toán học của FHE
Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.
Cơ sở toán học của FHE
Mã hóa đồng cấu hoàn toàn dựa trên vấn đề dung nạp học tập (LWE), một kỹ thuật mã hóa mạng có khả năng kháng lượng tử. Trong LWE, nhiễu ngẫu nhiên được sử dụng để làm cho dữ liệu không thể đọc được trừ khi có khóa. Có thể thực hiện các phép tính số học trên dữ liệu được mã hóa, nhưng điều này thường làm tăng mức độ nhiễu. Nếu thực hiện quá nhiều thao tác liên tiếp thì không ai có thể đọc được dữ liệu, kể cả người giữ phím. Đây là mã hóa đồng cấu một phần (SHE).
Việc chuyển đổi mã hóa đồng cấu một phần sang mã hóa đồng cấu hoàn toàn yêu cầu một thao tác làm giảm mức nhiễu. Hoạt động này được gọi là "Bootstrapping" và nhiều sơ đồ mã hóa đồng cấu hoàn toàn sử dụng bootstrapping. Trong bài viết này, chúng tôi sẽ tập trung vào sơ đồ mã hóa đồng cấu hoàn toàn trên hình xuyến (Torus FHE), sử dụng cấu trúc đại số của hình xuyến toán học để đạt được mã hóa đồng cấu hoàn toàn.
Ưu điểm của TFHE
Mặc dù mỗi sơ đồ mã hóa đồng cấu hoàn toàn đều có những ưu điểm và nhược điểm riêng, nhưng trong các tình huống thực tế, TFHE hiện có cách triển khai hiệu quả hơn. Một ưu điểm quan trọng khác của TFHE là Khởi động có thể lập trình (PBS), mở rộng hoạt động khởi động thông thường để bao gồm việc tính toán các hàm biến đơn, chẳng hạn như các hàm kích hoạt, rất quan trọng trong lĩnh vực học máy.
Một nhược điểm của TFHE là mỗi phép toán số học được thực hiện trong phép tính yêu cầu một phép toán PBS, trong khi các sơ đồ khác cho phép một số phép toán được phân nhóm giữa các phép toán khởi động.
Giả định và xấp xỉ
Để ước tính thời gian cần thiết cho suy luận mô hình ngôn ngữ lớn (LLM) bằng cách sử dụng mã hóa đồng cấu hoàn toàn, chúng tôi đưa ra một số giả định để đánh giá:
- Số lượng phép toán số học cần thiết cho mỗi Mã thông báo xấp xỉ 1–2 lần số lượng tham số trong mô hình. Đây là giới hạn dưới và vì mỗi mã thông báo sử dụng toàn bộ mô hình nên chúng tôi sẽ giả định rằng giới hạn dưới này đủ gần với nhu cầu thực tế.
- Mỗi phép toán số học trong mô hình ngôn ngữ lớn có thể được ánh xạ tới một phép toán số học trong TFHE. Về cơ bản đây là minh họa về kích thước loại có thể thay đổi trong cả hai trường hợp. Chúng tôi giả định rằng các biến INT4 là đủ cho các mô hình ngôn ngữ lớn và khả thi cho TFHE.
- Mọi phép toán số học trong mô hình ngôn ngữ lớn cần được ánh xạ tới một phép toán số học trong mã hóa đồng cấu hoàn toàn. Điều này có nghĩa là chúng tôi không thể chạy các phần của mô hình mà không được mã hóa. Một bài đăng blog gần đây của Zama xem xét suy luận FHE mà không có giả định này, trong đó hầu hết mô hình được người dùng thực thi cục bộ mà không cần bất kỳ mã hóa nào và chỉ một phần nhỏ (ví dụ: một đầu chú ý duy nhất) được sử dụng giống hệt trên máy chủ công ty của mô hình. -hoạt động mã hóa tiên tiến. Chúng tôi tin rằng cách tiếp cận này không thực sự bảo vệ quyền sở hữu trí tuệ của mô hình, vì trong trường hợp này, người dùng có thể chỉ chạy phần đầu bị thiếu mà chỉ mất một chút độ chính xác, như minh họa ở đây hoặc thực hiện chạy tương đối trên phần bị thiếu. đào tạo để đạt được kết quả tương đương với mô hình ban đầu.
- Mỗi phép tính số học trong TFHE đều yêu cầu một PBS (Bootstrap có thể lập trình). PBS là điểm nghẽn chính trong tính toán TFHE.
- Triển khai TFHE tiên tiến nhất hiện nay là FPT. Đây là một triển khai FPGA tính toán PBS cứ sau 35 micro giây.
Những thách thức của LLM và FHE
Với những tiến bộ gần đây trong công nghệ, việc triển khai mã hóa đồng cấu hoàn toàn tốt nhất hiện nay có thể thực hiện một phép toán số học chỉ trong 35 micro giây. Tuy nhiên, khi xem xét một mô hình phức tạp như GPT2, một mã thông báo duy nhất yêu cầu 1,5 tỷ hoạt động đáng kinh ngạc. Điều này có nghĩa là thời gian xử lý mỗi Token là khoảng 52.000 giây.
Để hiểu rõ hơn, đối với các mô hình ngôn ngữ, Token có thể đại diện cho một ký tự hoặc một từ hoàn chỉnh, v.v. Hãy tưởng tượng việc tương tác với một mô hình ngôn ngữ trong đó thời gian phản hồi mất một hoặc hai tuần! Điều này là không thể chấp nhận được và sự chậm trễ như vậy rõ ràng là không khả thi đối với giao tiếp thời gian thực hoặc bất kỳ ứng dụng thực tế nào của mô hình.
Điều này cho thấy với công nghệ mã hóa đồng cấu hoàn toàn hiện nay, việc đạt được suy luận thời gian thực cho các mô hình ngôn ngữ quy mô lớn vẫn là một thách thức rất lớn. Mặc dù mã hóa đồng cấu hoàn toàn có ý nghĩa to lớn trong việc bảo vệ dữ liệu, nhưng những hạn chế về hiệu suất của nó có thể gây khó khăn khi áp dụng vào các tình huống trong thế giới thực trong các tác vụ đòi hỏi cường độ tính toán cao. Đối với các yêu cầu tương tác thời gian thực và phản hồi nhanh, có thể cần phải khám phá các giải pháp bảo vệ quyền riêng tư và điện toán an toàn khác.
Các giải pháp tiềm năng
Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:
Sử dụng nhiều máy để thực hiện xử lý song song:
Các giải pháp tiềm năng
Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:
Sử dụng nhiều máy để thực hiện xử lý song song:
- Bắt đầu từ 52.000 giây/Mã thông báo.
- Bằng cách triển khai 10.000 máy song song, chúng tôi đã giảm thời gian xuống còn 5 giây/Token. Lưu ý rằng các mô hình ngôn ngữ lớn thực sự có thể được song song hóa cao và suy luận hiện tại thường được thực hiện song song trên hàng nghìn lõi GPU trở lên.
Chuyển sang phần cứng nâng cao:
- Từ được cải tiến -- bắt đầu từ 5 giây/Mã thông báo
- Chuyển sang GPU hoặc ASIC, chúng ta có thể đạt được thời gian xử lý 0,1 giây cho mỗi mã thông báo. Mặc dù GPU có thể mang lại nhiều lợi ích trực tiếp hơn về tốc độ, nhưng ASIC có thể mang lại lợi ích cao hơn cả về tốc độ và mức tiêu thụ điện năng, chẳng hạn như ZPU đã đề cập trong blog trước.
Như được hiển thị trong hình, có thể đạt được suy luận riêng của các mô hình ngôn ngữ lớn thông qua mã hóa đồng cấu hoàn toàn bằng các kỹ thuật tăng tốc dữ liệu hiện có. Điều này có thể được hỗ trợ bằng khoản đầu tư ban đầu lớn nhưng khả thi vào một trung tâm dữ liệu đủ lớn. Tuy nhiên, khả năng này vẫn còn cực kỳ xa vời và đối với các mô hình ngôn ngữ lớn lớn hơn như Copilot (12 tỷ tham số) hay GPT3 (175 tỷ tham số) vẫn còn một khoảng trống cần được lấp đầy.
Đối với Copilot, thông lượng mã thông báo nhỏ hơn là đủ vì nó tạo ra đầu ra mã thường ngắn gọn hơn ngôn ngữ của con người. Nếu chúng tôi giảm yêu cầu thông lượng xuống hệ số 8, Copilot cũng có thể đạt được các mục tiêu khả thi.
Khoảng cách cuối cùng này có thể được thu hẹp bằng sự kết hợp giữa song song hóa quy mô lớn hơn, triển khai tốt hơn và các thuật toán hiệu quả hơn được khởi động bằng mã hóa đồng cấu hoàn toàn. Tại Ingonyama, chúng tôi tin rằng các thuật toán là một phần quan trọng để thu hẹp khoảng cách này và nhóm của chúng tôi hiện đang tập trung vào nghiên cứu và phát triển các thuật toán liên quan.
Tóm tắt
Sự kết hợp giữa tính bảo mật của mã hóa đồng cấu hoàn toàn và sức mạnh tính toán của các mô hình ngôn ngữ lớn có thể xác định lại các tương tác trí tuệ nhân tạo, đảm bảo cả hiệu quả và quyền riêng tư. Mặc dù có một số thách thức, nhưng thông qua nghiên cứu và đổi mới liên tục, chúng ta có thể đạt được một tương lai trong đó các hoạt động tương tác với các mô hình AI như ChatGPT đều mang tính tức thời và riêng tư. Điều này sẽ mang đến cho người dùng trải nghiệm hiệu quả và an toàn hơn, đồng thời thúc đẩy ứng dụng rộng rãi công nghệ trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau.
Tất cả bình luận