Cointime

Download App
iOS & Android

Mã hóa đồng hình hoàn toàn giải quyết các vấn đề về quyền riêng tư của LLM như thế nào

Validated Project

Được viết bởi: Ingonyama

Sự trỗi dậy của trí tuệ nhân tạo thật đáng kinh ngạc. Từ các thuật toán cơ bản đến các mô hình học ngôn ngữ (LLM) như ChatGPT và Copilot, trí tuệ nhân tạo luôn đi đầu trong quá trình phát triển công nghệ. Khi các mô hình này tương tác với người dùng và xử lý lượng lớn dữ liệu cũng như tín hiệu, các vấn đề về quyền riêng tư dữ liệu trở nên đặc biệt quan trọng. Trong số đó, các công ty lớn như Amazon và Apple đã hạn chế quyền truy cập của nhân viên vào các API công khai như ChatGPT để ngăn chặn khả năng rò rỉ dữ liệu do tương tác AI gây ra. Hơn nữa, thật hợp lý khi dự đoán rằng các quy định liên quan sẽ sớm được đưa ra nhằm yêu cầu một mức độ bảo vệ quyền riêng tư nhất định của người dùng.

Làm cách nào để chúng tôi đảm bảo rằng dữ liệu chúng tôi tương tác, đặt câu hỏi và chia sẻ với các mô hình này vẫn ở chế độ riêng tư?

Giới thiệu về Mã hóa đồng hình hoàn toàn (FHE)

Trong lĩnh vực mật mã, mã hóa đồng cấu hoàn toàn là một khái niệm mang tính đột phá. Sự hấp dẫn của nó nằm ở khả năng độc đáo: nó cho phép thực hiện các phép tính trực tiếp trên dữ liệu được mã hóa mà không cần giải mã dữ liệu trước, do đó cho phép suy luận riêng tư về thông tin nhạy cảm.

Hai điều quan trọng được đảm bảo với sự trợ giúp của tính năng này: dữ liệu vẫn được bảo mật trong quá trình xử lý và tài sản trí tuệ mẫu (IP) được bảo vệ hoàn toàn.

‍Lý luận về quyền riêng tư và bảo vệ sở hữu trí tuệ‍

Ngày nay, "quyền riêng tư" và "trải nghiệm người dùng" dường như là mối quan hệ giữa cá và gấu và bạn không thể có cả hai. Mọi người thường tin tưởng các bên thứ ba sẽ xử lý thông tin của họ để mang lại trải nghiệm tốt hơn cho người dùng. Chúng tôi tin rằng các công ty bên thứ ba này có thể tìm thấy sự cân bằng giữa quyền riêng tư của người dùng và chất lượng dịch vụ người dùng mà không cần phải lựa chọn giữa các giải pháp gốc riêng tư hơn nhưng thiếu tính năng hoặc hy sinh quyền riêng tư cho các dịch vụ giàu tính năng mà bạn chọn.

Mã hóa hoàn toàn đồng hình cho phép suy luận riêng tư đồng thời bảo vệ hoàn toàn tài sản trí tuệ của mô hình. Bằng cách thực hiện các phép tính trên dữ liệu được mã hóa, nó đảm bảo tính bảo mật hoàn toàn của các từ gợi ý đồng thời bảo vệ quyền sở hữu trí tuệ của các mô hình ngôn ngữ lớn.

Phương pháp mã hóa truyền thống VS FHE

Trong các sơ đồ mã hóa truyền thống, nếu bạn muốn thực hiện các thao tác có ý nghĩa trên dữ liệu ở dạng được mã hóa, trước tiên bạn cần giải mã nó. Nhưng việc giải mã sẽ làm lộ văn bản đơn giản của dữ liệu, điều đó có nghĩa là dữ liệu sẽ trở nên dễ vỡ và dễ bị tấn công, ngay cả khi nó chỉ được giải mã trong giây lát.

Ngược lại, mã hóa đồng cấu hoàn toàn có thể hoạt động trực tiếp trên văn bản mã hóa, đảm bảo rằng thông tin nhạy cảm vẫn “ẩn” trong toàn bộ hoạt động.

Tại sao FHE lại quan trọng

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Mã hóa đồng cấu hoàn toàn dựa trên vấn đề dung nạp học tập (LWE), một kỹ thuật mã hóa mạng có khả năng kháng lượng tử. Trong LWE, nhiễu ngẫu nhiên được sử dụng để làm cho dữ liệu không thể đọc được trừ khi có khóa. Có thể thực hiện các phép tính số học trên dữ liệu được mã hóa, nhưng điều này thường làm tăng mức độ nhiễu. Nếu thực hiện quá nhiều thao tác liên tiếp thì không ai có thể đọc được dữ liệu, kể cả người giữ phím. Đây là mã hóa đồng cấu một phần (SHE).

Việc chuyển đổi mã hóa đồng cấu một phần sang mã hóa đồng cấu hoàn toàn yêu cầu một thao tác làm giảm mức nhiễu. Hoạt động này được gọi là "Bootstrapping" và nhiều sơ đồ mã hóa đồng cấu hoàn toàn sử dụng bootstrapping. Trong bài viết này, chúng tôi sẽ tập trung vào sơ đồ mã hóa đồng cấu hoàn toàn trên hình xuyến (Torus FHE), sử dụng cấu trúc đại số của hình xuyến toán học để đạt được mã hóa đồng cấu hoàn toàn.

Ưu điểm của TFHE

Mặc dù mỗi sơ đồ mã hóa đồng cấu hoàn toàn đều có những ưu điểm và nhược điểm riêng, nhưng trong các tình huống thực tế, TFHE hiện có cách triển khai hiệu quả hơn. Một ưu điểm quan trọng khác của TFHE là Khởi động có thể lập trình (PBS), mở rộng hoạt động khởi động thông thường để bao gồm việc tính toán các hàm biến đơn, chẳng hạn như các hàm kích hoạt, rất quan trọng trong lĩnh vực học máy.

Một nhược điểm của TFHE là mỗi phép toán số học được thực hiện trong phép tính yêu cầu một phép toán PBS, trong khi các sơ đồ khác cho phép một số phép toán được phân nhóm giữa các phép toán khởi động.

Giả định và xấp xỉ

Để ước tính thời gian cần thiết cho suy luận mô hình ngôn ngữ lớn (LLM) bằng cách sử dụng mã hóa đồng cấu hoàn toàn, chúng tôi đưa ra một số giả định để đánh giá:

  • Số lượng phép toán số học cần thiết cho mỗi Mã thông báo xấp xỉ 1–2 lần số lượng tham số trong mô hình. Đây là giới hạn dưới và vì mỗi mã thông báo sử dụng toàn bộ mô hình nên chúng tôi sẽ giả định rằng giới hạn dưới này đủ gần với nhu cầu thực tế.
  • Mỗi phép toán số học trong mô hình ngôn ngữ lớn có thể được ánh xạ tới một phép toán số học trong TFHE. Về cơ bản đây là minh họa về kích thước loại có thể thay đổi trong cả hai trường hợp. Chúng tôi giả định rằng các biến INT4 là đủ cho các mô hình ngôn ngữ lớn và khả thi cho TFHE.
  • Mọi phép toán số học trong mô hình ngôn ngữ lớn cần được ánh xạ tới một phép toán số học trong mã hóa đồng cấu hoàn toàn. Điều này có nghĩa là chúng tôi không thể chạy các phần của mô hình mà không được mã hóa. Một bài đăng blog gần đây của Zama xem xét suy luận FHE mà không có giả định này, trong đó hầu hết mô hình được người dùng thực thi cục bộ mà không cần bất kỳ mã hóa nào và chỉ một phần nhỏ (ví dụ: một đầu chú ý duy nhất) được sử dụng giống hệt trên máy chủ công ty của mô hình. -hoạt động mã hóa tiên tiến. Chúng tôi tin rằng cách tiếp cận này không thực sự bảo vệ quyền sở hữu trí tuệ của mô hình, vì trong trường hợp này, người dùng có thể chỉ chạy phần đầu bị thiếu mà chỉ mất một chút độ chính xác, như minh họa ở đây hoặc thực hiện chạy tương đối trên phần bị thiếu. đào tạo để đạt được kết quả tương đương với mô hình ban đầu.
  • Mỗi phép tính số học trong TFHE đều yêu cầu một PBS (Bootstrap có thể lập trình). PBS là điểm nghẽn chính trong tính toán TFHE.
  • Triển khai TFHE tiên tiến nhất hiện nay là FPT. Đây là một triển khai FPGA tính toán PBS cứ sau 35 micro giây.

Những thách thức của LLM và FHE

Với những tiến bộ gần đây trong công nghệ, việc triển khai mã hóa đồng cấu hoàn toàn tốt nhất hiện nay có thể thực hiện một phép toán số học chỉ trong 35 micro giây. Tuy nhiên, khi xem xét một mô hình phức tạp như GPT2, một mã thông báo duy nhất yêu cầu 1,5 tỷ hoạt động đáng kinh ngạc. Điều này có nghĩa là thời gian xử lý mỗi Token là khoảng 52.000 giây.

Để hiểu rõ hơn, đối với các mô hình ngôn ngữ, Token có thể đại diện cho một ký tự hoặc một từ hoàn chỉnh, v.v. Hãy tưởng tượng việc tương tác với một mô hình ngôn ngữ trong đó thời gian phản hồi mất một hoặc hai tuần! Điều này là không thể chấp nhận được và sự chậm trễ như vậy rõ ràng là không khả thi đối với giao tiếp thời gian thực hoặc bất kỳ ứng dụng thực tế nào của mô hình.

Điều này cho thấy với công nghệ mã hóa đồng cấu hoàn toàn hiện nay, việc đạt được suy luận thời gian thực cho các mô hình ngôn ngữ quy mô lớn vẫn là một thách thức rất lớn. Mặc dù mã hóa đồng cấu hoàn toàn có ý nghĩa to lớn trong việc bảo vệ dữ liệu, nhưng những hạn chế về hiệu suất của nó có thể gây khó khăn khi áp dụng vào các tình huống trong thế giới thực trong các tác vụ đòi hỏi cường độ tính toán cao. Đối với các yêu cầu tương tác thời gian thực và phản hồi nhanh, có thể cần phải khám phá các giải pháp bảo vệ quyền riêng tư và điện toán an toàn khác.

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

  • Bắt đầu từ 52.000 giây/Mã thông báo.
  • Bằng cách triển khai 10.000 máy song song, chúng tôi đã giảm thời gian xuống còn 5 giây/Token. Lưu ý rằng các mô hình ngôn ngữ lớn thực sự có thể được song song hóa cao và suy luận hiện tại thường được thực hiện song song trên hàng nghìn lõi GPU trở lên.

Chuyển sang phần cứng nâng cao:

  • Từ được cải tiến -- bắt đầu từ 5 giây/Mã thông báo
  • Chuyển sang GPU hoặc ASIC, chúng ta có thể đạt được thời gian xử lý 0,1 giây cho mỗi mã thông báo. Mặc dù GPU có thể mang lại nhiều lợi ích trực tiếp hơn về tốc độ, nhưng ASIC có thể mang lại lợi ích cao hơn cả về tốc độ và mức tiêu thụ điện năng, chẳng hạn như ZPU đã đề cập trong blog trước.

Như được hiển thị trong hình, có thể đạt được suy luận riêng của các mô hình ngôn ngữ lớn thông qua mã hóa đồng cấu hoàn toàn bằng các kỹ thuật tăng tốc dữ liệu hiện có. Điều này có thể được hỗ trợ bằng khoản đầu tư ban đầu lớn nhưng khả thi vào một trung tâm dữ liệu đủ lớn. Tuy nhiên, khả năng này vẫn còn cực kỳ xa vời và đối với các mô hình ngôn ngữ lớn lớn hơn như Copilot (12 tỷ tham số) hay GPT3 (175 tỷ tham số) vẫn còn một khoảng trống cần được lấp đầy.

Đối với Copilot, thông lượng mã thông báo nhỏ hơn là đủ vì nó tạo ra đầu ra mã thường ngắn gọn hơn ngôn ngữ của con người. Nếu chúng tôi giảm yêu cầu thông lượng xuống hệ số 8, Copilot cũng có thể đạt được các mục tiêu khả thi.

Khoảng cách cuối cùng này có thể được thu hẹp bằng sự kết hợp giữa song song hóa quy mô lớn hơn, triển khai tốt hơn và các thuật toán hiệu quả hơn được khởi động bằng mã hóa đồng cấu hoàn toàn. Tại Ingonyama, chúng tôi tin rằng các thuật toán là một phần quan trọng để thu hẹp khoảng cách này và nhóm của chúng tôi hiện đang tập trung vào nghiên cứu và phát triển các thuật toán liên quan.

Tóm tắt

Sự kết hợp giữa tính bảo mật của mã hóa đồng cấu hoàn toàn và sức mạnh tính toán của các mô hình ngôn ngữ lớn có thể xác định lại các tương tác trí tuệ nhân tạo, đảm bảo cả hiệu quả và quyền riêng tư. Mặc dù có một số thách thức, nhưng thông qua nghiên cứu và đổi mới liên tục, chúng ta có thể đạt được một tương lai trong đó các hoạt động tương tác với các mô hình AI như ChatGPT đều mang tính tức thời và riêng tư. Điều này sẽ mang đến cho người dùng trải nghiệm hiệu quả và an toàn hơn, đồng thời thúc đẩy ứng dụng rộng rãi công nghệ trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau.

Các bình luận

Tất cả bình luận

Recommended for you

  • Chủ tịch Ủy ban Ngân hàng Thượng viện Hoa Kỳ: Các điều khoản dự thảo mới liên quan đến lợi suất stablecoin có thể được công bố ngay trong tuần này.

    Theo Cointime, Thượng nghị sĩ Tim Scott, Chủ tịch Ủy ban Ngân hàng Thượng viện, phát biểu tại Hội nghị thượng đỉnh Blockchain DC rằng các nhà lập pháp có thể xem xét dự thảo luật mới, ít nhất là các điều khoản liên quan đến stablecoin, ngay trong tuần này. Ông Scott lưu ý rằng lợi suất stablecoin là vấn đề được thảo luận công khai nhiều nhất trong dự luật, nhưng các nhà lập pháp vẫn đang tiếp tục làm việc về vấn đề này. Ông nói: “Tôi tin rằng tôi sẽ có bản đề xuất đầu tiên để xem xét trong tuần này. Nếu điều đó xảy ra vào cuối tuần, và tôi nghĩ nó sẽ xảy ra, chúng ta ít nhất sẽ biết liệu khung pháp lý có đang hình thành hay không. Nếu vậy, tôi nghĩ chúng ta sẽ ở vị thế tốt hơn.” Ông cũng cho rằng tiến triển này là nhờ nỗ lực của Thượng nghị sĩ đảng Dân chủ Angela Alsobrooks, Thượng nghị sĩ đảng Cộng hòa Thom Tillis và quan chức Nhà Trắng Patrick Witt về vấn đề lợi suất stablecoin. Ông cho biết thêm rằng các vấn đề chưa được giải quyết khác cũng đã được đề cập trong các cuộc đàm phán trong tháng qua, bao gồm mối lo ngại của các nhà lập pháp về các dự án tiền điện tử của Tổng thống Donald Trump và gia đình ông, việc thiếu đại diện lưỡng đảng trong các cơ quan quản lý quan trọng và các quy định về Xác minh danh tính khách hàng (KYC). Ông Scott cũng cho biết: “Tôi nghĩ chúng ta đang rất gần đạt được thỏa thuận về các vấn đề đạo đức và số lượng thành viên cần thiết để thông qua. Chúng ta biết đây là vấn đề quan trọng đối với phía bên kia, vì vậy chúng ta cũng đang giải quyết nó. Tôi nghĩ chúng ta cũng đang đạt được tiến triển trong một số đề cử, đó là tin tốt. Còn về DeFi, đây là lĩnh vực mà Thượng nghị sĩ Mark Warner đang tập trung vào, và Chống rửa tiền (AML) là một phần rất quan trọng trong đó. Vì vậy, tôi nghĩ chúng ta đang tiến lên phía trước về những vấn đề này.”

  • Bản tin buổi sáng vàng | Những diễn biến quan trọng trong đêm ngày 18 tháng 3

    21:00-7:00 Từ khóa: Phantom, Stripe, Autonomous, Iran 1. Iran tuyên bố có thể hợp pháp tấn công các quốc gia cho phép Mỹ và Israel sử dụng lãnh thổ của mình; 2. CFTC Hoa Kỳ: Ví điện tử Phantom không yêu cầu đăng ký làm môi giới; 3. Tổng chưởng lý Arizona đệ đơn kiện hình sự chống lại nhà tiếp thị dự đoán Kalshi; 4. Bộ Ngoại giao Hoa Kỳ đã ra lệnh cho tất cả các đại sứ quán trên toàn thế giới tiến hành đánh giá an ninh "ngay lập tức"; 5. Robinhood Venture Capital đầu tư khoảng 35 triệu đô la vào Stripe và ElevenLabs; 6. GSR đầu tư 57 triệu đô la để mua lại Autonomous và Architech nhằm tạo ra một nền tảng quản lý quỹ tiền điện tử; 7. SEC và CFTC Hoa Kỳ ban hành hướng dẫn mới về tiền điện tử, nêu rõ rằng hầu hết các tài sản kỹ thuật số không phải là chứng khoán.

  • Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) và Ủy ban Giao dịch Hàng hóa Tương lai (CFTC) đã đưa ra các ý kiến ​​mới về tiền điện tử, trong đó nêu rõ rằng hầu hết các tài sản kỹ thuật số không thuộc loại chứng khoán.

    Ngày 18 tháng 3, Cointime đưa tin Ủy ban Chứng khoán và Giao dịch Hoa Kỳ (SEC) và Ủy ban Giao dịch Hàng hóa Tương lai (CFTC) đã ban hành một tài liệu hướng dẫn dài 68 trang về tiền điện tử, trong đó nêu rõ hầu hết các tài sản kỹ thuật số không phải là chứng khoán. Tài liệu giải thích mới này nêu chi tiết phân loại stablecoin, hàng hóa kỹ thuật số và token “công cụ kỹ thuật số”, tất cả đều được cơ quan này khẳng định không phải là chứng khoán. Nó cũng cố gắng giải thích cách thức các “tài sản tiền điện tử không phải chứng khoán” có thể trở thành chứng khoán và làm rõ cách luật chứng khoán liên bang áp dụng cho khai thác, đặt cược giao thức và airdrop. SEC cũng giải thích cách thức các tài sản kỹ thuật số không phải chứng khoán có thể trở thành đối tượng của các hợp đồng đầu tư. Cơ quan này nêu rõ trong phần giải thích của mình: “Các tài sản tiền điện tử không phải chứng khoán trở thành đối tượng của các hợp đồng đầu tư khi một nhà phát hành thuyết phục các nhà đầu tư đầu tư vào một doanh nghiệp chung và đưa ra cam kết hoặc tuyên bố sẽ thực hiện công việc quản lý cần thiết, và người mua có lý do để kỳ vọng thu lợi nhuận từ đó.”

  • Mastercard dự định mua lại công ty tiền điện tử ổn định BVNK với giá lên tới 1,8 tỷ đô la.

    Theo Cointime, Mastercard đang lên kế hoạch mua lại công ty khởi nghiệp về cơ sở hạ tầng stablecoin BVNK với giá lên tới 1,8 tỷ đô la, bao gồm khoản thanh toán bổ sung trị giá 300 triệu đô la nếu thương vụ thành công. Thương vụ này diễn ra chỉ bốn tháng sau khi các cuộc đàm phán sáp nhập trị giá khoảng 2 tỷ đô la giữa BVNK và Coinbase đổ vỡ. Cả hai công ty đã xác nhận thỏa thuận trong một tuyên bố chung được phát hành vào thứ Ba.

  • BTC đã tăng giá trong tám ngày liên tiếp, đạt mức 76.000. Lý do nào khiến nó vượt trội hơn vàng trong bối cảnh hỗn loạn này?

    Khi chiến tranh giảm leo thang, giá dầu giảm và thị trường chứng khoán Mỹ phục hồi, Bitcoin sẽ đi về đâu lần này?

  • Token không bán được? 90% dự án tiền điện tử bỏ bê quan hệ với nhà đầu tư.

    Trong năm qua, chúng tôi đã hợp tác với hầu hết các dự án hàng đầu trong lĩnh vực tiền điện tử để xây dựng hệ thống quan hệ nhà đầu tư, và đã cung cấp dịch vụ cho hơn 20 dự án. Bài viết này là một hướng dẫn thực tiễn về giao tiếp với nhà đầu tư có thể áp dụng ngay lập tức.

  • Meta tiếp tục sa thải 20% nhân viên: Một "cuộc cách mạng hiệu quả" trong kỷ nguyên AI hay là nỗi lo ngại về chi phí?

    Meta dự định sa thải thêm 20% nhân viên, lý do bề ngoài là để cắt giảm chi phí, nhưng đây có thể là tín hiệu cho thấy hiệu quả của trí tuệ nhân tạo đang được hiện thực hóa. Phố Wall tin rằng công ty đang đẩy nhanh quá trình tái cấu trúc để trở thành "ưu tiên AI", điều này có thể làm gia tăng khoảng cách giữa công ty và các đối thủ cạnh tranh.

  • Cần bao nhiêu Meme Coins để tổng thống ủng hộ bài đăng của bạn? Miley: 5 triệu.

    Vào ngày 17 tháng 3, theo giờ Bắc Kinh, truyền thông địa phương Argentina El Destape đã đăng tải một thông tin gây chấn động: các nhà điều tra đã thu hồi dữ liệu từ điện thoại của một nhà vận động hành lang tiền điện tử người Argentina, tiết lộ rằng Tổng thống Argentina Milley đã đăng tweet về LIBRA cách đây một năm vì ông ta nhận được khoản hối lộ 5 triệu đô la, và người chủ mưu không ai khác ngoài Hayden Davis, như những suy đoán trước đó.

  • Kalshi đã tặng một vé số miễn phí trị giá 1 tỷ đô la; nhớ cào nhé!

    Tin tốt, giải độc đắc là có thật; tin xấu, tỷ lệ trúng thưởng là 1 trên 1.200.000.000.000...

  • "Ngựa Trojan" của Phố Wall: Phân tích sự tái cấu trúc quyền lực và sự hội tụ cơ sở hạ tầng đằng sau khoản đầu tư của ICE vào OKX

    Đây không chỉ là một giao dịch tài chính đơn thuần, mà là sự tái cấu trúc quyền lực từ trên xuống dưới trong thị trường tiền điện tử mới nổi bởi hệ thống tài chính truyền thống thông qua việc sử dụng đòn bẩy vốn và các cấu trúc tuân thủ.