Cointime

Download App
iOS & Android

Mã hóa đồng hình hoàn toàn giải quyết các vấn đề về quyền riêng tư của LLM như thế nào

Validated Project

Được viết bởi: Ingonyama

Sự trỗi dậy của trí tuệ nhân tạo thật đáng kinh ngạc. Từ các thuật toán cơ bản đến các mô hình học ngôn ngữ (LLM) như ChatGPT và Copilot, trí tuệ nhân tạo luôn đi đầu trong quá trình phát triển công nghệ. Khi các mô hình này tương tác với người dùng và xử lý lượng lớn dữ liệu cũng như tín hiệu, các vấn đề về quyền riêng tư dữ liệu trở nên đặc biệt quan trọng. Trong số đó, các công ty lớn như Amazon và Apple đã hạn chế quyền truy cập của nhân viên vào các API công khai như ChatGPT để ngăn chặn khả năng rò rỉ dữ liệu do tương tác AI gây ra. Hơn nữa, thật hợp lý khi dự đoán rằng các quy định liên quan sẽ sớm được đưa ra nhằm yêu cầu một mức độ bảo vệ quyền riêng tư nhất định của người dùng.

Làm cách nào để chúng tôi đảm bảo rằng dữ liệu chúng tôi tương tác, đặt câu hỏi và chia sẻ với các mô hình này vẫn ở chế độ riêng tư?

Giới thiệu về Mã hóa đồng hình hoàn toàn (FHE)

Trong lĩnh vực mật mã, mã hóa đồng cấu hoàn toàn là một khái niệm mang tính đột phá. Sự hấp dẫn của nó nằm ở khả năng độc đáo: nó cho phép thực hiện các phép tính trực tiếp trên dữ liệu được mã hóa mà không cần giải mã dữ liệu trước, do đó cho phép suy luận riêng tư về thông tin nhạy cảm.

Hai điều quan trọng được đảm bảo với sự trợ giúp của tính năng này: dữ liệu vẫn được bảo mật trong quá trình xử lý và tài sản trí tuệ mẫu (IP) được bảo vệ hoàn toàn.

‍Lý luận về quyền riêng tư và bảo vệ sở hữu trí tuệ‍

Ngày nay, "quyền riêng tư" và "trải nghiệm người dùng" dường như là mối quan hệ giữa cá và gấu và bạn không thể có cả hai. Mọi người thường tin tưởng các bên thứ ba sẽ xử lý thông tin của họ để mang lại trải nghiệm tốt hơn cho người dùng. Chúng tôi tin rằng các công ty bên thứ ba này có thể tìm thấy sự cân bằng giữa quyền riêng tư của người dùng và chất lượng dịch vụ người dùng mà không cần phải lựa chọn giữa các giải pháp gốc riêng tư hơn nhưng thiếu tính năng hoặc hy sinh quyền riêng tư cho các dịch vụ giàu tính năng mà bạn chọn.

Mã hóa hoàn toàn đồng hình cho phép suy luận riêng tư đồng thời bảo vệ hoàn toàn tài sản trí tuệ của mô hình. Bằng cách thực hiện các phép tính trên dữ liệu được mã hóa, nó đảm bảo tính bảo mật hoàn toàn của các từ gợi ý đồng thời bảo vệ quyền sở hữu trí tuệ của các mô hình ngôn ngữ lớn.

Phương pháp mã hóa truyền thống VS FHE

Trong các sơ đồ mã hóa truyền thống, nếu bạn muốn thực hiện các thao tác có ý nghĩa trên dữ liệu ở dạng được mã hóa, trước tiên bạn cần giải mã nó. Nhưng việc giải mã sẽ làm lộ văn bản đơn giản của dữ liệu, điều đó có nghĩa là dữ liệu sẽ trở nên dễ vỡ và dễ bị tấn công, ngay cả khi nó chỉ được giải mã trong giây lát.

Ngược lại, mã hóa đồng cấu hoàn toàn có thể hoạt động trực tiếp trên văn bản mã hóa, đảm bảo rằng thông tin nhạy cảm vẫn “ẩn” trong toàn bộ hoạt động.

Tại sao FHE lại quan trọng

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Mã hóa đồng cấu hoàn toàn dựa trên vấn đề dung nạp học tập (LWE), một kỹ thuật mã hóa mạng có khả năng kháng lượng tử. Trong LWE, nhiễu ngẫu nhiên được sử dụng để làm cho dữ liệu không thể đọc được trừ khi có khóa. Có thể thực hiện các phép tính số học trên dữ liệu được mã hóa, nhưng điều này thường làm tăng mức độ nhiễu. Nếu thực hiện quá nhiều thao tác liên tiếp thì không ai có thể đọc được dữ liệu, kể cả người giữ phím. Đây là mã hóa đồng cấu một phần (SHE).

Việc chuyển đổi mã hóa đồng cấu một phần sang mã hóa đồng cấu hoàn toàn yêu cầu một thao tác làm giảm mức nhiễu. Hoạt động này được gọi là "Bootstrapping" và nhiều sơ đồ mã hóa đồng cấu hoàn toàn sử dụng bootstrapping. Trong bài viết này, chúng tôi sẽ tập trung vào sơ đồ mã hóa đồng cấu hoàn toàn trên hình xuyến (Torus FHE), sử dụng cấu trúc đại số của hình xuyến toán học để đạt được mã hóa đồng cấu hoàn toàn.

Ưu điểm của TFHE

Mặc dù mỗi sơ đồ mã hóa đồng cấu hoàn toàn đều có những ưu điểm và nhược điểm riêng, nhưng trong các tình huống thực tế, TFHE hiện có cách triển khai hiệu quả hơn. Một ưu điểm quan trọng khác của TFHE là Khởi động có thể lập trình (PBS), mở rộng hoạt động khởi động thông thường để bao gồm việc tính toán các hàm biến đơn, chẳng hạn như các hàm kích hoạt, rất quan trọng trong lĩnh vực học máy.

Một nhược điểm của TFHE là mỗi phép toán số học được thực hiện trong phép tính yêu cầu một phép toán PBS, trong khi các sơ đồ khác cho phép một số phép toán được phân nhóm giữa các phép toán khởi động.

Giả định và xấp xỉ

Để ước tính thời gian cần thiết cho suy luận mô hình ngôn ngữ lớn (LLM) bằng cách sử dụng mã hóa đồng cấu hoàn toàn, chúng tôi đưa ra một số giả định để đánh giá:

  • Số lượng phép toán số học cần thiết cho mỗi Mã thông báo xấp xỉ 1–2 lần số lượng tham số trong mô hình. Đây là giới hạn dưới và vì mỗi mã thông báo sử dụng toàn bộ mô hình nên chúng tôi sẽ giả định rằng giới hạn dưới này đủ gần với nhu cầu thực tế.
  • Mỗi phép toán số học trong mô hình ngôn ngữ lớn có thể được ánh xạ tới một phép toán số học trong TFHE. Về cơ bản đây là minh họa về kích thước loại có thể thay đổi trong cả hai trường hợp. Chúng tôi giả định rằng các biến INT4 là đủ cho các mô hình ngôn ngữ lớn và khả thi cho TFHE.
  • Mọi phép toán số học trong mô hình ngôn ngữ lớn cần được ánh xạ tới một phép toán số học trong mã hóa đồng cấu hoàn toàn. Điều này có nghĩa là chúng tôi không thể chạy các phần của mô hình mà không được mã hóa. Một bài đăng blog gần đây của Zama xem xét suy luận FHE mà không có giả định này, trong đó hầu hết mô hình được người dùng thực thi cục bộ mà không cần bất kỳ mã hóa nào và chỉ một phần nhỏ (ví dụ: một đầu chú ý duy nhất) được sử dụng giống hệt trên máy chủ công ty của mô hình. -hoạt động mã hóa tiên tiến. Chúng tôi tin rằng cách tiếp cận này không thực sự bảo vệ quyền sở hữu trí tuệ của mô hình, vì trong trường hợp này, người dùng có thể chỉ chạy phần đầu bị thiếu mà chỉ mất một chút độ chính xác, như minh họa ở đây hoặc thực hiện chạy tương đối trên phần bị thiếu. đào tạo để đạt được kết quả tương đương với mô hình ban đầu.
  • Mỗi phép tính số học trong TFHE đều yêu cầu một PBS (Bootstrap có thể lập trình). PBS là điểm nghẽn chính trong tính toán TFHE.
  • Triển khai TFHE tiên tiến nhất hiện nay là FPT. Đây là một triển khai FPGA tính toán PBS cứ sau 35 micro giây.

Những thách thức của LLM và FHE

Với những tiến bộ gần đây trong công nghệ, việc triển khai mã hóa đồng cấu hoàn toàn tốt nhất hiện nay có thể thực hiện một phép toán số học chỉ trong 35 micro giây. Tuy nhiên, khi xem xét một mô hình phức tạp như GPT2, một mã thông báo duy nhất yêu cầu 1,5 tỷ hoạt động đáng kinh ngạc. Điều này có nghĩa là thời gian xử lý mỗi Token là khoảng 52.000 giây.

Để hiểu rõ hơn, đối với các mô hình ngôn ngữ, Token có thể đại diện cho một ký tự hoặc một từ hoàn chỉnh, v.v. Hãy tưởng tượng việc tương tác với một mô hình ngôn ngữ trong đó thời gian phản hồi mất một hoặc hai tuần! Điều này là không thể chấp nhận được và sự chậm trễ như vậy rõ ràng là không khả thi đối với giao tiếp thời gian thực hoặc bất kỳ ứng dụng thực tế nào của mô hình.

Điều này cho thấy với công nghệ mã hóa đồng cấu hoàn toàn hiện nay, việc đạt được suy luận thời gian thực cho các mô hình ngôn ngữ quy mô lớn vẫn là một thách thức rất lớn. Mặc dù mã hóa đồng cấu hoàn toàn có ý nghĩa to lớn trong việc bảo vệ dữ liệu, nhưng những hạn chế về hiệu suất của nó có thể gây khó khăn khi áp dụng vào các tình huống trong thế giới thực trong các tác vụ đòi hỏi cường độ tính toán cao. Đối với các yêu cầu tương tác thời gian thực và phản hồi nhanh, có thể cần phải khám phá các giải pháp bảo vệ quyền riêng tư và điện toán an toàn khác.

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

  • Bắt đầu từ 52.000 giây/Mã thông báo.
  • Bằng cách triển khai 10.000 máy song song, chúng tôi đã giảm thời gian xuống còn 5 giây/Token. Lưu ý rằng các mô hình ngôn ngữ lớn thực sự có thể được song song hóa cao và suy luận hiện tại thường được thực hiện song song trên hàng nghìn lõi GPU trở lên.

Chuyển sang phần cứng nâng cao:

  • Từ được cải tiến -- bắt đầu từ 5 giây/Mã thông báo
  • Chuyển sang GPU hoặc ASIC, chúng ta có thể đạt được thời gian xử lý 0,1 giây cho mỗi mã thông báo. Mặc dù GPU có thể mang lại nhiều lợi ích trực tiếp hơn về tốc độ, nhưng ASIC có thể mang lại lợi ích cao hơn cả về tốc độ và mức tiêu thụ điện năng, chẳng hạn như ZPU đã đề cập trong blog trước.

Như được hiển thị trong hình, có thể đạt được suy luận riêng của các mô hình ngôn ngữ lớn thông qua mã hóa đồng cấu hoàn toàn bằng các kỹ thuật tăng tốc dữ liệu hiện có. Điều này có thể được hỗ trợ bằng khoản đầu tư ban đầu lớn nhưng khả thi vào một trung tâm dữ liệu đủ lớn. Tuy nhiên, khả năng này vẫn còn cực kỳ xa vời và đối với các mô hình ngôn ngữ lớn lớn hơn như Copilot (12 tỷ tham số) hay GPT3 (175 tỷ tham số) vẫn còn một khoảng trống cần được lấp đầy.

Đối với Copilot, thông lượng mã thông báo nhỏ hơn là đủ vì nó tạo ra đầu ra mã thường ngắn gọn hơn ngôn ngữ của con người. Nếu chúng tôi giảm yêu cầu thông lượng xuống hệ số 8, Copilot cũng có thể đạt được các mục tiêu khả thi.

Khoảng cách cuối cùng này có thể được thu hẹp bằng sự kết hợp giữa song song hóa quy mô lớn hơn, triển khai tốt hơn và các thuật toán hiệu quả hơn được khởi động bằng mã hóa đồng cấu hoàn toàn. Tại Ingonyama, chúng tôi tin rằng các thuật toán là một phần quan trọng để thu hẹp khoảng cách này và nhóm của chúng tôi hiện đang tập trung vào nghiên cứu và phát triển các thuật toán liên quan.

Tóm tắt

Sự kết hợp giữa tính bảo mật của mã hóa đồng cấu hoàn toàn và sức mạnh tính toán của các mô hình ngôn ngữ lớn có thể xác định lại các tương tác trí tuệ nhân tạo, đảm bảo cả hiệu quả và quyền riêng tư. Mặc dù có một số thách thức, nhưng thông qua nghiên cứu và đổi mới liên tục, chúng ta có thể đạt được một tương lai trong đó các hoạt động tương tác với các mô hình AI như ChatGPT đều mang tính tức thời và riêng tư. Điều này sẽ mang đến cho người dùng trải nghiệm hiệu quả và an toàn hơn, đồng thời thúc đẩy ứng dụng rộng rãi công nghệ trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau.

Các bình luận

Tất cả bình luận

Recommended for you

  • Thống đốc Ngân hàng Trung ương Philippines: Định hướng chính sách tiền tệ cuối cùng sẽ có xu hướng lỏng lẻo

    Thống đốc ngân hàng trung ương Philippines cho rằng định hướng chính sách tiền tệ cuối cùng sẽ có xu hướng lỏng lẻo hơn. Khi các điều kiện chín muồi và chúng tôi cảm thấy lạm phát đã được kiểm soát, chúng tôi có ý định nới lỏng chính sách. Không có mong muốn giữ lãi suất đủ cao để gây ra tổn thất về sản lượng.

  • Vitalik: Điểm thấp của tiện ích tiền điện tử đã qua

    Vitalik Buterin đã tweet rằng điểm thấp trong tiện ích tiền điện tử đã qua. Từ góc độ công nghệ, sự phát triển lớn nhất trong 5 năm qua chủ yếu là giải quyết các vấn đề về khả năng mở rộng của blockchain. Vitalik đặc biệt đề cập đến thị trường dự đoán Polymarket, cho biết họ rất hài lòng với sự hiện diện của nó trên Ethereum sau cuộc phỏng vấn vào mùa xuân này.

  • FBI: Hãy cảnh giác với những kẻ lừa đảo mạo danh nhân viên sàn giao dịch tiền điện tử để đánh cắp tiền bất hợp pháp

    FBI đã đưa ra cảnh báo vào ngày 1 tháng 8 rằng những kẻ lừa đảo đang giả danh nhân viên của các sàn giao dịch tiền điện tử và đánh cắp tiền thông qua các tin nhắn hoặc cuộc gọi điện thoại không được yêu cầu. Những kẻ lừa đảo này tạo ra các trường hợp khẩn cấp và cho rằng tài khoản có vấn đề để lừa nạn nhân cung cấp thông tin đăng nhập. nhấp vào liên kết hoặc chia sẻ thông tin nhận dạng.

  • Nguồn cung phát hành tiền tệ ổn định đã tăng lên 144,3 tỷ USD trong tháng 7 và thị phần USDT đạt 78,9%

    Theo dữ liệu từ TheBlockPro, khối lượng giao dịch được điều chỉnh của stablecoin trên chuỗi đã tăng 18,8% trong tháng 7, đạt 997,4 tỷ USD và nguồn cung stablecoin tăng 1,2% lên 144,3 tỷ USD, trong đó thị phần của USDT và USDC lần lượt là 78,9% và 17,1%. Ngoài ra, tổng khối lượng giao dịch trên chuỗi được điều chỉnh của Bitcoin và Ethereum tăng 31,8% về tổng thể, lên tới 445 tỷ USD. Trong số đó, khối lượng giao dịch trên chuỗi được điều chỉnh của Bitcoin tăng 34,7% và của Ethereum tăng thêm. 27,7%.

  • Ngân hàng Thương mại Dubai, UAE ra mắt tài khoản dành riêng cho nhà cung cấp dịch vụ tài sản ảo

    Ngân hàng Thương mại Dubai (CBD) tại Các Tiểu vương quốc Ả Rập Thống nhất (UAE) đã ra mắt tài khoản dành riêng cho nhà cung cấp dịch vụ tài sản ảo (VASP) để quản lý tiền của khách hàng và đáp ứng các yêu cầu an toàn theo quy định. CBD ra mắt một tài khoản chuyên dụng để tuân thủ Ngân hàng Trung ương. quy định của Cơ quan quản lý tài sản ảo của UAE và Dubai (VARA). Giám đốc điều hành Bernd van Linder cho biết động thái này phù hợp với các dịch vụ ngân hàng cốt lõi của Ngân hàng Thương mại Dubai và hỗ trợ các kế hoạch của ngân hàng nhằm thúc đẩy sự phát triển của nền kinh tế kỹ thuật số.

  • Giao thức cho vay chuỗi khối Morpho hoàn thành khoản tài trợ 50 triệu USD, dẫn đầu bởi Ribbit Capital

    Công ty DeFi Morpho đã huy động được 18 triệu USD tài trợ khi CEO Paul Frambot vẫn còn là sinh viên đại học. Lần này, Morpho đã huy động được 50 triệu USD thông qua việc bán token riêng tư nhưng không tiết lộ mức định giá. Vòng tài trợ chiến lược được dẫn dắt bởi Ribbit Capital, một nhà đầu tư ban đầu vào các công ty công nghệ tài chính bao gồm Robinhood, Revolut và Coinbase.

  • Bắc Kinh: Khuyến khích sử dụng đồng nhân dân tệ kỹ thuật số trong việc giám sát tiền gửi và tiền thuê nhà

    "Các biện pháp tạm thời của Bắc Kinh về quản lý tiền đặt cọc thuê nhà ở và giám sát tiền thuê nhà" đã được ban hành. Các Biện pháp chỉ ra rằng các Biện pháp này sẽ áp dụng cho việc lưu giữ, giám sát và quản lý tiền đặt cọc và tiền thuê nhà của các doanh nghiệp cho thuê nhà ở thuê nhà của người khác và tham gia kinh doanh cho thuê lại trong thành phố này. Thành phố này khuyến khích sử dụng đồng nhân dân tệ kỹ thuật số trong việc giám sát tiền gửi và tiền thuê nhà.

  • Cập nhật dữ liệu vị trí thang độ xám vào cuối tháng 7: GBTC giảm xuống xấp xỉ 241.000 BTC và ETHE nắm giữ khoảng 2,07 triệu ETH

    Grayscale chính thức cập nhật dữ liệu quỹ Bitcoin và Ethereum kể từ ngày 31 tháng 7 như sau:

  • Doanh số NFT trên chuỗi Bitcoin trong tháng 7 là khoảng 77,3 triệu USD, mức thấp nhất kể từ tháng 11 năm 2023

    Theo dữ liệu của Cryptoslam, doanh số bán NFT trên chuỗi Bitcoin trong tháng 7 là 77.311.729,1 USD, lập kỷ lục thấp nhất kể từ tháng 11 năm 2023. Ngoài ra, số lượng giao dịch NFT trên chuỗi Bitcoin trong tháng 7 chưa đến 120.000, đây cũng là mức thấp nhất kể từ tháng 11 năm 2023. Trong số đó, có khoảng 35.477 người bán độc lập và khoảng 49.348 người mua độc lập.

  • Upbit, Bithumb và Coinone sẽ bắt đầu trả phí pháp lý, dự kiến ​​tổng cộng là 300 triệu won

    Với việc triển khai Đạo luật bảo vệ người dùng tài sản ảo, các nhà cung cấp dịch vụ tài sản ảo như Upbit, Bithumb và Coinone cũng sẽ bắt đầu trả phí quy định. Phí quản lý được tính dựa trên thu nhập hoạt động và dự kiến ​​tổng cộng là 300 triệu won (220.000 USD). Phần đóng góp theo quy định của các nhà cung cấp dịch vụ tài sản ảo sẽ được tính dựa trên thu nhập hoạt động và tỷ lệ đóng góp của năm hoạt động trước đó. Dựa trên tỷ lệ chia sẻ năm 2024, phí của Upbit sẽ vào khoảng 272 triệu won (199.000 USD) và của Bithumb là khoảng 36,5 triệu won. Coinone và Gopax lần lượt là 6,03 triệu won và 830.000 won. Korbit, công ty có doanh thu hoạt động khoảng 1,7 tỷ won vào năm ngoái, không nằm trong phạm vi phải đóng góp theo quy định. Việc thu thập các khoản đóng góp theo quy định thực tế sẽ bắt đầu vào năm tới. Có thông tin cho rằng "phí giám sát" là khoản thuế gần như do các công ty tài chính và các tổ chức tài chính khác trả và được Cục Giám sát Tài chính kiểm tra với Cục Giám sát Tài chính để đổi lấy sự giám sát và dịch vụ. Thuế sẽ được đánh vào các công ty được quản lý có thu nhập hoạt động trên 3 tỷ won (2,2 triệu USD).