Cointime

Download App
iOS & Android

Mã hóa đồng hình hoàn toàn giải quyết các vấn đề về quyền riêng tư của LLM như thế nào

Validated Project

Được viết bởi: Ingonyama

Sự trỗi dậy của trí tuệ nhân tạo thật đáng kinh ngạc. Từ các thuật toán cơ bản đến các mô hình học ngôn ngữ (LLM) như ChatGPT và Copilot, trí tuệ nhân tạo luôn đi đầu trong quá trình phát triển công nghệ. Khi các mô hình này tương tác với người dùng và xử lý lượng lớn dữ liệu cũng như tín hiệu, các vấn đề về quyền riêng tư dữ liệu trở nên đặc biệt quan trọng. Trong số đó, các công ty lớn như Amazon và Apple đã hạn chế quyền truy cập của nhân viên vào các API công khai như ChatGPT để ngăn chặn khả năng rò rỉ dữ liệu do tương tác AI gây ra. Hơn nữa, thật hợp lý khi dự đoán rằng các quy định liên quan sẽ sớm được đưa ra nhằm yêu cầu một mức độ bảo vệ quyền riêng tư nhất định của người dùng.

Làm cách nào để chúng tôi đảm bảo rằng dữ liệu chúng tôi tương tác, đặt câu hỏi và chia sẻ với các mô hình này vẫn ở chế độ riêng tư?

Giới thiệu về Mã hóa đồng hình hoàn toàn (FHE)

Trong lĩnh vực mật mã, mã hóa đồng cấu hoàn toàn là một khái niệm mang tính đột phá. Sự hấp dẫn của nó nằm ở khả năng độc đáo: nó cho phép thực hiện các phép tính trực tiếp trên dữ liệu được mã hóa mà không cần giải mã dữ liệu trước, do đó cho phép suy luận riêng tư về thông tin nhạy cảm.

Hai điều quan trọng được đảm bảo với sự trợ giúp của tính năng này: dữ liệu vẫn được bảo mật trong quá trình xử lý và tài sản trí tuệ mẫu (IP) được bảo vệ hoàn toàn.

‍Lý luận về quyền riêng tư và bảo vệ sở hữu trí tuệ‍

Ngày nay, "quyền riêng tư" và "trải nghiệm người dùng" dường như là mối quan hệ giữa cá và gấu và bạn không thể có cả hai. Mọi người thường tin tưởng các bên thứ ba sẽ xử lý thông tin của họ để mang lại trải nghiệm tốt hơn cho người dùng. Chúng tôi tin rằng các công ty bên thứ ba này có thể tìm thấy sự cân bằng giữa quyền riêng tư của người dùng và chất lượng dịch vụ người dùng mà không cần phải lựa chọn giữa các giải pháp gốc riêng tư hơn nhưng thiếu tính năng hoặc hy sinh quyền riêng tư cho các dịch vụ giàu tính năng mà bạn chọn.

Mã hóa hoàn toàn đồng hình cho phép suy luận riêng tư đồng thời bảo vệ hoàn toàn tài sản trí tuệ của mô hình. Bằng cách thực hiện các phép tính trên dữ liệu được mã hóa, nó đảm bảo tính bảo mật hoàn toàn của các từ gợi ý đồng thời bảo vệ quyền sở hữu trí tuệ của các mô hình ngôn ngữ lớn.

Phương pháp mã hóa truyền thống VS FHE

Trong các sơ đồ mã hóa truyền thống, nếu bạn muốn thực hiện các thao tác có ý nghĩa trên dữ liệu ở dạng được mã hóa, trước tiên bạn cần giải mã nó. Nhưng việc giải mã sẽ làm lộ văn bản đơn giản của dữ liệu, điều đó có nghĩa là dữ liệu sẽ trở nên dễ vỡ và dễ bị tấn công, ngay cả khi nó chỉ được giải mã trong giây lát.

Ngược lại, mã hóa đồng cấu hoàn toàn có thể hoạt động trực tiếp trên văn bản mã hóa, đảm bảo rằng thông tin nhạy cảm vẫn “ẩn” trong toàn bộ hoạt động.

Tại sao FHE lại quan trọng

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Tầm quan trọng của mã hóa đồng cấu hoàn toàn vượt xa lý thuyết. Hãy tưởng tượng một dịch vụ điện toán đám mây nơi việc xử lý dữ liệu có thể được thực hiện mà không cần giải mã dữ liệu hoặc nơi có thể phân tích cơ sở dữ liệu y tế mà không cần truy cập các chi tiết nhạy cảm của bệnh nhân. Các ứng dụng tiềm năng của mã hóa đồng cấu hoàn toàn rất rộng lớn và đa dạng, bao gồm hệ thống bỏ phiếu an toàn và tìm kiếm riêng tư đối với cơ sở dữ liệu được mã hóa.

Cơ sở toán học của FHE

Mã hóa đồng cấu hoàn toàn dựa trên vấn đề dung nạp học tập (LWE), một kỹ thuật mã hóa mạng có khả năng kháng lượng tử. Trong LWE, nhiễu ngẫu nhiên được sử dụng để làm cho dữ liệu không thể đọc được trừ khi có khóa. Có thể thực hiện các phép tính số học trên dữ liệu được mã hóa, nhưng điều này thường làm tăng mức độ nhiễu. Nếu thực hiện quá nhiều thao tác liên tiếp thì không ai có thể đọc được dữ liệu, kể cả người giữ phím. Đây là mã hóa đồng cấu một phần (SHE).

Việc chuyển đổi mã hóa đồng cấu một phần sang mã hóa đồng cấu hoàn toàn yêu cầu một thao tác làm giảm mức nhiễu. Hoạt động này được gọi là "Bootstrapping" và nhiều sơ đồ mã hóa đồng cấu hoàn toàn sử dụng bootstrapping. Trong bài viết này, chúng tôi sẽ tập trung vào sơ đồ mã hóa đồng cấu hoàn toàn trên hình xuyến (Torus FHE), sử dụng cấu trúc đại số của hình xuyến toán học để đạt được mã hóa đồng cấu hoàn toàn.

Ưu điểm của TFHE

Mặc dù mỗi sơ đồ mã hóa đồng cấu hoàn toàn đều có những ưu điểm và nhược điểm riêng, nhưng trong các tình huống thực tế, TFHE hiện có cách triển khai hiệu quả hơn. Một ưu điểm quan trọng khác của TFHE là Khởi động có thể lập trình (PBS), mở rộng hoạt động khởi động thông thường để bao gồm việc tính toán các hàm biến đơn, chẳng hạn như các hàm kích hoạt, rất quan trọng trong lĩnh vực học máy.

Một nhược điểm của TFHE là mỗi phép toán số học được thực hiện trong phép tính yêu cầu một phép toán PBS, trong khi các sơ đồ khác cho phép một số phép toán được phân nhóm giữa các phép toán khởi động.

Giả định và xấp xỉ

Để ước tính thời gian cần thiết cho suy luận mô hình ngôn ngữ lớn (LLM) bằng cách sử dụng mã hóa đồng cấu hoàn toàn, chúng tôi đưa ra một số giả định để đánh giá:

  • Số lượng phép toán số học cần thiết cho mỗi Mã thông báo xấp xỉ 1–2 lần số lượng tham số trong mô hình. Đây là giới hạn dưới và vì mỗi mã thông báo sử dụng toàn bộ mô hình nên chúng tôi sẽ giả định rằng giới hạn dưới này đủ gần với nhu cầu thực tế.
  • Mỗi phép toán số học trong mô hình ngôn ngữ lớn có thể được ánh xạ tới một phép toán số học trong TFHE. Về cơ bản đây là minh họa về kích thước loại có thể thay đổi trong cả hai trường hợp. Chúng tôi giả định rằng các biến INT4 là đủ cho các mô hình ngôn ngữ lớn và khả thi cho TFHE.
  • Mọi phép toán số học trong mô hình ngôn ngữ lớn cần được ánh xạ tới một phép toán số học trong mã hóa đồng cấu hoàn toàn. Điều này có nghĩa là chúng tôi không thể chạy các phần của mô hình mà không được mã hóa. Một bài đăng blog gần đây của Zama xem xét suy luận FHE mà không có giả định này, trong đó hầu hết mô hình được người dùng thực thi cục bộ mà không cần bất kỳ mã hóa nào và chỉ một phần nhỏ (ví dụ: một đầu chú ý duy nhất) được sử dụng giống hệt trên máy chủ công ty của mô hình. -hoạt động mã hóa tiên tiến. Chúng tôi tin rằng cách tiếp cận này không thực sự bảo vệ quyền sở hữu trí tuệ của mô hình, vì trong trường hợp này, người dùng có thể chỉ chạy phần đầu bị thiếu mà chỉ mất một chút độ chính xác, như minh họa ở đây hoặc thực hiện chạy tương đối trên phần bị thiếu. đào tạo để đạt được kết quả tương đương với mô hình ban đầu.
  • Mỗi phép tính số học trong TFHE đều yêu cầu một PBS (Bootstrap có thể lập trình). PBS là điểm nghẽn chính trong tính toán TFHE.
  • Triển khai TFHE tiên tiến nhất hiện nay là FPT. Đây là một triển khai FPGA tính toán PBS cứ sau 35 micro giây.

Những thách thức của LLM và FHE

Với những tiến bộ gần đây trong công nghệ, việc triển khai mã hóa đồng cấu hoàn toàn tốt nhất hiện nay có thể thực hiện một phép toán số học chỉ trong 35 micro giây. Tuy nhiên, khi xem xét một mô hình phức tạp như GPT2, một mã thông báo duy nhất yêu cầu 1,5 tỷ hoạt động đáng kinh ngạc. Điều này có nghĩa là thời gian xử lý mỗi Token là khoảng 52.000 giây.

Để hiểu rõ hơn, đối với các mô hình ngôn ngữ, Token có thể đại diện cho một ký tự hoặc một từ hoàn chỉnh, v.v. Hãy tưởng tượng việc tương tác với một mô hình ngôn ngữ trong đó thời gian phản hồi mất một hoặc hai tuần! Điều này là không thể chấp nhận được và sự chậm trễ như vậy rõ ràng là không khả thi đối với giao tiếp thời gian thực hoặc bất kỳ ứng dụng thực tế nào của mô hình.

Điều này cho thấy với công nghệ mã hóa đồng cấu hoàn toàn hiện nay, việc đạt được suy luận thời gian thực cho các mô hình ngôn ngữ quy mô lớn vẫn là một thách thức rất lớn. Mặc dù mã hóa đồng cấu hoàn toàn có ý nghĩa to lớn trong việc bảo vệ dữ liệu, nhưng những hạn chế về hiệu suất của nó có thể gây khó khăn khi áp dụng vào các tình huống trong thế giới thực trong các tác vụ đòi hỏi cường độ tính toán cao. Đối với các yêu cầu tương tác thời gian thực và phản hồi nhanh, có thể cần phải khám phá các giải pháp bảo vệ quyền riêng tư và điện toán an toàn khác.

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

Các giải pháp tiềm năng

Để cho phép áp dụng mã hóa đồng cấu hoàn toàn cho các mô hình ngôn ngữ lớn, đây là lộ trình khả thi:

Sử dụng nhiều máy để thực hiện xử lý song song:

  • Bắt đầu từ 52.000 giây/Mã thông báo.
  • Bằng cách triển khai 10.000 máy song song, chúng tôi đã giảm thời gian xuống còn 5 giây/Token. Lưu ý rằng các mô hình ngôn ngữ lớn thực sự có thể được song song hóa cao và suy luận hiện tại thường được thực hiện song song trên hàng nghìn lõi GPU trở lên.

Chuyển sang phần cứng nâng cao:

  • Từ được cải tiến -- bắt đầu từ 5 giây/Mã thông báo
  • Chuyển sang GPU hoặc ASIC, chúng ta có thể đạt được thời gian xử lý 0,1 giây cho mỗi mã thông báo. Mặc dù GPU có thể mang lại nhiều lợi ích trực tiếp hơn về tốc độ, nhưng ASIC có thể mang lại lợi ích cao hơn cả về tốc độ và mức tiêu thụ điện năng, chẳng hạn như ZPU đã đề cập trong blog trước.

Như được hiển thị trong hình, có thể đạt được suy luận riêng của các mô hình ngôn ngữ lớn thông qua mã hóa đồng cấu hoàn toàn bằng các kỹ thuật tăng tốc dữ liệu hiện có. Điều này có thể được hỗ trợ bằng khoản đầu tư ban đầu lớn nhưng khả thi vào một trung tâm dữ liệu đủ lớn. Tuy nhiên, khả năng này vẫn còn cực kỳ xa vời và đối với các mô hình ngôn ngữ lớn lớn hơn như Copilot (12 tỷ tham số) hay GPT3 (175 tỷ tham số) vẫn còn một khoảng trống cần được lấp đầy.

Đối với Copilot, thông lượng mã thông báo nhỏ hơn là đủ vì nó tạo ra đầu ra mã thường ngắn gọn hơn ngôn ngữ của con người. Nếu chúng tôi giảm yêu cầu thông lượng xuống hệ số 8, Copilot cũng có thể đạt được các mục tiêu khả thi.

Khoảng cách cuối cùng này có thể được thu hẹp bằng sự kết hợp giữa song song hóa quy mô lớn hơn, triển khai tốt hơn và các thuật toán hiệu quả hơn được khởi động bằng mã hóa đồng cấu hoàn toàn. Tại Ingonyama, chúng tôi tin rằng các thuật toán là một phần quan trọng để thu hẹp khoảng cách này và nhóm của chúng tôi hiện đang tập trung vào nghiên cứu và phát triển các thuật toán liên quan.

Tóm tắt

Sự kết hợp giữa tính bảo mật của mã hóa đồng cấu hoàn toàn và sức mạnh tính toán của các mô hình ngôn ngữ lớn có thể xác định lại các tương tác trí tuệ nhân tạo, đảm bảo cả hiệu quả và quyền riêng tư. Mặc dù có một số thách thức, nhưng thông qua nghiên cứu và đổi mới liên tục, chúng ta có thể đạt được một tương lai trong đó các hoạt động tương tác với các mô hình AI như ChatGPT đều mang tính tức thời và riêng tư. Điều này sẽ mang đến cho người dùng trải nghiệm hiệu quả và an toàn hơn, đồng thời thúc đẩy ứng dụng rộng rãi công nghệ trí tuệ nhân tạo trong nhiều lĩnh vực khác nhau.

Các bình luận

Tất cả bình luận

Recommended for you

  • Ứng cử viên tổng thống Suriname Maya Parbhoe: Nếu được bầu làm tổng thống, Bitcoin sẽ được chỉ định là tiền tệ hợp pháp

    Maya Parbhoe, ứng cử viên tổng thống ở quốc gia Suriname ở Nam Mỹ, có tầm nhìn đầy tham vọng nhằm tạo ra một quốc gia Bitcoin có nguồn gốc sâu xa hơn về tiền điện tử so với El Salvador. Parbhoe, đồng thời là Giám đốc điều hành của Daedalus Labs, một công ty dịch vụ dựa trên Bitcoin và NOSTR, đã vạch ra một kế hoạch táo bạo để chống tham nhũng và mang lại lợi ích thực sự cho người dân bằng cách áp dụng các tiêu chuẩn Bitcoin – miễn là bà giành chiến thắng trong cuộc bầu cử sắp tới vào năm 2025. Ưu tiên hàng đầu của bà là thiết lập Bitcoin (BTC) làm phương tiện thanh toán hợp pháp sau khi bà nhậm chức. Trong năm đầu tiên, cô có kế hoạch thay thế dần đồng đô la Suriname bằng satoshi, đơn vị nhỏ nhất của Bitcoin và đảm bảo tất cả lương được trả bằng BTC.

  • OpenTrade thông báo hoàn thành vòng mở rộng hạt giống trị giá 4 triệu đô la do AlbionVC dẫn đầu

    OpenTrade đã thông báo kết thúc vòng mở rộng hạt giống trị giá 4 triệu đô la để xây dựng các sản phẩm cho vay và lợi nhuận ổn định được hỗ trợ bởi RWA. Vòng tài trợ này được dẫn dắt bởi AlbionVC, với sự tham gia của a16z Crypto và CMCC Global. OpenTrade dự định sử dụng số tiền này để mở rộng quy mô hoạt động và nâng cao khả năng của sản phẩm.

  • VanEck gia hạn phí HODL bằng 0 cho đến tháng 1 năm 2026

    VanEck đã công bố gia hạn mức phí bằng 0 đối với VanEck Bitcoin ETF (HODL) cho đến tháng 1 năm 2026.

  • Người sáng lập DEXX: Nếu hacker chủ động liên lạc với bạn trong vòng 48 giờ thì hắn vẫn sẵn sàng liên lạc, nếu không hắn sẽ truy đuổi đến cùng

    Theo tin tức ngày 25 tháng 11, Roy, người sáng lập DEXX đã đăng trên mạng xã hội rằng DEXX vẫn chưa sa thải bất kỳ thành viên nào trong nhóm cho đến ngày nay và duy trì chi phí vận hành cực cao hàng ngày. Tôi tin rằng mọi người trên thị trường đã lan truyền tin tức này. và chi phí của nhóm, cũng như chi phí của các nhà cung cấp dịch vụ nút khác nhau và thành phần chi phí vốn thực sự rất lớn. Chúng tôi cũng đã trả một khoản chi phí vốn rất lớn trong tuần này để thu hồi tiền của hacker. Chúng tôi sẽ chịu trách nhiệm đến cùng và đảm bảo rằng lời nói và hành động của chúng tôi là nhất quán, đồng thời chúng tôi hy vọng sẽ tiếp tục đưa DEXX đến cõi niết bàn. 1. Chúng tôi đang làm việc với các cơ quan thực thi pháp luật và nhiều công ty bảo mật để điều tra và nhắm mục tiêu vào các tin tặc, đồng thời quyết tâm thu hồi số tiền bị đánh cắp. 2. Chúng tôi rất biết ơn những đối tác đã cùng chia sẻ vui buồn và không bao giờ rời bỏ DEXX trong những ngày khó khăn nhất. Cho đến thời điểm hiện tại, nền tảng này vẫn đang tạo ra các giao dịch và lợi nhuận. Khối lượng giao dịch đạt gần 2 triệu USD trong tuần qua, với lợi nhuận gần 20.000 USD. 3. Nhóm đang làm việc với một số chuyên gia bảo mật để xây dựng lại và nâng cấp giải pháp bảo mật tài sản nhằm đảm bảo an toàn cho các tài sản tiếp theo của người dùng. 4. Nhóm hiện đang xây dựng kế hoạch bồi thường đối với những người dùng bị thiệt hại, chúng tôi sẽ xác minh cẩn thận mọi địa chỉ và mọi khoản tiền được chuyển. Nếu hacker chủ động liên hệ với chúng tôi trong vòng 48 giờ, chúng tôi sẵn sàng trao đổi với thái độ giải quyết, nếu không chúng tôi sẽ theo đuổi vấn đề đến cùng.

  • Morgan Stanley: Đồng đô la Mỹ sẽ đạt đỉnh trước cuối năm và bước vào "mô hình thị trường gấu" vào năm 2025

    Morgan Stanley dự đoán sức mạnh của đồng đô la sẽ đạt đỉnh trước cuối năm nay, sau đó sẽ bước vào "mô hình thị trường gấu" và giảm dần vào năm 2025. Ngân hàng tin rằng đồng yên Nhật và đô la Úc có tiềm năng tăng giá lớn nhất trong năm tới, do Ngân hàng Nhật Bản sẽ tăng lãi suất và các hành động nới lỏng của Ngân hàng Dự trữ Úc sẽ diễn ra dần dần.

  • Equation News gọi Binance là “kho chuột”: Bạn đang phá hủy tâm lý thị trường giao dịch

    Theo tin tức ngày 25 tháng 11, Equation News đã đưa ra một bài báo nói rằng đối với các nhà giao dịch nội bộ đã tham gia niêm yết hợp đồng vĩnh viễn của Binance, vui lòng bán chip của bạn từ từ vào lần tới. Sự sụp đổ lý do TẠI SAO và CHEEMS mà bạn gây ra là tiêu cực 100% đối với tất cả những người tham gia giao dịch và bạn đang phá hủy tâm lý giao dịch. Đầu ngày hôm nay, Binance đã thông báo rằng họ sẽ ra mắt các hợp đồng vĩnh viễn 1000WHYUSDT và 1000CHEEMSUSDT, sau đó đã gây ra sự sụt giảm ngắn hạn về WHY và CHEEMS, làm dấy lên các cuộc thảo luận sôi nổi trong cộng đồng.

  • Công ty của Bộ trưởng Thương mại Trump mua lại cổ phần của Tether và sẽ triển khai chương trình cho vay BTC trị giá 2 tỷ USD

    Với việc Lutnick gia nhập chính quyền Trump vào năm tới, Tether dự kiến ​​sẽ nhận được sự ủng hộ chính trị đáng kể.

  • PANews ·

    Triển vọng phê duyệt Solana ETF: Từ “gần như vô vọng” đến “dự kiến ​​trước cuối năm 2025”, thách thức hiện tại là gì?

    Mặc dù Solana thiếu sự hỗ trợ của thị trường tương lai trưởng thành và phải đối mặt với những trở ngại tiềm ẩn khi bị đánh giá là chứng khoán, quá trình đăng ký ETF của nó đang tiến triển ổn định để đón đầu môi trường pháp lý mới.

  • Đối tác của Pantera: Chúng ta có thể mong đợi gì từ thị trường tiền điện tử sau cuộc bầu cử?

    Tâm lý thị trường tiền điện tử vẫn mạnh mẽ một tuần sau cuộc bầu cử Hoa Kỳ. Polymarket, Bitcoin và các chính phủ có khả năng hiệu quả hơn, thân thiện với tiền điện tử đều đáng được mong đợi.

  • Haotian ·

    Sau khi Bitcoin vượt qua 100.000 USD, xu hướng nào sẽ bùng nổ đầu tiên?

    Sau khi Bitcoin vượt qua mốc 100.000 đô la, được thúc đẩy bởi Pump phục hồi thị trường, chúng tôi đã tổng hợp 10 câu chuyện phổ biến hàng đầu có thể bùng nổ bất cứ lúc nào.