Cointime

Download App
iOS & Android

Công nghiệp ghi nhãn dữ liệu và phòng ngừa rủi ro pháp lý

Validated Individual Expert

Dữ liệu là nền tảng của các mô hình AI lớn. Đào tạo liên tục và điều chỉnh dữ liệu lớn và chất lượng cao có thể cải thiện độ chính xác và hiệu quả của các mô hình lớn. Đào tạo mô hình quy mô lớn cần thu thập dữ liệu thông qua các phương pháp như khai thác dữ liệu, trình thu thập dữ liệu web, chia sẻ dữ liệu, mở dữ liệu và giao dịch hợp pháp, đồng thời xử lý dữ liệu thông qua làm sạch dữ liệu, chống trùng lặp, định dạng và ghi nhãn thủ công. Người ta thường tin rằng quy trình sản xuất dữ liệu đào tạo chủ yếu bao gồm thiết kế cấu trúc tập dữ liệu đào tạo, thu thập và thu thập dữ liệu thô, xử lý và ghi nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác.

Trong những năm gần đây, thị trường ghi nhãn dữ liệu của đất nước tôi đã phát triển nhanh chóng. Theo thống kê của Viện nghiên cứu công nghiệp Huajing, tại thị trường ghi nhãn dữ liệu trí tuệ nhân tạo của nước tôi vào năm 2021, nhu cầu về thị giác máy tính, giọng nói thông minh và NLP (Xử lý ngôn ngữ tự nhiên, viết tắt là NLP, xử lý ngôn ngữ tự nhiên) chiếm 45,3%, 40,5 % và 20% tương ứng.14,2%, vào năm 2021, quy mô thị trường của ngành ghi nhãn dữ liệu của nước tôi sẽ đạt 4,33 tỷ nhân dân tệ, tăng khoảng 19,2% so với cùng kỳ năm ngoái và dự kiến ​​quy mô thị trường sẽ đạt 20,43 tỷ nhân dân tệ vào năm 2029.

1. Ghi nhãn dữ liệu

Người ta thường tin rằng ghi nhãn dữ liệu là quá trình xử lý giọng nói, hình ảnh, văn bản, video và dữ liệu khác chưa được xử lý để chuyển đổi thành thông tin mà máy có thể nhận dạng được. Các loại chú thích dữ liệu bao gồm chú thích hình ảnh, chú thích giọng nói, chú thích văn bản, chú thích video, v.v., chẳng hạn như phân đoạn từ, gắn thẻ một phần lời nói và nhận dạng thực thể cho văn bản cũng như phát hiện và phân đoạn đối tượng cho hình ảnh. Gắn nhãn dữ liệu cần được máy nhận dạng và phân biệt thông qua ghi nhãn dữ liệu, sau đó để máy tính liên tục tìm hiểu các đặc điểm của những dữ liệu này và cuối cùng nhận ra khả năng tự nhận dạng của máy tính.

Chú thích dữ liệu có ý nghĩa rất lớn đối với các mô hình trí tuệ nhân tạo lớn, có thể nói đây là một trong những mắt xích quan trọng để các mô hình trí tuệ nhân tạo lớn hoạt động hiệu quả. Cụ thể, việc ghi nhãn dữ liệu có thể mang lại những ý nghĩa sau.

Một là cải thiện độ chính xác của các thuật toán học máy, dữ liệu được gắn nhãn có thể giúp các thuật toán học máy học và dự đoán chính xác hơn. Đối với các tác vụ phân loại hình ảnh, hình ảnh được chú thích cho phép thuật toán nhận dạng các đối tượng và cảnh trong ảnh tốt hơn, từ đó cải thiện độ chính xác.

Thứ hai là đẩy nhanh quá trình huấn luyện thuật toán. Dữ liệu được gắn nhãn có thể làm cho các thuật toán học máy học và đào tạo nhanh hơn, do đó giảm thời gian đào tạo và chi phí của thuật toán.Việc ứng dụng rộng rãi dữ liệu được dán nhãn đã thúc đẩy sự phát triển của công nghệ học máy.

Thứ ba là thúc đẩy khả năng ứng dụng của công nghệ máy học. Với dữ liệu được gắn nhãn, mọi người có thể sử dụng tốt hơn các kỹ thuật học máy để giải quyết các vấn đề thực tế, chẳng hạn như xử lý ngôn ngữ tự nhiên, thị giác máy tính, hệ thống đề xuất, v.v. Nói tóm lại, chú thích dữ liệu là một liên kết rất quan trọng trong lĩnh vực học máy.

2. Ghi nhãn dữ liệu và quản trị dữ liệu

Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), quản trị dữ liệu là quá trình xử lý, định dạng và chuẩn hóa dữ liệu. Quản trị dữ liệu là một yếu tố thiết yếu của việc quản lý dữ liệu và hệ thống dữ liệu. Quản trị dữ liệu liên quan đến việc quản lý toàn bộ vòng đời của dữ liệu, cho dù đó là dữ liệu tĩnh, động, không đầy đủ hay giao dịch.

Chú thích dữ liệu và quản trị dữ liệu là hai khái niệm khác nhau. Quản trị dữ liệu đề cập đến việc quản lý thống nhất các hoạt động dữ liệu như thu thập, xử lý, phân tích và lưu trữ dữ liệu để đảm bảo chất lượng, bảo mật, độ tin cậy và tiêu chuẩn hóa dữ liệu. Mục tiêu của quản trị dữ liệu là thúc đẩy việc sử dụng dữ liệu có trật tự, hiệu quả và tuân thủ, từ đó thúc đẩy các quyết định kinh doanh và phát triển kinh doanh. Chú thích dữ liệu là quá trình phân loại, gắn nhãn và chú thích dữ liệu thô làm tài liệu đào tạo cho mô hình học máy hoặc trí tuệ nhân tạo. Mục đích của chú thích dữ liệu là cải thiện độ chính xác và khả năng khái quát hóa của các mô hình học máy, để các mô hình có thể thích ứng tốt hơn với các tình huống kinh doanh thực tế.

Ghi nhãn dữ liệu và quản trị dữ liệu có mối quan hệ với nhau. Quản trị dữ liệu có thể đảm bảo chất lượng và độ tin cậy của dữ liệu, đồng thời cung cấp dữ liệu thô chất lượng cao để ghi nhãn dữ liệu. Đồng thời, kết quả của chú thích dữ liệu cũng có thể cung cấp phản hồi và hướng dẫn quản trị dữ liệu tốt hơn, giúp quản trị dữ liệu chính xác và hiệu quả hơn.

3. Ghi nhãn dữ liệu và tiêu chuẩn dữ liệu

Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), tiêu chuẩn dữ liệu (Data Standard) đề cập đến các quy tắc đặt tên, định nghĩa, cấu trúc và giá trị của dữ liệu. Ghi nhãn dữ liệu là một liên kết quan trọng trong việc xây dựng và thực hiện các tiêu chuẩn dữ liệu. Chuẩn dữ liệu là những ràng buộc mang tính quy phạm nhằm đảm bảo tính nhất quán, chính xác và đầy đủ của việc định nghĩa và sử dụng dữ liệu. Đối với doanh nghiệp, chuẩn dữ liệu là những ràng buộc mang tính quy chuẩn đảm bảo tính nhất quán, chính xác trong việc sử dụng, trao đổi dữ liệu nội bộ và bên ngoài.

Chuẩn dữ liệu có thể bao gồm chuẩn về cấu trúc dữ liệu, nguồn nội dung dữ liệu, nghiệp vụ kỹ thuật, v.v. Việc xây dựng và ban hành các tiêu chuẩn dữ liệu cần được kết hợp với nhu cầu thực tế của doanh nghiệp, thông qua các hoạt động quản lý khác nhau, để thúc đẩy việc quản lý dữ liệu được tiêu chuẩn hóa, nhằm đảm bảo tính toàn vẹn, nhất quán và tiêu chuẩn hóa của dữ liệu. Mục tiêu của quản lý tiêu chuẩn dữ liệu là đạt được việc quản lý dữ liệu được tiêu chuẩn hóa thông qua việc xây dựng và phát hành các tiêu chuẩn dữ liệu thống nhất, kết hợp với hệ thống quản lý tiêu chuẩn dữ liệu hợp lý và cung cấp cơ sở tiêu chuẩn cho việc quản lý dữ liệu tiếp theo.

Ghi nhãn dữ liệu là quá trình phân loại, đóng khung, ghi nhãn và chú thích dữ liệu làm tài liệu cơ bản cho học máy. Vì chất lượng của chú thích dữ liệu có liên quan trực tiếp đến trí thông minh của máy nên việc chú thích dữ liệu cần được thực hiện theo các tiêu chuẩn chất lượng nghiêm ngặt. Quá trình dán nhãn dữ liệu bao gồm thu thập dữ liệu, làm sạch dữ liệu, dán nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác. Trong số đó, thu thập và làm sạch dữ liệu là giai đoạn chuẩn bị, ghi nhãn dữ liệu là liên kết cốt lõi và kiểm tra chất lượng dữ liệu là kiểm tra và đánh giá dữ liệu được dán nhãn. Từ một quan điểm cụ thể, các tiêu chuẩn dữ liệu là một tập hợp các công nghệ và quy trình được tiêu chuẩn hóa đã được xác định, giải thích, sử dụng và sửa đổi để xử lý việc thu thập, trình bày, trao đổi, phân tích và quản lý dữ liệu.

Do đó, ghi nhãn dữ liệu và tiêu chuẩn dữ liệu có mối quan hệ với nhau, ghi nhãn dữ liệu là quá trình thực hiện cụ thể của tiêu chuẩn hóa dữ liệu, trong khi tiêu chuẩn dữ liệu là quy chuẩn và cơ sở cho việc ghi nhãn dữ liệu. Thông qua việc kết hợp ghi nhãn dữ liệu và tiêu chuẩn hóa dữ liệu, hiệu quả và độ tin cậy của các ứng dụng máy học và trí tuệ nhân tạo có thể được cải thiện hơn nữa.

4. Thông số kỹ thuật liên quan đến ghi nhãn dữ liệu

Việc ghi nhãn dữ liệu cần tuân thủ các luật và quy định cơ bản liên quan đến thông tin dữ liệu, bao gồm "Luật An ninh mạng của Cộng hòa Nhân dân Trung Hoa", "Luật Bảo mật Dữ liệu của Cộng hòa Nhân dân Trung Hoa" và "Luật Bảo vệ Thông tin Cá nhân của Cộng hòa Nhân dân Trung Hoa". Của Trung Quốc".

Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo do Cục quản lý không gian mạng nhà nước, Ủy ban cải cách và phát triển quốc gia, Bộ giáo dục, Bộ khoa học và công nghệ, Bộ công nghiệp và công nghệ thông tin, Bộ công an , và Cục Quản lý Nhà nước về Phát thanh, Điện ảnh và Truyền hình, sẽ có hiệu lực vào ngày 15 tháng 8 năm 2023 Điều 8 quy định cụ thể về dán nhãn dữ liệu, yêu cầu dán nhãn dữ liệu trong quá trình nghiên cứu và phát triển công nghệ trí tuệ nhân tạo tổng hợp, nhà cung cấp sẽ xây dựng rõ ràng , quy tắc ghi nhãn cụ thể và khả thi đáp ứng các yêu cầu của các biện pháp này; thực hiện đánh giá chất lượng ghi nhãn dữ liệu, lấy mẫu Xác minh tính chính xác của nội dung ghi nhãn; cung cấp đào tạo cần thiết cho nhân viên ghi nhãn, nâng cao nhận thức về việc tuân thủ luật pháp, giám sát và hướng dẫn ghi nhãn nhân viên để thực hiện công việc ghi nhãn theo cách tiêu chuẩn hóa.

Theo phiên bản sửa đổi của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa (Phiên bản 2022)" dựa trên phiên bản 2015 của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa" của Bộ Nhân sự và An sinh Xã hội, Cục Quản lý Nhà nước về Quy định thị trường và Cục thống kê quốc gia, giảng viên trí tuệ nhân tạo chính thức trở thành một nghề nghiệp mới và đưa nó vào Danh mục phân loại nghề nghiệp quốc gia. Nhiệm vụ chính của giảng viên trí tuệ nhân tạo bao gồm dán nhãn và xử lý dữ liệu thô của doanh nghiệp như hình ảnh, văn bản và giọng nói; phân tích và tinh chỉnh các đặc điểm của lĩnh vực chuyên môn, đào tạo và đánh giá các thuật toán, chức năng và hiệu suất của các sản phẩm trí tuệ nhân tạo; thiết kế quy trình tương tác và Giải pháp ứng dụng; giám sát, phân tích và quản lý dữ liệu ứng dụng sản phẩm trí tuệ nhân tạo; điều chỉnh, tối ưu hóa thông số, cấu hình sản phẩm trí tuệ nhân tạo…

Quy trình ghi nhãn dữ liệu cho máy học trong trí tuệ nhân tạo (GB/T 42755-2023) là một tiêu chuẩn quốc gia được đề xuất, sẽ được triển khai vào ngày 1 tháng 12 năm 2023. Đây là một bộ hướng dẫn về quy trình ghi nhãn dữ liệu cho máy học trong Trí tuệ nhân tạo Tiêu chuẩn và các quy tắc chuẩn hóa quy trình dán nhãn dữ liệu, chỉ định quy trình vận hành dán nhãn dữ liệu và đưa ra khuyến nghị về nhiệm vụ dán nhãn, nhân sự dán nhãn, môi trường dán nhãn; kiểm soát quy trình, đảm bảo chất lượng, cơ chế quản lý; kiểm tra chất lượng nội bộ, cung cấp dữ liệu, hậu bảo trì, v.v. .Các quy định nhằm đảm bảo tính thống nhất và chính xác của chú thích dữ liệu và cung cấp dữ liệu huấn luyện chất lượng cao cho các thuật toán học máy.

Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .

Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .

"Khuôn khổ chung về ghi nhãn dữ liệu trí tuệ nhân tạo" cung cấp các đề xuất về quy trình sản xuất và nội dung sản xuất của quá trình sản xuất ghi nhãn dữ liệu trong học máy trí tuệ nhân tạo, đồng thời làm rõ trạng thái và khái niệm công nghiệp về ghi nhãn dữ liệu. "Quy trình làm việc chung để ghi nhãn dữ liệu trí tuệ nhân tạo" quy định các yêu cầu công việc chung để tạo nhãn dữ liệu trong học máy trí tuệ nhân tạo, bao gồm các nguyên tắc, quy trình, lập kế hoạch, v.v. "Yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trí tuệ nhân tạo" chỉ định các thuật ngữ và định nghĩa, phân loại kỹ thuật chung và yêu cầu kỹ thuật chung đối với các yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trong máy học trí tuệ nhân tạo.

Vào tháng 6 năm 2023, dưới sự dẫn đầu của Học viện Công nghệ Thông tin và Truyền thông Trung Quốc, hơn 20 doanh nghiệp chủ chốt trong các ngành liên quan, bao gồm China Unicom, Datatang, Haiti Ruisheng, Đo lường đám mây Testin, Integer Intelligence, Hikvision, Midea Group, v.v. Doanh nghiệp, AI các công ty công nghệ và các công ty công nghiệp quy mô lớn đã cùng nhau biên soạn tiêu chuẩn "Yêu cầu kỹ thuật và phương pháp thử nghiệm cho nền tảng ghi nhãn dữ liệu trí tuệ nhân tạo", tiêu chuẩn này cũng đồng thời được thành lập tại Liên minh Viễn thông Quốc tế (ITU-T), một trong ba tổ chức tiêu chuẩn quốc tế lớn .Thảo luận với bản thảo. Tiêu chuẩn cung cấp các ràng buộc quy phạm và đề xuất tham chiếu cho từng liên kết chính của nền tảng ghi nhãn dữ liệu. Hiện tại, giá thầu nhóm tiêu chuẩn đã được hoàn tất.

Ngoài ra, còn có một loạt các tiêu chuẩn quốc gia liên quan đến việc dán nhãn dữ liệu. Chẳng hạn như "Lập kế hoạch tài nguyên dữ liệu dữ liệu lớn công nghệ thông tin" (GB/T 42450-2023), Lập kế hoạch tài nguyên dữ liệu (Data Resource Planning, gọi tắt là DRP) là một chiến lược và lập kế hoạch công nghệ thông tin (CNTT), được thiết kế để đảm bảo rằng các tổ chức có thể quản lý hiệu quả tài nguyên dữ liệu của mình để đáp ứng nhu cầu kinh doanh và đảm bảo bảo mật dữ liệu và bảo vệ quyền riêng tư.

"Chất lượng dữ liệu Phần 8: Chất lượng thông tin và dữ liệu: Khái niệm và phép đo" (GB/T 42381.8-2023) là một tiêu chuẩn quốc gia quy định các khái niệm và phương pháp đo lường chất lượng thông tin và dữ liệu. Tiêu chuẩn này thuộc thẩm quyền của TC159 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia), TC159SC4 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia Chi nhánh dữ liệu công nghiệp) và cơ quan có thẩm quyền là Liên đoàn công nghiệp máy móc Trung Quốc.

"Chất lượng dữ liệu Phần 61: Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu" (GB/T 42381.61-2023) Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu là một tiêu chuẩn do ISO 8000 quy định để hướng dẫn các tổ chức cách triển khai quản lý chất lượng dữ liệu.

5. Rủi ro pháp lý trong ngành dán nhãn dữ liệu

Trong quá trình chia sẻ dữ liệu và ứng dụng giữa các bộ phận kinh doanh khác nhau và hệ sinh thái khác nhau, ngành ghi nhãn dữ liệu có thể có nhu cầu liên tục trong một thời gian dài trong tương lai.

Thực sự có một số yếu tố không phù hợp trong việc ghi nhãn dữ liệu, bao gồm ghi nhãn dữ liệu không đều, có thể dẫn đến suy giảm chất lượng dữ liệu và ảnh hưởng đến việc xử lý và sử dụng dữ liệu tiếp theo; ghi nhãn dữ liệu sai hoặc không chính xác sẽ ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; ghi nhãn dữ liệu là sai, Nó có thể dẫn đến dữ liệu không trung thực, ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; quy trình ghi nhãn dữ liệu vi phạm luật và quy định, dẫn đến dữ liệu bị cấm sử dụng hoặc bị trừng phạt.

Cụ thể, ngành dán nhãn dữ liệu có thể có những rủi ro sau đây về mặt pháp luật.

Một là nguy cơ vi phạm luật và quy định bảo vệ thông tin cá nhân. Ghi nhãn dữ liệu có thể yêu cầu xử lý một lượng lớn thông tin cá nhân, chẳng hạn như tên, số ID, thông tin liên hệ liên lạc, địa chỉ, mật khẩu tài khoản, trạng thái tài sản, nơi ở, v.v. Nếu ngành dán nhãn dữ liệu không xử lý thông tin cá nhân theo yêu cầu của luật pháp và quy định có liên quan, điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và lạm dụng thông tin cá nhân, vi phạm luật pháp và các quy định về bảo vệ thông tin cá nhân.

Thứ hai là nguy cơ vi phạm luật và quy định về bảo mật dữ liệu. Ngành ghi nhãn dữ liệu có thể cần xử lý một lượng lớn dữ liệu nhạy cảm, chẳng hạn như dữ liệu tài chính, dữ liệu y tế, v.v. Nếu ngành dán nhãn dữ liệu không thực hiện các biện pháp bảo mật cần thiết như mã hóa dữ liệu, kiểm soát truy cập, v.v., thì điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và giả mạo dữ liệu, điều này vi phạm luật và quy định về bảo mật dữ liệu.

Thứ ba là rủi ro vi phạm pháp luật và các quy định về sở hữu trí tuệ. Ngành ghi nhãn dữ liệu cần xử lý một lượng lớn dữ liệu có thể bao gồm tài sản trí tuệ. Nếu ngành công nghiệp ghi nhãn dữ liệu không nhận được sự cho phép hoặc giấy phép của các quyền sở hữu trí tuệ có liên quan, dẫn đến việc sử dụng bất hợp pháp và vi phạm hợp đồng, điều đó có thể dẫn đến các vấn đề vi phạm quyền sở hữu trí tuệ.

Thứ tư là rủi ro vi phạm luật và các quy định về cạnh tranh. Có sự cạnh tranh khốc liệt trong ngành dán nhãn dữ liệu, một số công ty có thể lấy dữ liệu của đối thủ cạnh tranh thông qua các phương tiện không phù hợp hoặc lạm dụng vị trí thống lĩnh thị trường, vi phạm luật và quy định cạnh tranh, xâm phạm quyền và lợi ích hợp pháp có liên quan.

Để ngăn chặn những rủi ro pháp lý này, ngành dán nhãn dữ liệu cần tăng cường nhận thức pháp lý và quản lý rủi ro về bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ và cạnh tranh. Đồng thời, chính phủ và mọi tầng lớp xã hội cũng cần tăng cường giám sát và quản lý ngành dán nhãn dữ liệu để đảm bảo ngành này hoạt động hợp pháp và tuân thủ.

6. Phòng ngừa rủi ro pháp lý trong ngành dán nhãn dữ liệu

Để ngành ghi nhãn dữ liệu ổn định và phát triển sâu rộng, cần phải tuân thủ các luật, quy định và tiêu chuẩn liên quan về ghi nhãn dữ liệu, đồng thời thực hiện ghi nhãn dữ liệu theo cách chuẩn hóa, chính xác và hiệu quả. Các công ty dán nhãn dữ liệu có thể ngăn ngừa rủi ro pháp lý theo những cách sau.

Đầu tiên là thiết lập và cải thiện các quy tắc và quy định ghi nhãn dữ liệu. Doanh nghiệp nên thiết lập và cải thiện các quy tắc và quy định liên quan đến ghi nhãn dữ liệu, bao gồm các quy định về thu thập, lưu trữ, xử lý, phân tích và bảo vệ dữ liệu, để đảm bảo tính tuân thủ và bảo mật của việc ghi nhãn dữ liệu. Thiết lập các quy tắc ghi nhãn dữ liệu rõ ràng, cụ thể và có thể vận hành đáp ứng các yêu cầu của luật pháp, quy định và quy định, thực hiện đánh giá chất lượng ghi nhãn dữ liệu và tiến hành xác minh lấy mẫu về tính chính xác của nội dung ghi nhãn. Cơ chế đảm bảo an toàn nội dung dữ liệu đảm bảo tuân thủ các giá trị cốt lõi xã hội chủ nghĩa và phản đối mọi hình thức phân biệt đối xử; cải thiện cơ chế bảo vệ thông tin cá nhân và các quyền và lợi ích hợp pháp có liên quan, đồng thời không được xâm phạm quyền chân dung, quyền uy tín, danh dự của người khác , quyền riêng tư và quyền thông tin cá nhân; Các biện pháp bảo mật, công ty ghi nhãn dữ liệu phải tuân thủ các luật và quy định có liên quan và theo hướng dẫn của các chính sách và tiêu chuẩn bảo mật dữ liệu, quản lý bảo mật dữ liệu thông qua ủy quyền truy cập dữ liệu, kiểm soát phân loại và phân loại, và truy cập vào dữ liệu giám sát để đáp ứng các yêu cầu bảo mật dữ liệu. Để đảm bảo tính bảo mật, tính toàn vẹn và tính sẵn sàng của dữ liệu.

Thứ hai là tăng cường quản lý tuân thủ của doanh nghiệp. Các công ty dán nhãn dữ liệu nên tuân thủ các luật và quy định có liên quan, chuẩn hóa hoạt động kinh doanh, tôn trọng các quyền và lợi ích hợp pháp, đồng thời tránh độc quyền và cạnh tranh không lành mạnh. Không sử dụng các phương tiện không phù hợp để lấy dữ liệu từ đối thủ cạnh tranh và không lạm dụng vị trí thống lĩnh thị trường để xâm phạm quyền sở hữu trí tuệ hợp pháp hoặc bí mật thương mại của người khác; tăng cường quản lý hợp đồng và khi ký kết hợp đồng với đối tác, hãy đánh dấu rõ ràng các yêu cầu của nhiệm vụ , phạm vi sử dụng dữ liệu, điều khoản Bảo mật và các nội dung khác để đảm bảo rằng các đối tác hiểu và tuân thủ các luật và quy định có liên quan, đồng thời giảm rủi ro vi phạm hợp đồng.

Thứ tư là tăng cường đào tạo, bồi dưỡng cán bộ. Doanh nghiệp nên tăng cường nhận thức pháp luật và đào tạo nhận thức rủi ro cho nhân viên, tăng cường đào tạo và giáo dục về hoạt động ghi nhãn dữ liệu, bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ, v.v., để nhân viên hiểu các luật và quy định liên quan đến ghi nhãn dữ liệu cũng như các quy tắc và quy định của công ty, đồng thời nâng cao nhận thức của nhân viên về tuân thủ và khả năng phòng ngừa rủi ro.

Thứ năm là thành lập đội quản lý rủi ro. Doanh nghiệp nên thiết lập cơ chế giám sát dữ liệu để giám sát dữ liệu được gắn nhãn theo thời gian thực, phát hiện và xử lý kịp thời dữ liệu không tuân thủ, tránh rủi ro pháp lý do chất lượng dữ liệu gây ra. Khuyến nghị doanh nghiệp thành lập đội quản trị rủi ro chuyên nghiệp để dự đoán, đánh giá các rủi ro pháp lý có thể phát sinh trong quá trình dán nhãn dữ liệu, từ đó đưa ra các đề xuất, biện pháp phòng ngừa rủi ro tương ứng.

Tác giả: Zhang Feng, đối tác của Công ty luật V&T, giám đốc Ủy ban pháp lý kỹ thuật số VTQ, phó tổng thư ký Ủy ban sở hữu trí tuệ của Hiệp hội chuyên gia đóng góp xuất sắc Thượng Hải, chuyên gia think tank/đánh giá công nghệ của Hiệp hội công nghệ chuỗi khối Thượng Hải Chuyên gia, ủy viên thường vụ Ủy ban của Ủy ban Công tác Công nghiệp Metaverse của Liên đoàn Truyền thông Di động Trung Quốc, đồng thời là phó chủ tịch của Diễn đàn 50 thành viên Metaverse Công nghiệp Tương lai.

Các bình luận

Tất cả bình luận

Recommended for you

  • Europol thu giữ hơn 26 triệu đô la tiền điện tử từ 9 kẻ buôn ma túy

    Theo tin tức ngày 19 tháng 12, Europol đã hợp tác với các cơ quan thực thi pháp luật ở sáu quốc gia để triệt phá một nhóm buôn bán ma túy quốc tế sử dụng tiền điện tử. Chín nghi phạm đã bị bắt trong chiến dịch này. Trong quá trình hoạt động, các vật có giá trị bao gồm vàng và hàng xa xỉ, 35.000 euro tiền mặt và 25 triệu euro tiền điện tử, tương đương 26,23 triệu USD, đã bị thu giữ. Tổng giá trị tài sản bị thu giữ là 27 triệu euro, tương đương 28,33 triệu USD.

  • Binance Alpha công bố loạt dự án đầu tiên: KOMA, Cheems, APX, ai16z và AIXBT

    Theo tin tức chính thức, Binance Alpha đã công bố loạt dự án đầu tiên, cụ thể là: KOMA, Cheems, APX, ai16z và AIXBT.

  • Binance Alpha công bố loạt dự án đầu tiên: KOMA, Cheems, APX, ai16z và AIXBT

    Theo tin tức chính thức, Binance Alpha đã công bố loạt dự án đầu tiên, cụ thể là: KOMA, Cheems, APX, ai16z và AIXBT.

  • Kinto: Hãy cảnh giác với các email lừa đảo giả vờ là email chính thức

    Kinto đã đưa ra lời nhắc trên nền tảng X rằng gần đây người dùng đã nhận được email lừa đảo được ngụy trang thành Kinto. Kinto xác nhận rằng những email này không được gửi bởi nó và không nên nhấp vào các liên kết có trong email. Ngoài ra, Kinto tuyên bố rằng không có hộp thư nào của người dùng bị rò rỉ và một số hộp thư nhận email không được liên kết với tài khoản Kinto.

  • Bộ trưởng Dịch vụ Tài chính và Kho bạc Hồng Kông Hui Ching-yu đã chuyển sang lần đọc thứ hai về Dự luật Stablecoin

    Theo thông cáo báo chí của chính phủ Hồng Kông, Bộ trưởng Dịch vụ Tài chính và Kho bạc Hồng Kông, Hui Ching-yu, đã chuyển buổi đọc thứ hai về "Dự luật tiền tệ ổn định" tại cuộc họp Hội đồng Lập pháp hôm nay và hy vọng sẽ sớm thông qua nó. càng tốt. Các điểm chính của hệ thống quản lý bao gồm ba mục sau: (1) Người được cấp phép phải duy trì cơ chế ổn định dự trữ mạnh mẽ để đảm bảo rằng tài sản dự trữ stablecoin bao gồm các tài sản chất lượng cao và có tính thanh khoản cao và tổng giá trị ít nhất là bằng với loại tiền hợp pháp đang lưu hành ở mọi thời điểm, mệnh giá Stablecoin, được tách biệt hợp lý và (2) Người nắm giữ đồng tiền ổn định phải có quyền mua lại các đồng tiền ổn định từ nhà phát hành theo mệnh giá và các yêu cầu mua lại phải được xử lý mà không tính phí vô lý và trong thời gian hợp lý; được quy định, quản lý rủi ro, quy định công bố thông tin và kiểm toán cũng như các yêu cầu phù hợp về ứng viên.

  • Unichain và The Graph: mở ra kỷ nguyên mới của các nhà phát triển DeFi

    Unichain là một blockchain 2 lớp mới được Uniswap xây dựng trên OP Stack nhằm mục đích cách mạng hóa DeFi với tốc độ giao dịch gần như ngay lập tức và mức phí thấp hơn. Là một chuỗi ứng dụng được thiết kế đặc biệt cho DeFi, nó được tích hợp sâu với hệ sinh thái của Uniswap và cung cấp khả năng tương tác xuyên chuỗi liền mạch thông qua tiêu chuẩn ERC-7683. Với sự tích hợp của The Graph ngay từ đầu, các nhà phát triển có thể truy cập ngay vào dữ liệu blockchain quan trọng, giúp xây dựng các ứng dụng DeFi hiệu suất cao dễ dàng hơn.

  • Đặc vụ AI × Tiền điện tử: Đây có phải là thời điểm mang tính cách mạng cho thế giới tiền điện tử?

    Trong nền kinh tế chú ý được mã hóa, Tác nhân AI hiện tại thu hút được sự chú ý về vốn, sự phổ biến liên tục của các câu chuyện rộng rãi, các trường hợp điển hình về hiệu ứng tài sản và giá trị thực tế cho việc xây dựng lâu dài.

  • Công ty khởi nghiệp/nhà phát triển/đại lý AI đã hoàn thành vòng hạt giống trị giá 56 triệu đô la với mức định giá 500 triệu đô la, dẫn đầu bởi Index Ventures và CapitalG

    Theo tin tức ngày 18 tháng 12, nền tảng /dev/agent của hệ điều hành đại lý AI, do cựu CTO của Stripe David Singleton thành lập, đã hoàn thành vòng tài trợ ban đầu trị giá 56 triệu USD với mức định giá 500 triệu USD. Vòng này được dẫn dắt bởi Index Ventures và CapitalG, với sự tham gia của Conviction Capital. Một số nhà lãnh đạo công nghệ nổi bật cũng tham gia vào vòng này, bao gồm đồng sáng lập OpenAI Andrej Karpathy, Giám đốc điều hành AI của Scale AI Alexandr Wang, Giám đốc điều hành Palo Alto Networks Nikesh Arora và người sáng lập Android Andy Rubin. Theo báo cáo, tầm nhìn của /dev/agents là xây dựng một hệ điều hành Android trong kỷ nguyên AI, cung cấp các giao diện và giao thức được tối ưu hóa đặc biệt, đồng thời thiết lập các mẫu giao diện người dùng và mô hình dữ liệu người dùng mới.

  • Bitwise: Ethereum trở lại vị trí dẫn đầu vào năm 2025

    Tài sản quỹ được mã hóa sẽ tăng gấp ba lần vào năm tới và Ethereum là động lực thúc đẩy nó. Hai câu chuyện chính thống trị các tiêu đề về tiền điện tử vào năm 2024: Sự gia tăng nhanh chóng của Bitcoin, được thúc đẩy bởi sự ra mắt của Bitcoin ETF và dòng vốn đổ vào kỷ lục, và sự nổi lên của Solana như một con cưng bán lẻ, được thúc đẩy bởi hoạt động đầu cơ meme coin.