Cointime

Download App
iOS & Android

Công nghiệp ghi nhãn dữ liệu và phòng ngừa rủi ro pháp lý

Validated Individual Expert

Dữ liệu là nền tảng của các mô hình AI lớn. Đào tạo liên tục và điều chỉnh dữ liệu lớn và chất lượng cao có thể cải thiện độ chính xác và hiệu quả của các mô hình lớn. Đào tạo mô hình quy mô lớn cần thu thập dữ liệu thông qua các phương pháp như khai thác dữ liệu, trình thu thập dữ liệu web, chia sẻ dữ liệu, mở dữ liệu và giao dịch hợp pháp, đồng thời xử lý dữ liệu thông qua làm sạch dữ liệu, chống trùng lặp, định dạng và ghi nhãn thủ công. Người ta thường tin rằng quy trình sản xuất dữ liệu đào tạo chủ yếu bao gồm thiết kế cấu trúc tập dữ liệu đào tạo, thu thập và thu thập dữ liệu thô, xử lý và ghi nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác.

Trong những năm gần đây, thị trường ghi nhãn dữ liệu của đất nước tôi đã phát triển nhanh chóng. Theo thống kê của Viện nghiên cứu công nghiệp Huajing, tại thị trường ghi nhãn dữ liệu trí tuệ nhân tạo của nước tôi vào năm 2021, nhu cầu về thị giác máy tính, giọng nói thông minh và NLP (Xử lý ngôn ngữ tự nhiên, viết tắt là NLP, xử lý ngôn ngữ tự nhiên) chiếm 45,3%, 40,5 % và 20% tương ứng.14,2%, vào năm 2021, quy mô thị trường của ngành ghi nhãn dữ liệu của nước tôi sẽ đạt 4,33 tỷ nhân dân tệ, tăng khoảng 19,2% so với cùng kỳ năm ngoái và dự kiến ​​quy mô thị trường sẽ đạt 20,43 tỷ nhân dân tệ vào năm 2029.

1. Ghi nhãn dữ liệu

Người ta thường tin rằng ghi nhãn dữ liệu là quá trình xử lý giọng nói, hình ảnh, văn bản, video và dữ liệu khác chưa được xử lý để chuyển đổi thành thông tin mà máy có thể nhận dạng được. Các loại chú thích dữ liệu bao gồm chú thích hình ảnh, chú thích giọng nói, chú thích văn bản, chú thích video, v.v., chẳng hạn như phân đoạn từ, gắn thẻ một phần lời nói và nhận dạng thực thể cho văn bản cũng như phát hiện và phân đoạn đối tượng cho hình ảnh. Gắn nhãn dữ liệu cần được máy nhận dạng và phân biệt thông qua ghi nhãn dữ liệu, sau đó để máy tính liên tục tìm hiểu các đặc điểm của những dữ liệu này và cuối cùng nhận ra khả năng tự nhận dạng của máy tính.

Chú thích dữ liệu có ý nghĩa rất lớn đối với các mô hình trí tuệ nhân tạo lớn, có thể nói đây là một trong những mắt xích quan trọng để các mô hình trí tuệ nhân tạo lớn hoạt động hiệu quả. Cụ thể, việc ghi nhãn dữ liệu có thể mang lại những ý nghĩa sau.

Một là cải thiện độ chính xác của các thuật toán học máy, dữ liệu được gắn nhãn có thể giúp các thuật toán học máy học và dự đoán chính xác hơn. Đối với các tác vụ phân loại hình ảnh, hình ảnh được chú thích cho phép thuật toán nhận dạng các đối tượng và cảnh trong ảnh tốt hơn, từ đó cải thiện độ chính xác.

Thứ hai là đẩy nhanh quá trình huấn luyện thuật toán. Dữ liệu được gắn nhãn có thể làm cho các thuật toán học máy học và đào tạo nhanh hơn, do đó giảm thời gian đào tạo và chi phí của thuật toán.Việc ứng dụng rộng rãi dữ liệu được dán nhãn đã thúc đẩy sự phát triển của công nghệ học máy.

Thứ ba là thúc đẩy khả năng ứng dụng của công nghệ máy học. Với dữ liệu được gắn nhãn, mọi người có thể sử dụng tốt hơn các kỹ thuật học máy để giải quyết các vấn đề thực tế, chẳng hạn như xử lý ngôn ngữ tự nhiên, thị giác máy tính, hệ thống đề xuất, v.v. Nói tóm lại, chú thích dữ liệu là một liên kết rất quan trọng trong lĩnh vực học máy.

2. Ghi nhãn dữ liệu và quản trị dữ liệu

Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), quản trị dữ liệu là quá trình xử lý, định dạng và chuẩn hóa dữ liệu. Quản trị dữ liệu là một yếu tố thiết yếu của việc quản lý dữ liệu và hệ thống dữ liệu. Quản trị dữ liệu liên quan đến việc quản lý toàn bộ vòng đời của dữ liệu, cho dù đó là dữ liệu tĩnh, động, không đầy đủ hay giao dịch.

Chú thích dữ liệu và quản trị dữ liệu là hai khái niệm khác nhau. Quản trị dữ liệu đề cập đến việc quản lý thống nhất các hoạt động dữ liệu như thu thập, xử lý, phân tích và lưu trữ dữ liệu để đảm bảo chất lượng, bảo mật, độ tin cậy và tiêu chuẩn hóa dữ liệu. Mục tiêu của quản trị dữ liệu là thúc đẩy việc sử dụng dữ liệu có trật tự, hiệu quả và tuân thủ, từ đó thúc đẩy các quyết định kinh doanh và phát triển kinh doanh. Chú thích dữ liệu là quá trình phân loại, gắn nhãn và chú thích dữ liệu thô làm tài liệu đào tạo cho mô hình học máy hoặc trí tuệ nhân tạo. Mục đích của chú thích dữ liệu là cải thiện độ chính xác và khả năng khái quát hóa của các mô hình học máy, để các mô hình có thể thích ứng tốt hơn với các tình huống kinh doanh thực tế.

Ghi nhãn dữ liệu và quản trị dữ liệu có mối quan hệ với nhau. Quản trị dữ liệu có thể đảm bảo chất lượng và độ tin cậy của dữ liệu, đồng thời cung cấp dữ liệu thô chất lượng cao để ghi nhãn dữ liệu. Đồng thời, kết quả của chú thích dữ liệu cũng có thể cung cấp phản hồi và hướng dẫn quản trị dữ liệu tốt hơn, giúp quản trị dữ liệu chính xác và hiệu quả hơn.

3. Ghi nhãn dữ liệu và tiêu chuẩn dữ liệu

Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), tiêu chuẩn dữ liệu (Data Standard) đề cập đến các quy tắc đặt tên, định nghĩa, cấu trúc và giá trị của dữ liệu. Ghi nhãn dữ liệu là một liên kết quan trọng trong việc xây dựng và thực hiện các tiêu chuẩn dữ liệu. Chuẩn dữ liệu là những ràng buộc mang tính quy phạm nhằm đảm bảo tính nhất quán, chính xác và đầy đủ của việc định nghĩa và sử dụng dữ liệu. Đối với doanh nghiệp, chuẩn dữ liệu là những ràng buộc mang tính quy chuẩn đảm bảo tính nhất quán, chính xác trong việc sử dụng, trao đổi dữ liệu nội bộ và bên ngoài.

Chuẩn dữ liệu có thể bao gồm chuẩn về cấu trúc dữ liệu, nguồn nội dung dữ liệu, nghiệp vụ kỹ thuật, v.v. Việc xây dựng và ban hành các tiêu chuẩn dữ liệu cần được kết hợp với nhu cầu thực tế của doanh nghiệp, thông qua các hoạt động quản lý khác nhau, để thúc đẩy việc quản lý dữ liệu được tiêu chuẩn hóa, nhằm đảm bảo tính toàn vẹn, nhất quán và tiêu chuẩn hóa của dữ liệu. Mục tiêu của quản lý tiêu chuẩn dữ liệu là đạt được việc quản lý dữ liệu được tiêu chuẩn hóa thông qua việc xây dựng và phát hành các tiêu chuẩn dữ liệu thống nhất, kết hợp với hệ thống quản lý tiêu chuẩn dữ liệu hợp lý và cung cấp cơ sở tiêu chuẩn cho việc quản lý dữ liệu tiếp theo.

Ghi nhãn dữ liệu là quá trình phân loại, đóng khung, ghi nhãn và chú thích dữ liệu làm tài liệu cơ bản cho học máy. Vì chất lượng của chú thích dữ liệu có liên quan trực tiếp đến trí thông minh của máy nên việc chú thích dữ liệu cần được thực hiện theo các tiêu chuẩn chất lượng nghiêm ngặt. Quá trình dán nhãn dữ liệu bao gồm thu thập dữ liệu, làm sạch dữ liệu, dán nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác. Trong số đó, thu thập và làm sạch dữ liệu là giai đoạn chuẩn bị, ghi nhãn dữ liệu là liên kết cốt lõi và kiểm tra chất lượng dữ liệu là kiểm tra và đánh giá dữ liệu được dán nhãn. Từ một quan điểm cụ thể, các tiêu chuẩn dữ liệu là một tập hợp các công nghệ và quy trình được tiêu chuẩn hóa đã được xác định, giải thích, sử dụng và sửa đổi để xử lý việc thu thập, trình bày, trao đổi, phân tích và quản lý dữ liệu.

Do đó, ghi nhãn dữ liệu và tiêu chuẩn dữ liệu có mối quan hệ với nhau, ghi nhãn dữ liệu là quá trình thực hiện cụ thể của tiêu chuẩn hóa dữ liệu, trong khi tiêu chuẩn dữ liệu là quy chuẩn và cơ sở cho việc ghi nhãn dữ liệu. Thông qua việc kết hợp ghi nhãn dữ liệu và tiêu chuẩn hóa dữ liệu, hiệu quả và độ tin cậy của các ứng dụng máy học và trí tuệ nhân tạo có thể được cải thiện hơn nữa.

4. Thông số kỹ thuật liên quan đến ghi nhãn dữ liệu

Việc ghi nhãn dữ liệu cần tuân thủ các luật và quy định cơ bản liên quan đến thông tin dữ liệu, bao gồm "Luật An ninh mạng của Cộng hòa Nhân dân Trung Hoa", "Luật Bảo mật Dữ liệu của Cộng hòa Nhân dân Trung Hoa" và "Luật Bảo vệ Thông tin Cá nhân của Cộng hòa Nhân dân Trung Hoa". Của Trung Quốc".

Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo do Cục quản lý không gian mạng nhà nước, Ủy ban cải cách và phát triển quốc gia, Bộ giáo dục, Bộ khoa học và công nghệ, Bộ công nghiệp và công nghệ thông tin, Bộ công an , và Cục Quản lý Nhà nước về Phát thanh, Điện ảnh và Truyền hình, sẽ có hiệu lực vào ngày 15 tháng 8 năm 2023 Điều 8 quy định cụ thể về dán nhãn dữ liệu, yêu cầu dán nhãn dữ liệu trong quá trình nghiên cứu và phát triển công nghệ trí tuệ nhân tạo tổng hợp, nhà cung cấp sẽ xây dựng rõ ràng , quy tắc ghi nhãn cụ thể và khả thi đáp ứng các yêu cầu của các biện pháp này; thực hiện đánh giá chất lượng ghi nhãn dữ liệu, lấy mẫu Xác minh tính chính xác của nội dung ghi nhãn; cung cấp đào tạo cần thiết cho nhân viên ghi nhãn, nâng cao nhận thức về việc tuân thủ luật pháp, giám sát và hướng dẫn ghi nhãn nhân viên để thực hiện công việc ghi nhãn theo cách tiêu chuẩn hóa.

Theo phiên bản sửa đổi của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa (Phiên bản 2022)" dựa trên phiên bản 2015 của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa" của Bộ Nhân sự và An sinh Xã hội, Cục Quản lý Nhà nước về Quy định thị trường và Cục thống kê quốc gia, giảng viên trí tuệ nhân tạo chính thức trở thành một nghề nghiệp mới và đưa nó vào Danh mục phân loại nghề nghiệp quốc gia. Nhiệm vụ chính của giảng viên trí tuệ nhân tạo bao gồm dán nhãn và xử lý dữ liệu thô của doanh nghiệp như hình ảnh, văn bản và giọng nói; phân tích và tinh chỉnh các đặc điểm của lĩnh vực chuyên môn, đào tạo và đánh giá các thuật toán, chức năng và hiệu suất của các sản phẩm trí tuệ nhân tạo; thiết kế quy trình tương tác và Giải pháp ứng dụng; giám sát, phân tích và quản lý dữ liệu ứng dụng sản phẩm trí tuệ nhân tạo; điều chỉnh, tối ưu hóa thông số, cấu hình sản phẩm trí tuệ nhân tạo…

Quy trình ghi nhãn dữ liệu cho máy học trong trí tuệ nhân tạo (GB/T 42755-2023) là một tiêu chuẩn quốc gia được đề xuất, sẽ được triển khai vào ngày 1 tháng 12 năm 2023. Đây là một bộ hướng dẫn về quy trình ghi nhãn dữ liệu cho máy học trong Trí tuệ nhân tạo Tiêu chuẩn và các quy tắc chuẩn hóa quy trình dán nhãn dữ liệu, chỉ định quy trình vận hành dán nhãn dữ liệu và đưa ra khuyến nghị về nhiệm vụ dán nhãn, nhân sự dán nhãn, môi trường dán nhãn; kiểm soát quy trình, đảm bảo chất lượng, cơ chế quản lý; kiểm tra chất lượng nội bộ, cung cấp dữ liệu, hậu bảo trì, v.v. .Các quy định nhằm đảm bảo tính thống nhất và chính xác của chú thích dữ liệu và cung cấp dữ liệu huấn luyện chất lượng cao cho các thuật toán học máy.

Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .

Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .

"Khuôn khổ chung về ghi nhãn dữ liệu trí tuệ nhân tạo" cung cấp các đề xuất về quy trình sản xuất và nội dung sản xuất của quá trình sản xuất ghi nhãn dữ liệu trong học máy trí tuệ nhân tạo, đồng thời làm rõ trạng thái và khái niệm công nghiệp về ghi nhãn dữ liệu. "Quy trình làm việc chung để ghi nhãn dữ liệu trí tuệ nhân tạo" quy định các yêu cầu công việc chung để tạo nhãn dữ liệu trong học máy trí tuệ nhân tạo, bao gồm các nguyên tắc, quy trình, lập kế hoạch, v.v. "Yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trí tuệ nhân tạo" chỉ định các thuật ngữ và định nghĩa, phân loại kỹ thuật chung và yêu cầu kỹ thuật chung đối với các yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trong máy học trí tuệ nhân tạo.

Vào tháng 6 năm 2023, dưới sự dẫn đầu của Học viện Công nghệ Thông tin và Truyền thông Trung Quốc, hơn 20 doanh nghiệp chủ chốt trong các ngành liên quan, bao gồm China Unicom, Datatang, Haiti Ruisheng, Đo lường đám mây Testin, Integer Intelligence, Hikvision, Midea Group, v.v. Doanh nghiệp, AI các công ty công nghệ và các công ty công nghiệp quy mô lớn đã cùng nhau biên soạn tiêu chuẩn "Yêu cầu kỹ thuật và phương pháp thử nghiệm cho nền tảng ghi nhãn dữ liệu trí tuệ nhân tạo", tiêu chuẩn này cũng đồng thời được thành lập tại Liên minh Viễn thông Quốc tế (ITU-T), một trong ba tổ chức tiêu chuẩn quốc tế lớn .Thảo luận với bản thảo. Tiêu chuẩn cung cấp các ràng buộc quy phạm và đề xuất tham chiếu cho từng liên kết chính của nền tảng ghi nhãn dữ liệu. Hiện tại, giá thầu nhóm tiêu chuẩn đã được hoàn tất.

Ngoài ra, còn có một loạt các tiêu chuẩn quốc gia liên quan đến việc dán nhãn dữ liệu. Chẳng hạn như "Lập kế hoạch tài nguyên dữ liệu dữ liệu lớn công nghệ thông tin" (GB/T 42450-2023), Lập kế hoạch tài nguyên dữ liệu (Data Resource Planning, gọi tắt là DRP) là một chiến lược và lập kế hoạch công nghệ thông tin (CNTT), được thiết kế để đảm bảo rằng các tổ chức có thể quản lý hiệu quả tài nguyên dữ liệu của mình để đáp ứng nhu cầu kinh doanh và đảm bảo bảo mật dữ liệu và bảo vệ quyền riêng tư.

"Chất lượng dữ liệu Phần 8: Chất lượng thông tin và dữ liệu: Khái niệm và phép đo" (GB/T 42381.8-2023) là một tiêu chuẩn quốc gia quy định các khái niệm và phương pháp đo lường chất lượng thông tin và dữ liệu. Tiêu chuẩn này thuộc thẩm quyền của TC159 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia), TC159SC4 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia Chi nhánh dữ liệu công nghiệp) và cơ quan có thẩm quyền là Liên đoàn công nghiệp máy móc Trung Quốc.

"Chất lượng dữ liệu Phần 61: Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu" (GB/T 42381.61-2023) Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu là một tiêu chuẩn do ISO 8000 quy định để hướng dẫn các tổ chức cách triển khai quản lý chất lượng dữ liệu.

5. Rủi ro pháp lý trong ngành dán nhãn dữ liệu

Trong quá trình chia sẻ dữ liệu và ứng dụng giữa các bộ phận kinh doanh khác nhau và hệ sinh thái khác nhau, ngành ghi nhãn dữ liệu có thể có nhu cầu liên tục trong một thời gian dài trong tương lai.

Thực sự có một số yếu tố không phù hợp trong việc ghi nhãn dữ liệu, bao gồm ghi nhãn dữ liệu không đều, có thể dẫn đến suy giảm chất lượng dữ liệu và ảnh hưởng đến việc xử lý và sử dụng dữ liệu tiếp theo; ghi nhãn dữ liệu sai hoặc không chính xác sẽ ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; ghi nhãn dữ liệu là sai, Nó có thể dẫn đến dữ liệu không trung thực, ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; quy trình ghi nhãn dữ liệu vi phạm luật và quy định, dẫn đến dữ liệu bị cấm sử dụng hoặc bị trừng phạt.

Cụ thể, ngành dán nhãn dữ liệu có thể có những rủi ro sau đây về mặt pháp luật.

Một là nguy cơ vi phạm luật và quy định bảo vệ thông tin cá nhân. Ghi nhãn dữ liệu có thể yêu cầu xử lý một lượng lớn thông tin cá nhân, chẳng hạn như tên, số ID, thông tin liên hệ liên lạc, địa chỉ, mật khẩu tài khoản, trạng thái tài sản, nơi ở, v.v. Nếu ngành dán nhãn dữ liệu không xử lý thông tin cá nhân theo yêu cầu của luật pháp và quy định có liên quan, điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và lạm dụng thông tin cá nhân, vi phạm luật pháp và các quy định về bảo vệ thông tin cá nhân.

Thứ hai là nguy cơ vi phạm luật và quy định về bảo mật dữ liệu. Ngành ghi nhãn dữ liệu có thể cần xử lý một lượng lớn dữ liệu nhạy cảm, chẳng hạn như dữ liệu tài chính, dữ liệu y tế, v.v. Nếu ngành dán nhãn dữ liệu không thực hiện các biện pháp bảo mật cần thiết như mã hóa dữ liệu, kiểm soát truy cập, v.v., thì điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và giả mạo dữ liệu, điều này vi phạm luật và quy định về bảo mật dữ liệu.

Thứ ba là rủi ro vi phạm pháp luật và các quy định về sở hữu trí tuệ. Ngành ghi nhãn dữ liệu cần xử lý một lượng lớn dữ liệu có thể bao gồm tài sản trí tuệ. Nếu ngành công nghiệp ghi nhãn dữ liệu không nhận được sự cho phép hoặc giấy phép của các quyền sở hữu trí tuệ có liên quan, dẫn đến việc sử dụng bất hợp pháp và vi phạm hợp đồng, điều đó có thể dẫn đến các vấn đề vi phạm quyền sở hữu trí tuệ.

Thứ tư là rủi ro vi phạm luật và các quy định về cạnh tranh. Có sự cạnh tranh khốc liệt trong ngành dán nhãn dữ liệu, một số công ty có thể lấy dữ liệu của đối thủ cạnh tranh thông qua các phương tiện không phù hợp hoặc lạm dụng vị trí thống lĩnh thị trường, vi phạm luật và quy định cạnh tranh, xâm phạm quyền và lợi ích hợp pháp có liên quan.

Để ngăn chặn những rủi ro pháp lý này, ngành dán nhãn dữ liệu cần tăng cường nhận thức pháp lý và quản lý rủi ro về bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ và cạnh tranh. Đồng thời, chính phủ và mọi tầng lớp xã hội cũng cần tăng cường giám sát và quản lý ngành dán nhãn dữ liệu để đảm bảo ngành này hoạt động hợp pháp và tuân thủ.

6. Phòng ngừa rủi ro pháp lý trong ngành dán nhãn dữ liệu

Để ngành ghi nhãn dữ liệu ổn định và phát triển sâu rộng, cần phải tuân thủ các luật, quy định và tiêu chuẩn liên quan về ghi nhãn dữ liệu, đồng thời thực hiện ghi nhãn dữ liệu theo cách chuẩn hóa, chính xác và hiệu quả. Các công ty dán nhãn dữ liệu có thể ngăn ngừa rủi ro pháp lý theo những cách sau.

Đầu tiên là thiết lập và cải thiện các quy tắc và quy định ghi nhãn dữ liệu. Doanh nghiệp nên thiết lập và cải thiện các quy tắc và quy định liên quan đến ghi nhãn dữ liệu, bao gồm các quy định về thu thập, lưu trữ, xử lý, phân tích và bảo vệ dữ liệu, để đảm bảo tính tuân thủ và bảo mật của việc ghi nhãn dữ liệu. Thiết lập các quy tắc ghi nhãn dữ liệu rõ ràng, cụ thể và có thể vận hành đáp ứng các yêu cầu của luật pháp, quy định và quy định, thực hiện đánh giá chất lượng ghi nhãn dữ liệu và tiến hành xác minh lấy mẫu về tính chính xác của nội dung ghi nhãn. Cơ chế đảm bảo an toàn nội dung dữ liệu đảm bảo tuân thủ các giá trị cốt lõi xã hội chủ nghĩa và phản đối mọi hình thức phân biệt đối xử; cải thiện cơ chế bảo vệ thông tin cá nhân và các quyền và lợi ích hợp pháp có liên quan, đồng thời không được xâm phạm quyền chân dung, quyền uy tín, danh dự của người khác , quyền riêng tư và quyền thông tin cá nhân; Các biện pháp bảo mật, công ty ghi nhãn dữ liệu phải tuân thủ các luật và quy định có liên quan và theo hướng dẫn của các chính sách và tiêu chuẩn bảo mật dữ liệu, quản lý bảo mật dữ liệu thông qua ủy quyền truy cập dữ liệu, kiểm soát phân loại và phân loại, và truy cập vào dữ liệu giám sát để đáp ứng các yêu cầu bảo mật dữ liệu. Để đảm bảo tính bảo mật, tính toàn vẹn và tính sẵn sàng của dữ liệu.

Thứ hai là tăng cường quản lý tuân thủ của doanh nghiệp. Các công ty dán nhãn dữ liệu nên tuân thủ các luật và quy định có liên quan, chuẩn hóa hoạt động kinh doanh, tôn trọng các quyền và lợi ích hợp pháp, đồng thời tránh độc quyền và cạnh tranh không lành mạnh. Không sử dụng các phương tiện không phù hợp để lấy dữ liệu từ đối thủ cạnh tranh và không lạm dụng vị trí thống lĩnh thị trường để xâm phạm quyền sở hữu trí tuệ hợp pháp hoặc bí mật thương mại của người khác; tăng cường quản lý hợp đồng và khi ký kết hợp đồng với đối tác, hãy đánh dấu rõ ràng các yêu cầu của nhiệm vụ , phạm vi sử dụng dữ liệu, điều khoản Bảo mật và các nội dung khác để đảm bảo rằng các đối tác hiểu và tuân thủ các luật và quy định có liên quan, đồng thời giảm rủi ro vi phạm hợp đồng.

Thứ tư là tăng cường đào tạo, bồi dưỡng cán bộ. Doanh nghiệp nên tăng cường nhận thức pháp luật và đào tạo nhận thức rủi ro cho nhân viên, tăng cường đào tạo và giáo dục về hoạt động ghi nhãn dữ liệu, bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ, v.v., để nhân viên hiểu các luật và quy định liên quan đến ghi nhãn dữ liệu cũng như các quy tắc và quy định của công ty, đồng thời nâng cao nhận thức của nhân viên về tuân thủ và khả năng phòng ngừa rủi ro.

Thứ năm là thành lập đội quản lý rủi ro. Doanh nghiệp nên thiết lập cơ chế giám sát dữ liệu để giám sát dữ liệu được gắn nhãn theo thời gian thực, phát hiện và xử lý kịp thời dữ liệu không tuân thủ, tránh rủi ro pháp lý do chất lượng dữ liệu gây ra. Khuyến nghị doanh nghiệp thành lập đội quản trị rủi ro chuyên nghiệp để dự đoán, đánh giá các rủi ro pháp lý có thể phát sinh trong quá trình dán nhãn dữ liệu, từ đó đưa ra các đề xuất, biện pháp phòng ngừa rủi ro tương ứng.

Tác giả: Zhang Feng, đối tác của Công ty luật V&T, giám đốc Ủy ban pháp lý kỹ thuật số VTQ, phó tổng thư ký Ủy ban sở hữu trí tuệ của Hiệp hội chuyên gia đóng góp xuất sắc Thượng Hải, chuyên gia think tank/đánh giá công nghệ của Hiệp hội công nghệ chuỗi khối Thượng Hải Chuyên gia, ủy viên thường vụ Ủy ban của Ủy ban Công tác Công nghiệp Metaverse của Liên đoàn Truyền thông Di động Trung Quốc, đồng thời là phó chủ tịch của Diễn đàn 50 thành viên Metaverse Công nghiệp Tương lai.

Các bình luận

Tất cả bình luận

Recommended for you

  • Thống đốc Ngân hàng Trung ương Philippines: Định hướng chính sách tiền tệ cuối cùng sẽ có xu hướng lỏng lẻo

    Thống đốc ngân hàng trung ương Philippines cho rằng định hướng chính sách tiền tệ cuối cùng sẽ có xu hướng lỏng lẻo hơn. Khi các điều kiện chín muồi và chúng tôi cảm thấy lạm phát đã được kiểm soát, chúng tôi có ý định nới lỏng chính sách. Không có mong muốn giữ lãi suất đủ cao để gây ra tổn thất về sản lượng.

  • Vitalik: Điểm thấp của tiện ích tiền điện tử đã qua

    Vitalik Buterin đã tweet rằng điểm thấp trong tiện ích tiền điện tử đã qua. Từ góc độ công nghệ, sự phát triển lớn nhất trong 5 năm qua chủ yếu là giải quyết các vấn đề về khả năng mở rộng của blockchain. Vitalik đặc biệt đề cập đến thị trường dự đoán Polymarket, cho biết họ rất hài lòng với sự hiện diện của nó trên Ethereum sau cuộc phỏng vấn vào mùa xuân này.

  • FBI: Hãy cảnh giác với những kẻ lừa đảo mạo danh nhân viên sàn giao dịch tiền điện tử để đánh cắp tiền bất hợp pháp

    FBI đã đưa ra cảnh báo vào ngày 1 tháng 8 rằng những kẻ lừa đảo đang giả danh nhân viên của các sàn giao dịch tiền điện tử và đánh cắp tiền thông qua các tin nhắn hoặc cuộc gọi điện thoại không được yêu cầu. Những kẻ lừa đảo này tạo ra các trường hợp khẩn cấp và cho rằng tài khoản có vấn đề để lừa nạn nhân cung cấp thông tin đăng nhập. nhấp vào liên kết hoặc chia sẻ thông tin nhận dạng.

  • Nguồn cung phát hành tiền tệ ổn định đã tăng lên 144,3 tỷ USD trong tháng 7 và thị phần USDT đạt 78,9%

    Theo dữ liệu từ TheBlockPro, khối lượng giao dịch được điều chỉnh của stablecoin trên chuỗi đã tăng 18,8% trong tháng 7, đạt 997,4 tỷ USD và nguồn cung stablecoin tăng 1,2% lên 144,3 tỷ USD, trong đó thị phần của USDT và USDC lần lượt là 78,9% và 17,1%. Ngoài ra, tổng khối lượng giao dịch trên chuỗi được điều chỉnh của Bitcoin và Ethereum tăng 31,8% về tổng thể, lên tới 445 tỷ USD. Trong số đó, khối lượng giao dịch trên chuỗi được điều chỉnh của Bitcoin tăng 34,7% và của Ethereum tăng thêm. 27,7%.

  • Ngân hàng Thương mại Dubai, UAE ra mắt tài khoản dành riêng cho nhà cung cấp dịch vụ tài sản ảo

    Ngân hàng Thương mại Dubai (CBD) tại Các Tiểu vương quốc Ả Rập Thống nhất (UAE) đã ra mắt tài khoản dành riêng cho nhà cung cấp dịch vụ tài sản ảo (VASP) để quản lý tiền của khách hàng và đáp ứng các yêu cầu an toàn theo quy định. CBD ra mắt một tài khoản chuyên dụng để tuân thủ Ngân hàng Trung ương. quy định của Cơ quan quản lý tài sản ảo của UAE và Dubai (VARA). Giám đốc điều hành Bernd van Linder cho biết động thái này phù hợp với các dịch vụ ngân hàng cốt lõi của Ngân hàng Thương mại Dubai và hỗ trợ các kế hoạch của ngân hàng nhằm thúc đẩy sự phát triển của nền kinh tế kỹ thuật số.

  • Giao thức cho vay chuỗi khối Morpho hoàn thành khoản tài trợ 50 triệu USD, dẫn đầu bởi Ribbit Capital

    Công ty DeFi Morpho đã huy động được 18 triệu USD tài trợ khi CEO Paul Frambot vẫn còn là sinh viên đại học. Lần này, Morpho đã huy động được 50 triệu USD thông qua việc bán token riêng tư nhưng không tiết lộ mức định giá. Vòng tài trợ chiến lược được dẫn dắt bởi Ribbit Capital, một nhà đầu tư ban đầu vào các công ty công nghệ tài chính bao gồm Robinhood, Revolut và Coinbase.

  • Bắc Kinh: Khuyến khích sử dụng đồng nhân dân tệ kỹ thuật số trong việc giám sát tiền gửi và tiền thuê nhà

    "Các biện pháp tạm thời của Bắc Kinh về quản lý tiền đặt cọc thuê nhà ở và giám sát tiền thuê nhà" đã được ban hành. Các Biện pháp chỉ ra rằng các Biện pháp này sẽ áp dụng cho việc lưu giữ, giám sát và quản lý tiền đặt cọc và tiền thuê nhà của các doanh nghiệp cho thuê nhà ở thuê nhà của người khác và tham gia kinh doanh cho thuê lại trong thành phố này. Thành phố này khuyến khích sử dụng đồng nhân dân tệ kỹ thuật số trong việc giám sát tiền gửi và tiền thuê nhà.

  • Cập nhật dữ liệu vị trí thang độ xám vào cuối tháng 7: GBTC giảm xuống xấp xỉ 241.000 BTC và ETHE nắm giữ khoảng 2,07 triệu ETH

    Grayscale chính thức cập nhật dữ liệu quỹ Bitcoin và Ethereum kể từ ngày 31 tháng 7 như sau:

  • Doanh số NFT trên chuỗi Bitcoin trong tháng 7 là khoảng 77,3 triệu USD, mức thấp nhất kể từ tháng 11 năm 2023

    Theo dữ liệu của Cryptoslam, doanh số bán NFT trên chuỗi Bitcoin trong tháng 7 là 77.311.729,1 USD, lập kỷ lục thấp nhất kể từ tháng 11 năm 2023. Ngoài ra, số lượng giao dịch NFT trên chuỗi Bitcoin trong tháng 7 chưa đến 120.000, đây cũng là mức thấp nhất kể từ tháng 11 năm 2023. Trong số đó, có khoảng 35.477 người bán độc lập và khoảng 49.348 người mua độc lập.

  • Upbit, Bithumb và Coinone sẽ bắt đầu trả phí pháp lý, dự kiến ​​tổng cộng là 300 triệu won

    Với việc triển khai Đạo luật bảo vệ người dùng tài sản ảo, các nhà cung cấp dịch vụ tài sản ảo như Upbit, Bithumb và Coinone cũng sẽ bắt đầu trả phí quy định. Phí quản lý được tính dựa trên thu nhập hoạt động và dự kiến ​​tổng cộng là 300 triệu won (220.000 USD). Phần đóng góp theo quy định của các nhà cung cấp dịch vụ tài sản ảo sẽ được tính dựa trên thu nhập hoạt động và tỷ lệ đóng góp của năm hoạt động trước đó. Dựa trên tỷ lệ chia sẻ năm 2024, phí của Upbit sẽ vào khoảng 272 triệu won (199.000 USD) và của Bithumb là khoảng 36,5 triệu won. Coinone và Gopax lần lượt là 6,03 triệu won và 830.000 won. Korbit, công ty có doanh thu hoạt động khoảng 1,7 tỷ won vào năm ngoái, không nằm trong phạm vi phải đóng góp theo quy định. Việc thu thập các khoản đóng góp theo quy định thực tế sẽ bắt đầu vào năm tới. Có thông tin cho rằng "phí giám sát" là khoản thuế gần như do các công ty tài chính và các tổ chức tài chính khác trả và được Cục Giám sát Tài chính kiểm tra với Cục Giám sát Tài chính để đổi lấy sự giám sát và dịch vụ. Thuế sẽ được đánh vào các công ty được quản lý có thu nhập hoạt động trên 3 tỷ won (2,2 triệu USD).