Dữ liệu là nền tảng của các mô hình AI lớn. Đào tạo liên tục và điều chỉnh dữ liệu lớn và chất lượng cao có thể cải thiện độ chính xác và hiệu quả của các mô hình lớn. Đào tạo mô hình quy mô lớn cần thu thập dữ liệu thông qua các phương pháp như khai thác dữ liệu, trình thu thập dữ liệu web, chia sẻ dữ liệu, mở dữ liệu và giao dịch hợp pháp, đồng thời xử lý dữ liệu thông qua làm sạch dữ liệu, chống trùng lặp, định dạng và ghi nhãn thủ công. Người ta thường tin rằng quy trình sản xuất dữ liệu đào tạo chủ yếu bao gồm thiết kế cấu trúc tập dữ liệu đào tạo, thu thập và thu thập dữ liệu thô, xử lý và ghi nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác.
Trong những năm gần đây, thị trường ghi nhãn dữ liệu của đất nước tôi đã phát triển nhanh chóng. Theo thống kê của Viện nghiên cứu công nghiệp Huajing, tại thị trường ghi nhãn dữ liệu trí tuệ nhân tạo của nước tôi vào năm 2021, nhu cầu về thị giác máy tính, giọng nói thông minh và NLP (Xử lý ngôn ngữ tự nhiên, viết tắt là NLP, xử lý ngôn ngữ tự nhiên) chiếm 45,3%, 40,5 % và 20% tương ứng.14,2%, vào năm 2021, quy mô thị trường của ngành ghi nhãn dữ liệu của nước tôi sẽ đạt 4,33 tỷ nhân dân tệ, tăng khoảng 19,2% so với cùng kỳ năm ngoái và dự kiến quy mô thị trường sẽ đạt 20,43 tỷ nhân dân tệ vào năm 2029.
1. Ghi nhãn dữ liệu
Người ta thường tin rằng ghi nhãn dữ liệu là quá trình xử lý giọng nói, hình ảnh, văn bản, video và dữ liệu khác chưa được xử lý để chuyển đổi thành thông tin mà máy có thể nhận dạng được. Các loại chú thích dữ liệu bao gồm chú thích hình ảnh, chú thích giọng nói, chú thích văn bản, chú thích video, v.v., chẳng hạn như phân đoạn từ, gắn thẻ một phần lời nói và nhận dạng thực thể cho văn bản cũng như phát hiện và phân đoạn đối tượng cho hình ảnh. Gắn nhãn dữ liệu cần được máy nhận dạng và phân biệt thông qua ghi nhãn dữ liệu, sau đó để máy tính liên tục tìm hiểu các đặc điểm của những dữ liệu này và cuối cùng nhận ra khả năng tự nhận dạng của máy tính.
Chú thích dữ liệu có ý nghĩa rất lớn đối với các mô hình trí tuệ nhân tạo lớn, có thể nói đây là một trong những mắt xích quan trọng để các mô hình trí tuệ nhân tạo lớn hoạt động hiệu quả. Cụ thể, việc ghi nhãn dữ liệu có thể mang lại những ý nghĩa sau.
Một là cải thiện độ chính xác của các thuật toán học máy, dữ liệu được gắn nhãn có thể giúp các thuật toán học máy học và dự đoán chính xác hơn. Đối với các tác vụ phân loại hình ảnh, hình ảnh được chú thích cho phép thuật toán nhận dạng các đối tượng và cảnh trong ảnh tốt hơn, từ đó cải thiện độ chính xác.
Thứ hai là đẩy nhanh quá trình huấn luyện thuật toán. Dữ liệu được gắn nhãn có thể làm cho các thuật toán học máy học và đào tạo nhanh hơn, do đó giảm thời gian đào tạo và chi phí của thuật toán.Việc ứng dụng rộng rãi dữ liệu được dán nhãn đã thúc đẩy sự phát triển của công nghệ học máy.
Thứ ba là thúc đẩy khả năng ứng dụng của công nghệ máy học. Với dữ liệu được gắn nhãn, mọi người có thể sử dụng tốt hơn các kỹ thuật học máy để giải quyết các vấn đề thực tế, chẳng hạn như xử lý ngôn ngữ tự nhiên, thị giác máy tính, hệ thống đề xuất, v.v. Nói tóm lại, chú thích dữ liệu là một liên kết rất quan trọng trong lĩnh vực học máy.
2. Ghi nhãn dữ liệu và quản trị dữ liệu
Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), quản trị dữ liệu là quá trình xử lý, định dạng và chuẩn hóa dữ liệu. Quản trị dữ liệu là một yếu tố thiết yếu của việc quản lý dữ liệu và hệ thống dữ liệu. Quản trị dữ liệu liên quan đến việc quản lý toàn bộ vòng đời của dữ liệu, cho dù đó là dữ liệu tĩnh, động, không đầy đủ hay giao dịch.
Chú thích dữ liệu và quản trị dữ liệu là hai khái niệm khác nhau. Quản trị dữ liệu đề cập đến việc quản lý thống nhất các hoạt động dữ liệu như thu thập, xử lý, phân tích và lưu trữ dữ liệu để đảm bảo chất lượng, bảo mật, độ tin cậy và tiêu chuẩn hóa dữ liệu. Mục tiêu của quản trị dữ liệu là thúc đẩy việc sử dụng dữ liệu có trật tự, hiệu quả và tuân thủ, từ đó thúc đẩy các quyết định kinh doanh và phát triển kinh doanh. Chú thích dữ liệu là quá trình phân loại, gắn nhãn và chú thích dữ liệu thô làm tài liệu đào tạo cho mô hình học máy hoặc trí tuệ nhân tạo. Mục đích của chú thích dữ liệu là cải thiện độ chính xác và khả năng khái quát hóa của các mô hình học máy, để các mô hình có thể thích ứng tốt hơn với các tình huống kinh doanh thực tế.
Ghi nhãn dữ liệu và quản trị dữ liệu có mối quan hệ với nhau. Quản trị dữ liệu có thể đảm bảo chất lượng và độ tin cậy của dữ liệu, đồng thời cung cấp dữ liệu thô chất lượng cao để ghi nhãn dữ liệu. Đồng thời, kết quả của chú thích dữ liệu cũng có thể cung cấp phản hồi và hướng dẫn quản trị dữ liệu tốt hơn, giúp quản trị dữ liệu chính xác và hiệu quả hơn.
3. Ghi nhãn dữ liệu và tiêu chuẩn dữ liệu
Theo mô hình đánh giá mức độ trưởng thành về năng lực quản lý dữ liệu (GB/T 36073-2018), tiêu chuẩn dữ liệu (Data Standard) đề cập đến các quy tắc đặt tên, định nghĩa, cấu trúc và giá trị của dữ liệu. Ghi nhãn dữ liệu là một liên kết quan trọng trong việc xây dựng và thực hiện các tiêu chuẩn dữ liệu. Chuẩn dữ liệu là những ràng buộc mang tính quy phạm nhằm đảm bảo tính nhất quán, chính xác và đầy đủ của việc định nghĩa và sử dụng dữ liệu. Đối với doanh nghiệp, chuẩn dữ liệu là những ràng buộc mang tính quy chuẩn đảm bảo tính nhất quán, chính xác trong việc sử dụng, trao đổi dữ liệu nội bộ và bên ngoài.
Chuẩn dữ liệu có thể bao gồm chuẩn về cấu trúc dữ liệu, nguồn nội dung dữ liệu, nghiệp vụ kỹ thuật, v.v. Việc xây dựng và ban hành các tiêu chuẩn dữ liệu cần được kết hợp với nhu cầu thực tế của doanh nghiệp, thông qua các hoạt động quản lý khác nhau, để thúc đẩy việc quản lý dữ liệu được tiêu chuẩn hóa, nhằm đảm bảo tính toàn vẹn, nhất quán và tiêu chuẩn hóa của dữ liệu. Mục tiêu của quản lý tiêu chuẩn dữ liệu là đạt được việc quản lý dữ liệu được tiêu chuẩn hóa thông qua việc xây dựng và phát hành các tiêu chuẩn dữ liệu thống nhất, kết hợp với hệ thống quản lý tiêu chuẩn dữ liệu hợp lý và cung cấp cơ sở tiêu chuẩn cho việc quản lý dữ liệu tiếp theo.
Ghi nhãn dữ liệu là quá trình phân loại, đóng khung, ghi nhãn và chú thích dữ liệu làm tài liệu cơ bản cho học máy. Vì chất lượng của chú thích dữ liệu có liên quan trực tiếp đến trí thông minh của máy nên việc chú thích dữ liệu cần được thực hiện theo các tiêu chuẩn chất lượng nghiêm ngặt. Quá trình dán nhãn dữ liệu bao gồm thu thập dữ liệu, làm sạch dữ liệu, dán nhãn dữ liệu, kiểm tra chất lượng dữ liệu và các liên kết khác. Trong số đó, thu thập và làm sạch dữ liệu là giai đoạn chuẩn bị, ghi nhãn dữ liệu là liên kết cốt lõi và kiểm tra chất lượng dữ liệu là kiểm tra và đánh giá dữ liệu được dán nhãn. Từ một quan điểm cụ thể, các tiêu chuẩn dữ liệu là một tập hợp các công nghệ và quy trình được tiêu chuẩn hóa đã được xác định, giải thích, sử dụng và sửa đổi để xử lý việc thu thập, trình bày, trao đổi, phân tích và quản lý dữ liệu.
Do đó, ghi nhãn dữ liệu và tiêu chuẩn dữ liệu có mối quan hệ với nhau, ghi nhãn dữ liệu là quá trình thực hiện cụ thể của tiêu chuẩn hóa dữ liệu, trong khi tiêu chuẩn dữ liệu là quy chuẩn và cơ sở cho việc ghi nhãn dữ liệu. Thông qua việc kết hợp ghi nhãn dữ liệu và tiêu chuẩn hóa dữ liệu, hiệu quả và độ tin cậy của các ứng dụng máy học và trí tuệ nhân tạo có thể được cải thiện hơn nữa.
4. Thông số kỹ thuật liên quan đến ghi nhãn dữ liệu
Việc ghi nhãn dữ liệu cần tuân thủ các luật và quy định cơ bản liên quan đến thông tin dữ liệu, bao gồm "Luật An ninh mạng của Cộng hòa Nhân dân Trung Hoa", "Luật Bảo mật Dữ liệu của Cộng hòa Nhân dân Trung Hoa" và "Luật Bảo vệ Thông tin Cá nhân của Cộng hòa Nhân dân Trung Hoa". Của Trung Quốc".
Các biện pháp tạm thời để quản lý các dịch vụ trí tuệ nhân tạo sáng tạo do Cục quản lý không gian mạng nhà nước, Ủy ban cải cách và phát triển quốc gia, Bộ giáo dục, Bộ khoa học và công nghệ, Bộ công nghiệp và công nghệ thông tin, Bộ công an , và Cục Quản lý Nhà nước về Phát thanh, Điện ảnh và Truyền hình, sẽ có hiệu lực vào ngày 15 tháng 8 năm 2023 Điều 8 quy định cụ thể về dán nhãn dữ liệu, yêu cầu dán nhãn dữ liệu trong quá trình nghiên cứu và phát triển công nghệ trí tuệ nhân tạo tổng hợp, nhà cung cấp sẽ xây dựng rõ ràng , quy tắc ghi nhãn cụ thể và khả thi đáp ứng các yêu cầu của các biện pháp này; thực hiện đánh giá chất lượng ghi nhãn dữ liệu, lấy mẫu Xác minh tính chính xác của nội dung ghi nhãn; cung cấp đào tạo cần thiết cho nhân viên ghi nhãn, nâng cao nhận thức về việc tuân thủ luật pháp, giám sát và hướng dẫn ghi nhãn nhân viên để thực hiện công việc ghi nhãn theo cách tiêu chuẩn hóa.
Theo phiên bản sửa đổi của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa (Phiên bản 2022)" dựa trên phiên bản 2015 của "Mã phân loại nghề nghiệp của Cộng hòa Nhân dân Trung Hoa" của Bộ Nhân sự và An sinh Xã hội, Cục Quản lý Nhà nước về Quy định thị trường và Cục thống kê quốc gia, giảng viên trí tuệ nhân tạo chính thức trở thành một nghề nghiệp mới và đưa nó vào Danh mục phân loại nghề nghiệp quốc gia. Nhiệm vụ chính của giảng viên trí tuệ nhân tạo bao gồm dán nhãn và xử lý dữ liệu thô của doanh nghiệp như hình ảnh, văn bản và giọng nói; phân tích và tinh chỉnh các đặc điểm của lĩnh vực chuyên môn, đào tạo và đánh giá các thuật toán, chức năng và hiệu suất của các sản phẩm trí tuệ nhân tạo; thiết kế quy trình tương tác và Giải pháp ứng dụng; giám sát, phân tích và quản lý dữ liệu ứng dụng sản phẩm trí tuệ nhân tạo; điều chỉnh, tối ưu hóa thông số, cấu hình sản phẩm trí tuệ nhân tạo…
Quy trình ghi nhãn dữ liệu cho máy học trong trí tuệ nhân tạo (GB/T 42755-2023) là một tiêu chuẩn quốc gia được đề xuất, sẽ được triển khai vào ngày 1 tháng 12 năm 2023. Đây là một bộ hướng dẫn về quy trình ghi nhãn dữ liệu cho máy học trong Trí tuệ nhân tạo Tiêu chuẩn và các quy tắc chuẩn hóa quy trình dán nhãn dữ liệu, chỉ định quy trình vận hành dán nhãn dữ liệu và đưa ra khuyến nghị về nhiệm vụ dán nhãn, nhân sự dán nhãn, môi trường dán nhãn; kiểm soát quy trình, đảm bảo chất lượng, cơ chế quản lý; kiểm tra chất lượng nội bộ, cung cấp dữ liệu, hậu bảo trì, v.v. .Các quy định nhằm đảm bảo tính thống nhất và chính xác của chú thích dữ liệu và cung cấp dữ liệu huấn luyện chất lượng cao cho các thuật toán học máy.
Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .
Một số tiêu chuẩn địa phương cũng đáng tham khảo và tham khảo. Vào tháng 6 năm 2022, Cục quản lý và giám sát thị trường tỉnh Sơn Tây đã ban hành ba tiêu chuẩn cấp tỉnh và địa phương trong lĩnh vực dán nhãn dữ liệu trí tuệ nhân tạo, bao gồm "Khung tổng thể về dán nhãn dữ liệu trí tuệ nhân tạo", "Yêu cầu kỹ thuật chung đối với việc dán nhãn dữ liệu trí tuệ nhân tạo", và "Quy trình làm việc chung để dán nhãn dữ liệu trí tuệ nhân tạo". .
"Khuôn khổ chung về ghi nhãn dữ liệu trí tuệ nhân tạo" cung cấp các đề xuất về quy trình sản xuất và nội dung sản xuất của quá trình sản xuất ghi nhãn dữ liệu trong học máy trí tuệ nhân tạo, đồng thời làm rõ trạng thái và khái niệm công nghiệp về ghi nhãn dữ liệu. "Quy trình làm việc chung để ghi nhãn dữ liệu trí tuệ nhân tạo" quy định các yêu cầu công việc chung để tạo nhãn dữ liệu trong học máy trí tuệ nhân tạo, bao gồm các nguyên tắc, quy trình, lập kế hoạch, v.v. "Yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trí tuệ nhân tạo" chỉ định các thuật ngữ và định nghĩa, phân loại kỹ thuật chung và yêu cầu kỹ thuật chung đối với các yêu cầu kỹ thuật chung đối với ghi nhãn dữ liệu trong máy học trí tuệ nhân tạo.
Vào tháng 6 năm 2023, dưới sự dẫn đầu của Học viện Công nghệ Thông tin và Truyền thông Trung Quốc, hơn 20 doanh nghiệp chủ chốt trong các ngành liên quan, bao gồm China Unicom, Datatang, Haiti Ruisheng, Đo lường đám mây Testin, Integer Intelligence, Hikvision, Midea Group, v.v. Doanh nghiệp, AI các công ty công nghệ và các công ty công nghiệp quy mô lớn đã cùng nhau biên soạn tiêu chuẩn "Yêu cầu kỹ thuật và phương pháp thử nghiệm cho nền tảng ghi nhãn dữ liệu trí tuệ nhân tạo", tiêu chuẩn này cũng đồng thời được thành lập tại Liên minh Viễn thông Quốc tế (ITU-T), một trong ba tổ chức tiêu chuẩn quốc tế lớn .Thảo luận với bản thảo. Tiêu chuẩn cung cấp các ràng buộc quy phạm và đề xuất tham chiếu cho từng liên kết chính của nền tảng ghi nhãn dữ liệu. Hiện tại, giá thầu nhóm tiêu chuẩn đã được hoàn tất.
Ngoài ra, còn có một loạt các tiêu chuẩn quốc gia liên quan đến việc dán nhãn dữ liệu. Chẳng hạn như "Lập kế hoạch tài nguyên dữ liệu dữ liệu lớn công nghệ thông tin" (GB/T 42450-2023), Lập kế hoạch tài nguyên dữ liệu (Data Resource Planning, gọi tắt là DRP) là một chiến lược và lập kế hoạch công nghệ thông tin (CNTT), được thiết kế để đảm bảo rằng các tổ chức có thể quản lý hiệu quả tài nguyên dữ liệu của mình để đáp ứng nhu cầu kinh doanh và đảm bảo bảo mật dữ liệu và bảo vệ quyền riêng tư.
"Chất lượng dữ liệu Phần 8: Chất lượng thông tin và dữ liệu: Khái niệm và phép đo" (GB/T 42381.8-2023) là một tiêu chuẩn quốc gia quy định các khái niệm và phương pháp đo lường chất lượng thông tin và dữ liệu. Tiêu chuẩn này thuộc thẩm quyền của TC159 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia), TC159SC4 (Ủy ban kỹ thuật tiêu chuẩn hóa hệ thống tự động hóa và tích hợp quốc gia Chi nhánh dữ liệu công nghiệp) và cơ quan có thẩm quyền là Liên đoàn công nghiệp máy móc Trung Quốc.
"Chất lượng dữ liệu Phần 61: Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu" (GB/T 42381.61-2023) Mô hình tham chiếu quy trình quản lý chất lượng dữ liệu là một tiêu chuẩn do ISO 8000 quy định để hướng dẫn các tổ chức cách triển khai quản lý chất lượng dữ liệu.
5. Rủi ro pháp lý trong ngành dán nhãn dữ liệu
Trong quá trình chia sẻ dữ liệu và ứng dụng giữa các bộ phận kinh doanh khác nhau và hệ sinh thái khác nhau, ngành ghi nhãn dữ liệu có thể có nhu cầu liên tục trong một thời gian dài trong tương lai.
Thực sự có một số yếu tố không phù hợp trong việc ghi nhãn dữ liệu, bao gồm ghi nhãn dữ liệu không đều, có thể dẫn đến suy giảm chất lượng dữ liệu và ảnh hưởng đến việc xử lý và sử dụng dữ liệu tiếp theo; ghi nhãn dữ liệu sai hoặc không chính xác sẽ ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; ghi nhãn dữ liệu là sai, Nó có thể dẫn đến dữ liệu không trung thực, ảnh hưởng đến quá trình xử lý và ứng dụng dữ liệu tiếp theo; quy trình ghi nhãn dữ liệu vi phạm luật và quy định, dẫn đến dữ liệu bị cấm sử dụng hoặc bị trừng phạt.
Cụ thể, ngành dán nhãn dữ liệu có thể có những rủi ro sau đây về mặt pháp luật.
Một là nguy cơ vi phạm luật và quy định bảo vệ thông tin cá nhân. Ghi nhãn dữ liệu có thể yêu cầu xử lý một lượng lớn thông tin cá nhân, chẳng hạn như tên, số ID, thông tin liên hệ liên lạc, địa chỉ, mật khẩu tài khoản, trạng thái tài sản, nơi ở, v.v. Nếu ngành dán nhãn dữ liệu không xử lý thông tin cá nhân theo yêu cầu của luật pháp và quy định có liên quan, điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và lạm dụng thông tin cá nhân, vi phạm luật pháp và các quy định về bảo vệ thông tin cá nhân.
Thứ hai là nguy cơ vi phạm luật và quy định về bảo mật dữ liệu. Ngành ghi nhãn dữ liệu có thể cần xử lý một lượng lớn dữ liệu nhạy cảm, chẳng hạn như dữ liệu tài chính, dữ liệu y tế, v.v. Nếu ngành dán nhãn dữ liệu không thực hiện các biện pháp bảo mật cần thiết như mã hóa dữ liệu, kiểm soát truy cập, v.v., thì điều đó có thể dẫn đến các vấn đề bảo mật như rò rỉ và giả mạo dữ liệu, điều này vi phạm luật và quy định về bảo mật dữ liệu.
Thứ ba là rủi ro vi phạm pháp luật và các quy định về sở hữu trí tuệ. Ngành ghi nhãn dữ liệu cần xử lý một lượng lớn dữ liệu có thể bao gồm tài sản trí tuệ. Nếu ngành công nghiệp ghi nhãn dữ liệu không nhận được sự cho phép hoặc giấy phép của các quyền sở hữu trí tuệ có liên quan, dẫn đến việc sử dụng bất hợp pháp và vi phạm hợp đồng, điều đó có thể dẫn đến các vấn đề vi phạm quyền sở hữu trí tuệ.
Thứ tư là rủi ro vi phạm luật và các quy định về cạnh tranh. Có sự cạnh tranh khốc liệt trong ngành dán nhãn dữ liệu, một số công ty có thể lấy dữ liệu của đối thủ cạnh tranh thông qua các phương tiện không phù hợp hoặc lạm dụng vị trí thống lĩnh thị trường, vi phạm luật và quy định cạnh tranh, xâm phạm quyền và lợi ích hợp pháp có liên quan.
Để ngăn chặn những rủi ro pháp lý này, ngành dán nhãn dữ liệu cần tăng cường nhận thức pháp lý và quản lý rủi ro về bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ và cạnh tranh. Đồng thời, chính phủ và mọi tầng lớp xã hội cũng cần tăng cường giám sát và quản lý ngành dán nhãn dữ liệu để đảm bảo ngành này hoạt động hợp pháp và tuân thủ.
6. Phòng ngừa rủi ro pháp lý trong ngành dán nhãn dữ liệu
Để ngành ghi nhãn dữ liệu ổn định và phát triển sâu rộng, cần phải tuân thủ các luật, quy định và tiêu chuẩn liên quan về ghi nhãn dữ liệu, đồng thời thực hiện ghi nhãn dữ liệu theo cách chuẩn hóa, chính xác và hiệu quả. Các công ty dán nhãn dữ liệu có thể ngăn ngừa rủi ro pháp lý theo những cách sau.
Đầu tiên là thiết lập và cải thiện các quy tắc và quy định ghi nhãn dữ liệu. Doanh nghiệp nên thiết lập và cải thiện các quy tắc và quy định liên quan đến ghi nhãn dữ liệu, bao gồm các quy định về thu thập, lưu trữ, xử lý, phân tích và bảo vệ dữ liệu, để đảm bảo tính tuân thủ và bảo mật của việc ghi nhãn dữ liệu. Thiết lập các quy tắc ghi nhãn dữ liệu rõ ràng, cụ thể và có thể vận hành đáp ứng các yêu cầu của luật pháp, quy định và quy định, thực hiện đánh giá chất lượng ghi nhãn dữ liệu và tiến hành xác minh lấy mẫu về tính chính xác của nội dung ghi nhãn. Cơ chế đảm bảo an toàn nội dung dữ liệu đảm bảo tuân thủ các giá trị cốt lõi xã hội chủ nghĩa và phản đối mọi hình thức phân biệt đối xử; cải thiện cơ chế bảo vệ thông tin cá nhân và các quyền và lợi ích hợp pháp có liên quan, đồng thời không được xâm phạm quyền chân dung, quyền uy tín, danh dự của người khác , quyền riêng tư và quyền thông tin cá nhân; Các biện pháp bảo mật, công ty ghi nhãn dữ liệu phải tuân thủ các luật và quy định có liên quan và theo hướng dẫn của các chính sách và tiêu chuẩn bảo mật dữ liệu, quản lý bảo mật dữ liệu thông qua ủy quyền truy cập dữ liệu, kiểm soát phân loại và phân loại, và truy cập vào dữ liệu giám sát để đáp ứng các yêu cầu bảo mật dữ liệu. Để đảm bảo tính bảo mật, tính toàn vẹn và tính sẵn sàng của dữ liệu.
Thứ hai là tăng cường quản lý tuân thủ của doanh nghiệp. Các công ty dán nhãn dữ liệu nên tuân thủ các luật và quy định có liên quan, chuẩn hóa hoạt động kinh doanh, tôn trọng các quyền và lợi ích hợp pháp, đồng thời tránh độc quyền và cạnh tranh không lành mạnh. Không sử dụng các phương tiện không phù hợp để lấy dữ liệu từ đối thủ cạnh tranh và không lạm dụng vị trí thống lĩnh thị trường để xâm phạm quyền sở hữu trí tuệ hợp pháp hoặc bí mật thương mại của người khác; tăng cường quản lý hợp đồng và khi ký kết hợp đồng với đối tác, hãy đánh dấu rõ ràng các yêu cầu của nhiệm vụ , phạm vi sử dụng dữ liệu, điều khoản Bảo mật và các nội dung khác để đảm bảo rằng các đối tác hiểu và tuân thủ các luật và quy định có liên quan, đồng thời giảm rủi ro vi phạm hợp đồng.
Thứ tư là tăng cường đào tạo, bồi dưỡng cán bộ. Doanh nghiệp nên tăng cường nhận thức pháp luật và đào tạo nhận thức rủi ro cho nhân viên, tăng cường đào tạo và giáo dục về hoạt động ghi nhãn dữ liệu, bảo vệ thông tin cá nhân, bảo mật dữ liệu, quyền sở hữu trí tuệ, v.v., để nhân viên hiểu các luật và quy định liên quan đến ghi nhãn dữ liệu cũng như các quy tắc và quy định của công ty, đồng thời nâng cao nhận thức của nhân viên về tuân thủ và khả năng phòng ngừa rủi ro.
Thứ năm là thành lập đội quản lý rủi ro. Doanh nghiệp nên thiết lập cơ chế giám sát dữ liệu để giám sát dữ liệu được gắn nhãn theo thời gian thực, phát hiện và xử lý kịp thời dữ liệu không tuân thủ, tránh rủi ro pháp lý do chất lượng dữ liệu gây ra. Khuyến nghị doanh nghiệp thành lập đội quản trị rủi ro chuyên nghiệp để dự đoán, đánh giá các rủi ro pháp lý có thể phát sinh trong quá trình dán nhãn dữ liệu, từ đó đưa ra các đề xuất, biện pháp phòng ngừa rủi ro tương ứng.
Tác giả: Zhang Feng, đối tác của Công ty luật V&T, giám đốc Ủy ban pháp lý kỹ thuật số VTQ, phó tổng thư ký Ủy ban sở hữu trí tuệ của Hiệp hội chuyên gia đóng góp xuất sắc Thượng Hải, chuyên gia think tank/đánh giá công nghệ của Hiệp hội công nghệ chuỗi khối Thượng Hải Chuyên gia, ủy viên thường vụ Ủy ban của Ủy ban Công tác Công nghiệp Metaverse của Liên đoàn Truyền thông Di động Trung Quốc, đồng thời là phó chủ tịch của Diễn đàn 50 thành viên Metaverse Công nghiệp Tương lai.
Tất cả bình luận