Giải mã công việc sử dụng hàng vạn người châu Phi và Đông Nam Á với mức lương chưa đến 25.000 đồng/giờ đã giúp chàng trai 25 tuổi kiếm hàng tỷ USD

Admin

Những lao động này đang làm công việc "thô sơ nhưng vô cùng quan trọng" đối với AI.

Giải mã công việc sử dụng hàng vạn người châu Phi và Đông Nam Á với mức lương chưa đến 25.000 đồng/giờ đã giúp chàng trai 25 tuổi kiếm hàng tỷ USD - Ảnh 1.

Scale AI - startup công nghệ chuyên cung cấp giải pháp phân tích trí tuệ nhân tạo (AI) cho mục đích quân sự và dân sự của Alexandr Wang từng được định giá 7,3 tỷ USD.

Phía sau tài sản của Alexandr Wang - người từng là “tỷ phú tự thân trẻ nhất thế giới” khi mới 25 tuổi - là một “đội quân” thuê ngoài với nhiệm vụ thô sơ nhưng rất quan trọng đối với bất cứ hệ thống AI nào.

Việc đó là dán nhãn dữ liệu để đào tạo AI. Về cơ bản, Scale AI, cung cấp sức lao động của con người để thực hiện những nhiệm vụ mà thuật toán không thể thực hiện được.

Dán nhãn dữ liệu là gì?

Forbes cho biết tài sản của Wang “không được tạo nên hoàn toàn từ công nghệ” mà còn là từ lực lượng lao động thuê ngoài khổng lồ thực hiện một nhiệm vụ thô sơ nhưng vô cùng quan trọng đối với AI, là data labelling - "dán nhãn dữ liệu".

Đào tạo mô hình học máy và học sâu đòi hỏi một lượng lớn dữ liệu được dán nhãn cẩn thận. Việc dán nhãn dữ liệu thô và chuẩn bị nó để cung cấp trong các mô hình học máy và các công việc trí tuệ nhân tạo AI khác được gọi là dán nhãn dữ liệu hoặc chú thích dữ liệu.

Nếu dữ liệu đã được gán nhãn, điều đó có nghĩa dữ liệu được đánh dấu hoặc chú thích, để hiển thị mục tiêu, đây cũng là câu trả lời bạn muốn mô hình học máy của mình dự đoán. Nói chung, ghi nhãn dữ liệu có thể đề cập đến các tác vụ bao gồm gắn thẻ dữ liệu, chú thích, phân loại, kiểm duyệt, sao chép hoặc xử lý.

Một bộ dữ liệu hoàn chỉnh được cấu trúc và dán nhãn đúng là bước chạy đà quan trọng nhất phục vụ cho mục đích đào tạo và triển khai các mô hình học máy.

Tuy nhiên, hầu hết dữ liệu hiện nay không ở dạng được dán nhãn và đây là một thách thức lớn với các dự án AI. Theo phân tích của Cognilytica, một dự án AI dành 80% thời gian cho việc thu thập, sắp xếp và dán nhãn dữ liệu. Trong cuộc chạy đua công nghệ khắc nghiệt hiện nay thì quỹ thời gian đó là vô cùng quý giá.

Quy mô đang là một lời giải được lựa chọn

Wang và Guo - đồng sáng lập Scale AI nhận ra rằng quy mô (scale) chính là một giải pháp khả thi. Ví dụ, các công ty xe hơi muốn sản xuất xe tự lái có “hàng triệu dặm” cảnh quay lái xe nhưng “gần như không có đủ người để xem xét và dán nhãn cho nó”. Quy mô có thể đáp ứng nhu cầu đó.

Sẽ khó tìm được các chuyên gia ở Mỹ sẵn sàng làm công việc nhàm chán, lặp đi lặp lại, không bao giờ kết thúc ở mức giá thấp. Nên những công việc này thường được đưa đến châu Phi và Đông Nam Á.

Hầu hết người dân châu Phi, châu Á làm công việc dán nhãn dữ liệu đều là lao động phổ thông nghèo. 

Scale AI không phải công ty duy nhất sử dụng quy mô lao động để giải bài toán dán nhãn dữ liệu. Rất nhiều công ty công nghệ khác - như ChatGPT, hay Google, cũng đang hợp tác với các công ty dán nhãn dữ liệu ở Kenya và khắp châu Phi để phân loại, sắp xếp hàng triệu bộ dữ liệu.

Sebenz.AI, một công ty trí tuệ nhân tạo ở Nam Phi, đang tạo cơ hội việc làm cho mọi người trên khắp châu Phi bằng việc sản xuất trò chơi dán nhãn dữ liệu đào tạo cho các mô hình ML. Sebenz có thể tạo dữ liệu được gắn nhãn với các phản hồi theo thời gian thực gần như song song.