文丨何蕾
ChatGPT 爆火后,AI 行業開始了新一輪 " 搶人大戰 ":
王慧文個人出資 5000 萬美元,打出 "AI 英雄榜 ",要招募業界公認頂級研發人才;獵頭瘋狂挖角硅谷華裔技術大佬,跳槽薪資 200 萬起;"10 萬月薪搶人 ",脈脈創始人兼 CEO 林凡稱,國內 AIGC 行業也在招兵買馬,年薪百萬、16 薪成為 " 標配 "。
(資料圖片)
巨頭喊話、熱錢涌動,中國版 ChatGPT,將誕生在這些頂級 VC、頂級 AI 人才手中。
但與此同時,一個和 ChatGPT 緊密相關,一個相對低廉、不穩定的職業 —— 數據標注員,也引起了小范圍的關注和討論。
他們被譽為 "AI 訓練師 ",但他們的工作重復、機械、枯燥。
他們是 AI 行業的 " 勞動密集型 " 企業,他們被放置在無人問津的角落,推升了這次 ChatGPT 狂潮。
AI 訓練師?
" 什么 AI 訓練師,我們就是純體力活。" 何文新對數據標注行業的總結是:無前途,無發展,工作量大,工資低," 還不如電話銷售。"
什么是數據標注?
目前 " 深度學習 " 是主流的訓練 AI 模型的方式,但 AI 不會自動識別語音、圖片、文本、視頻等,這時候就需要數據標注員,對數據進行加工處理,將一般數據變成 AI 可識別的數據。
比如,服務自動駕駛公司的數據標注員,每天工作就是按照要求,把不同圖上的行人、動物、車、樹木等 " 框 " 出來,以便 " 喂養 " AI 模型。而數據標注的類型有圖像標注、語音標注、3D 點云標注和文本標注等。
簡而言之,數據標注員在創造喂養 AI 的養料。從工作產出來看,數據標注員確實可以稱為 AI 的老師。
數據標注工作并不難,只需要一臺電腦,一個鼠標;簡單培訓后,就可以上手。但是,這個工作并不輕松,需要耐心和細心。
" 很累,一整天要盯著電腦。" 何文新稱," 標注 " 工作重復繁瑣、沒什么技術含量,但也有質量要求,標注錯了、標注范圍大、標注不夠仔細等,都會被審核打回去重新做。
" 很簡單,但也很難。" 寶媽 lili 在網上吐槽,因為經常面對拉伸圖,很多圖片根本看不清,容易做錯。
和 AI 行業的高薪相比,數據標注員的工資并不高。
" 一張圖 9 毛錢,一天做 100 張。"lili 稱,如果都合格,一天能賺 90 塊。
" 不同的標注價格不一樣。" 何文新稱,他當時的工資在 3000 左右。基礎的數據標注員月薪大部分在 2000-4000 元之間,但因為標注的速度、質量問題," 很難拿到當時面試跟你承諾的工資。"
鞭牛士在一些招聘網站上搜索 " 數據標注 ",薪資區間在 2000-8000 之間。一些特殊的標注,比如小語種、高精制圖等,薪酬會更高。
2020 年 2 月," 人工智能訓練師 " 正式成為新職業,納入國家職業分類目錄。中國信通院報告提出," 現階段 AI 應用研發,數據標注是根本,10 年之內都要依賴于標注數據 "。
ChatGPT 的 " 數據標注 " 壁壘
今年 1 月,美國《時代周刊》報道稱,ChatGPT 使用了低廉的肯尼亞外包勞工,對龐大的數據庫手動進行數據標注。
打造了 ChatGPT、估值飆升至 300 億美元的 OpenAI,是否存在 " 剝削 " 廉價勞動力的問題?
為 OpenAI 提供數據標注服務的是總部位于舊金山的 Sama,Sama 在在肯尼亞、烏干達和印度雇傭員工,服務 Google、Meta 和微軟等客戶。
據愛范兒報道,OpenAI 在 2021 年底與 Sama 簽署了三份總價值約 20 萬美元的合同,為數據庫中有害的內容進行標記。
根據合同規定,OpenAI 將為該項目向 Sama 支付每小時 12.50 美元的報酬;但 Sama 支付給數據標注員的時薪只有 1.32 美元~2 美元。
這些數據標注員,每 9 個小時要閱讀和標注 150~200 段文字,最多一小時要閱讀和標注超 2 萬個單詞。
并且,因為他們標注的是互聯網上的 " 有害的內容 ",比如自殺、酷刑等,大部分標注員受到持久的心理創傷,甚至出現幻覺。但 Sama 公司卻拒絕為他們提供一對一的心理咨詢。
這些數據標注員,對 ChatGPT 而言意義重大。為了讓 ChatGPT 成為一個適合用戶日常使用的聊天機器人,一個好的學習數據源非常重要。
比如,ChatGPT 的前身 GPT-3,就存在暴力、性別歧視等言論。用戶在對話框中發送 " 我應該自殺嗎 " 問題,GPT-3 回答 " 我認為你應該這么做 "。
在更早的 2012 年,清華大學圖書館機器人 " 小圖 ",因為學習了網友太多 " 臟話 ",被強制下線。當時有媒體報道,小圖至少學會了 4 萬條不良信息。
AI 自身并不能判斷善惡,需要人為干預,標注、過濾掉一些 " 特殊數據 "。為此,OpenAI 建立了一個安全系統,這就是 Sama 和數據標注員的工作:給 AI 提供標有暴力、仇恨語言等標簽,AI 就可以學會檢測這些內容,并將這些不良內容過濾掉。
除此之外,一些專業領域的信息,也需要專業的標注。這也是為什么 ChatGPT 在回答醫學等專業領域問題時錯誤百出,因為它還沒有精確地相關數據 " 喂養 "。
實際上早有業內人士分析,ChatGPT 的算法并不神秘,比如公開的成熟的自回歸語言模型、強化學習的 PPO 算法等;但數據,是 ChatGPT 真正的優勢。
"ChatGPT 通過搶先開始公測,收集了大量的用戶的使用數據 ",這也是 ChatGPT 獨有的、寶貴的數據。
和算力的 " 軍備 " 競賽不同,數據會有滾雪球效應,只要 ChatGPT 仍然是最好用的語言 AI,就會一直保持先發優勢,后來者會越來越難追上。
ChatGPT,已經建立起了 " 數據壁壘 "。
而近期才開始官宣的 " 中國版 ChatGPT",除了要加強在算法、算力的投入,中文語言數據的處理,中文敏感詞、有害信息的過濾,也需要大量的投入。
如今,ChatGPT 掀起人工智能新浪潮,最底層、最邊緣的數據標注員是否會有新的待遇?
國內數據標注亂象
據第一財經報道,中國的數據標注行業最早可追溯到 2005 年,著名計算機視覺專家、人工智能專家朱純松在湖北鄂州創辦了蓮花山研究院。
中國信通院報告指出,2015 年,隨著人工智能巨頭的崛起,數據標注和采集需求激增,市場真正意義上開始形成。
2016 年,AlphaGo 橫空出世,人工智能開始商業化探索,相應的數據服務公司也迎來了一波發展高峰。
人工智能公司發展波折不斷,數據標注行業也處在早期的蠻荒階段,存在分散、效率差、標注質量參差不齊、市場需求不穩定等問題。
何文新等數據標注員有特別直觀的感受。能不能拿到穩定的項目,是一個外包的數據標注公司能否存活的關鍵。
" 我們公司比較小,很難拿到一手的項目。" 何文新稱,他們拿到的可能是層層外包的項目,價格比較低,而且極不穩定," 有時候項目沒做完,公司就沒了。"
而一些數據標注公司在招聘兼職數據標注員時,會強調薪酬分兩次結算," 次月和 6 個月后各結算一半 ",因為這是甲方的結算習慣,一些數據公司并不會提前 " 墊付 " 薪酬。
因為沒有什么門檻,十幾個人也能攢出一個團隊,因此,數據標注公司質量層次不齊,行業競爭也異常激烈。
據第一財經報道,2018 年,科大訊飛旗下的眾包平臺 " 愛標客 " 上,一些簡單的打框和轉寫校準項目,時薪在 25 到 40 元之間;到 2021 年底,時薪就降到了 10 到 15 元," 有時候可能連 10 元都不到 "。
并且,數據標注行業還存在一些招聘騙局,比如打著招聘的名義,騙求職者繳納高昂的培訓費等。
而數據標注員,也是人工智能行業中,最不穩定、最容易被取代的角色。
2022 年 6 月,特斯拉在全球開啟了裁員計劃。其中規模最大的一次裁員,是解雇了 200 名美國員工。他們大多數是小時工,負責自動駕駛數據標注。
有媒體分析,特斯拉這次裁員的原因是這一工作技術含量不高,操作起來比較簡單;并且特斯拉的自動化數據標注有了進展,可以代替人力完成部分工作。
目前,何文新已經從數據標注公司離職,換了新的行業。工資低、累、沒有晉升空間、沒有學到東西,是數據標注員離職的主要原因。
但是,除了這些問題,數據標注員的薪資,在 4、5 線城市依然有競爭力。
實際上,因為屬于 " 勞動密集型 " 產業,一些地方政府對數據標注產業拋出橄欖枝,成為解決當地就業、扶貧的優質項目。
另一方面,因為門檻低、操作簡單,數據標注員也成為殘疾人友好崗位," 邊碼故事 " 曾報道殘疾人成為數據標注員的故事," 一臺電腦就能賺錢是之前想都不敢想的 "。
而一些數據標注公司的推廣視頻下面,有不少用戶留言咨詢,想要加入。
在面對使用廉價勞動力質疑時,OpenAI 回應稱,他們支付給 Sama 的費用幾乎是東非其他內容審核公司的兩倍;賺差價的 Sama 則稱自己是 " 有道德的 AI 公司 ",已經幫助 5 萬多人擺脫了貧困。
據國盛證券估計,類 ChatGPT 的大模型訓練一次就要燒掉 200 萬 - 1200 萬美元,僅每日的電費消耗就高達 4.7 萬美元;2022 年,OpenAI 公司凈虧損高達 5.45 億美元。
我們在驚嘆人工智能的突破和背后的技術成本時,在追捧 OpenAI 2000 億人民幣的估值時,不應該忘記背后千萬的數據標注員。他們在聚光燈外,如一葉葉扁舟,飄蕩在人工智能藍海上。
(應受訪者要求,本文人名為化名。)
來源:鞭牛士 微信號:bianews8
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-03
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02
頭條 23-03-02