在人工智能領(lǐng)域有一句箴言:有多少人工就有多少智能。據(jù)估計,在中國有約千萬名“人類專家”在給人工智能喂數(shù)據(jù)。
近期,隨著人工智能的大火,全國多地數(shù)據(jù)標(biāo)注招聘市場火熱、相關(guān)創(chuàng)業(yè)模式也不斷涌現(xiàn),提升數(shù)據(jù)質(zhì)量成為人工智能開發(fā)商“彎道超車”的最新策略。
(資料圖)
早在2021年,人社部就發(fā)布了《人工智能訓(xùn)練師》國家職業(yè)技能標(biāo)準(zhǔn),覆蓋數(shù)據(jù)標(biāo)注員、人工智能算法測試員兩個工種,可見當(dāng)時相關(guān)產(chǎn)業(yè)已經(jīng)成勢。這份標(biāo)準(zhǔn)將人工智能訓(xùn)練師分為5個等級,從初級工到高級技師。
據(jù)了解,數(shù)據(jù)標(biāo)注員每天的工作就是通過打標(biāo)簽的方式,輔助人工智能學(xué)習(xí),可以說數(shù)據(jù)標(biāo)注師就是人工智能背后的“人工”。
位于濟南市明水國家經(jīng)濟開發(fā)區(qū)百度智能云(山東)人工智能基礎(chǔ)數(shù)據(jù)產(chǎn)業(yè)基地,是百度在全國布局的第二家、山東布局的第一家數(shù)據(jù)標(biāo)注基地,目前已經(jīng)容納了1500名“人工智能訓(xùn)練師”。
人工智能訓(xùn)練師成就業(yè)新方向
中國工程院院士鄔賀銓曾對人工智能訓(xùn)練師做過解釋,他表示:“比如AI訓(xùn)練師會進行智能駕駛的訓(xùn)練。智能駕駛中需要讓汽車自動識別馬路,但如果只是將視頻單純地傳給計算機,計算機無法識別,需要人工在視頻中將道路框出,再交由計算機,計算機多次接受此類信息后,才能逐漸學(xué)會在視頻和照片中識別出道路?!?/p>
自動駕駛是數(shù)據(jù)服務(wù)需求最大的行業(yè)之一,還需要大量的標(biāo)注數(shù)據(jù)對模型進行訓(xùn)練和調(diào)優(yōu)。同時,除了“聰明的車”,自動駕駛同樣需要“智慧的路”,通過車路協(xié)同的共同數(shù)據(jù)訓(xùn)練,才能實現(xiàn)降本增效。因此,專業(yè)、高質(zhì)量的數(shù)據(jù)才能夠保證自動駕駛的精準(zhǔn)和安全。
實際上,現(xiàn)在人們生活中常見的小度智能屏、小愛同學(xué)、天貓精靈等智能產(chǎn)品背后,都有AI訓(xùn)練師的身影。
就像從零搭建一座結(jié)構(gòu)精密的建筑,每個AI的成長都會經(jīng)歷人工訓(xùn)練的過程。導(dǎo)航語音的生成,智能音箱的應(yīng)答,人臉支付,動作捕捉……在業(yè)界有一種說法,數(shù)據(jù)標(biāo)注員是“人工智能的老師”,是他們?nèi)諒?fù)一日地拉框,教會了人工智能理解人類世界。
現(xiàn)在,你去問ChatGpt,它也會“親口”承認(rèn),“在我的訓(xùn)練過程中,開發(fā)者們還使用了一些人工標(biāo)注的數(shù)據(jù)集,以幫助我識別語言中的關(guān)鍵概念和語法規(guī)則。這些數(shù)據(jù)集通常由人類專家進行標(biāo)注,包括注釋句子結(jié)構(gòu)、命名實體識別和情感分析等等。這些標(biāo)注數(shù)據(jù)可以幫助我更好地理解自然語言,并使我更準(zhǔn)確地執(zhí)行我的任務(wù)?!?/p>
人工智能的主流方向是深度學(xué)習(xí)
人工智能的三大基石是數(shù)據(jù)、算力與算法,數(shù)量越多質(zhì)量越高的數(shù)據(jù),往往越能夠訓(xùn)練出更“聰明”的模型。
人工智能的主流方向是深度學(xué)習(xí)。在過去,由人來告訴機器,貓身上都有哪些特征,機器根據(jù)這些特征判斷一個物體是不是貓;深度學(xué)習(xí)則是通過“喂養(yǎng)”大量不同貓的圖片,機器就能自行歸納出貓的特征。這就需要大量經(jīng)人工標(biāo)注的圖片,有多少智能,就得付出多少人工。
數(shù)據(jù)標(biāo)注領(lǐng)域有過一個神話——ImageNet項目。這個項目數(shù)據(jù)庫擁有超過1400萬張已被標(biāo)注的圖片,其中識別出的物體種類超過20000種——包括120個不同品種的狗。
人工智能的發(fā)展離不開數(shù)據(jù)標(biāo)注
“人工智能的發(fā)展離不開數(shù)據(jù)標(biāo)注,沒有數(shù)據(jù)標(biāo)注,就沒有人工智能。沒有數(shù)據(jù)標(biāo)注,就沒有無人駕駛、刷臉支付、阿爾法狗、智能音箱。”河南商丘某公司招聘廣告上這樣寫著。
濟南也有不少公司發(fā)布關(guān)于數(shù)據(jù)標(biāo)注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。圖片來源:網(wǎng)絡(luò)
海報新聞記者在瀏覽某招聘平臺時,發(fā)現(xiàn)在濟南也有不少公司發(fā)布關(guān)于數(shù)據(jù)標(biāo)注員的招聘需求,其中的招聘薪資為每月3-5千元或4-9千元不等。招聘要求的學(xué)歷多為大專以上學(xué)歷,專業(yè)不限。在AI產(chǎn)業(yè)中,這類崗位令人聯(lián)想起電子廠的“流水線”工作。
有個別公司還在招聘需求里寫了職業(yè)培養(yǎng)方向:數(shù)據(jù)標(biāo)注師—數(shù)據(jù)質(zhì)檢師—項目培訓(xùn)師—項目主管—項目經(jīng)理。
記者發(fā)現(xiàn),除了較大規(guī)模的數(shù)據(jù)標(biāo)注產(chǎn)業(yè)基地,數(shù)據(jù)標(biāo)識行業(yè)“個體戶”正大量涌現(xiàn)。在百度貼吧上,大量項目正在召集所謂“團隊”接標(biāo),從發(fā)帖內(nèi)容可以看出,只要有一個相對固定人數(shù)、固定工作時長的團隊,就可以接下大公司分發(fā)下來的項目標(biāo)。
“如果數(shù)據(jù)量太大,一般公司會雇外包公司承擔(dān)?!庇袕臉I(yè)人員告訴記者。外包公司將數(shù)據(jù)標(biāo)注變成了算計件工分的一種工作。有從業(yè)者介紹,刨去場地租賃、電腦和桌椅配置、每月水電費、人工開支,這種個體分包商賺取的是中間差價。
不過,這個行業(yè)當(dāng)然也正向著規(guī)模化、公司化的方向發(fā)展。行內(nèi)有兩種類型的公司,一種是大型互聯(lián)網(wǎng)公司的內(nèi)部部門、一種是外包公司。后者正成為資本市場上的“香餑餑”。
數(shù)據(jù)標(biāo)注時薪取決于工作內(nèi)容
按照招聘平臺上的信息,人工智能訓(xùn)練師是依據(jù)工作內(nèi)容來定時薪價格。時薪能達到30元檔的是指3D類工作,一般是對實際場景中的特定事物進行標(biāo)注,例如對一條道路上的雷達車道線、雷達目標(biāo)拉框。接著是語音類,是指對音轉(zhuǎn)文、方言轉(zhuǎn)寫、喚醒助手等進行標(biāo)注。
2D類被認(rèn)為更簡單,是指對平面圖像、文字段落進行標(biāo)注,或者是OCR(文字識別)轉(zhuǎn)寫,例如對交通違規(guī)圖片里的人和車、紅綠燈、交通標(biāo)示進行識別。
價格最低的打碼類,是指驗證碼里的計算題、哪些圖片中含有火車這類工作。
據(jù)iResearch數(shù)據(jù),2019年我國數(shù)據(jù)標(biāo)注市場規(guī)模為30.9億元,預(yù)計2025年市場規(guī)模突破100億元,年復(fù)合增長率達到14.6%。圖片來源:第一財經(jīng)
“數(shù)據(jù)標(biāo)注十分枯燥無味,純體力活,每標(biāo)注200個就有一種想吐的感覺。”正在浙江某高校讀研的小何對記者表示。
以此謀生的數(shù)據(jù)標(biāo)注師,工作強度可能更為難忍,除了需要耐心在電腦前面坐上幾小時、耗盡眼力,可能還要面對原始數(shù)據(jù)里的限制級內(nèi)容,涉及性、暴力、仇恨言論等。
適合低學(xué)歷等人群就業(yè)
在2021年版的《人工智能訓(xùn)練師國家職業(yè)技能標(biāo)準(zhǔn)》中,對該職業(yè)的能力特征描述是“具有一定的學(xué)習(xí)能力、表達能力、計算能力;空間感、色覺正?!保毡槭芙逃潭葘懙氖恰俺踔挟厴I(yè)”。言外之意,這是一份門檻不太高的職業(yè)。
數(shù)據(jù)標(biāo)注產(chǎn)業(yè)促進了不少城鎮(zhèn)和農(nóng)村就業(yè),在河南、河北、貴州等地,還出現(xiàn)了一些特色的“數(shù)據(jù)標(biāo)注村”。
“95后”張文濤來自陜西省銅川市宜君縣,在做人工智能訓(xùn)練師之前,他只去過一次縣城。14歲那年,他因為意外造成了腰椎粉碎性骨折,后來去縣城辦了殘疾證。
直到2021年4月,26歲的張文濤進入宜君縣數(shù)字就業(yè)中心,成了一名人工智能訓(xùn)練師,這是張文濤第二次來到宜君縣城。
人工智能訓(xùn)練師通過對大量文本、圖片、語音、視頻等數(shù)據(jù)進行歸類、整理、糾錯和批注等,讓機器人因為大量數(shù)據(jù)的訓(xùn)練而變得越來越精準(zhǔn),相當(dāng)于機器人的“教練”。
張文濤的工作是給高德地圖做數(shù)據(jù)標(biāo)注,從此,每天上億人在用的這款地圖導(dǎo)航APP,背后有了張文濤的貢獻。因為腿腳不便很少出門,不能像普通人一樣去很多城市和景點,所以他把這項工作看成是自己在線上的“旅游”。
人工智能訓(xùn)練師看上去是人工智能領(lǐng)域一個“入門”工種:技術(shù)門檻低,招工人群范圍廣泛。他們通過每天數(shù)千次的重復(fù)動作,和最前沿科技的人工智能產(chǎn)生聯(lián)系。也因此,外界給這個行業(yè)貼上了“AI富士康”的標(biāo)簽。
然而,圍繞著人工智能訓(xùn)練師的低薪、長期伏案、內(nèi)容重復(fù)和精神壓力,社會輿論也正圍繞著相關(guān)職業(yè)保護而發(fā)酵。如果無法改善其工作環(huán)境、提升價值,這種職業(yè)的長久性仍令人存疑。
人工智能發(fā)展或取代數(shù)據(jù)標(biāo)注師
為了訓(xùn)練人工智能,數(shù)據(jù)標(biāo)注行業(yè)帶來了技術(shù)紅利,但如果人工智能發(fā)展到一定程度,甚至有可能夠取代數(shù)據(jù)標(biāo)注師的工作。
數(shù)據(jù)標(biāo)注看似“無腦”,但卻因?qū)嶋H落地需要而需要嚴(yán)謹(jǐn)?shù)墓ぷ鲬B(tài)度。比方說,如果對自動駕駛領(lǐng)域的數(shù)據(jù)標(biāo)注缺乏質(zhì)量把控,那么相關(guān)軟件就無法令汽車安全地行駛在道路上。
隨著GPT-4和文心一言的陸續(xù)出場,人工智能正“升級換代”,數(shù)據(jù)標(biāo)注行業(yè)也伴隨著新的變化。
目前的人工智能訓(xùn)練,大家更多地聚焦在數(shù)據(jù)加工這件事,但如果再往前看,更多的是數(shù)據(jù)的優(yōu)化、還有一些相關(guān)的解決方案。數(shù)據(jù)標(biāo)注是一個很好的行業(yè)入門工種,作為從業(yè)人員有機會更深度參與到產(chǎn)業(yè)鏈協(xié)作當(dāng)中,例如后續(xù)當(dāng)數(shù)據(jù)標(biāo)注越來越機器化,人工和自動化之間要有機的協(xié)同,這也對員工提出了更高的要求。
但是也有不少學(xué)者對此表示樂觀,當(dāng)數(shù)據(jù)標(biāo)注越來越機器化,人工智能訓(xùn)練師是一個轉(zhuǎn)換工種的機會,標(biāo)注員們現(xiàn)在標(biāo)注數(shù)據(jù),未來可能向數(shù)據(jù)治理、數(shù)據(jù)解決方案設(shè)計和項目管理等方向發(fā)展。
“得數(shù)據(jù)者,得人工智能”。未來,隨著AI應(yīng)用場景逐漸多領(lǐng)域化,在行業(yè)內(nèi)部,人工智能訓(xùn)練從業(yè)者也必將隨著AI行業(yè)而一同進入細(xì)分市場追逐階段,將迎來的是機遇與挑戰(zhàn)并行。
(文章來源:大眾網(wǎng))
標(biāo)簽: