您的位置：首頁(yè) > 新聞 > 高新技術(shù) > 新聞詳情

阿里AI鑒黃師上線：一日鑒圖數(shù)億張能聽(tīng)懂外語(yǔ)和方言

時(shí)間：2018-08-20 08:12:24

來(lái)源：mydrivers
作者：mydrivers
編輯：landother

以往靠鑒黃圖拿工資的人工鑒黃師，他們的工作可能要“涼涼”了。

近日，阿里AI鑒黃語(yǔ)音反垃圾服務(wù)上線公測(cè)，能識(shí)別語(yǔ)音中存在的涉黃、廣告等違規(guī)信息。這意味著，除識(shí)別色情圖片、色情視頻和色情文字外，涉黃語(yǔ)音也能通過(guò)AI鑒別了。

以往，傳統(tǒng)的人工鑒黃師通過(guò)一雙肉眼鑒別色情圖片和視頻。聽(tīng)起來(lái)像是“福利”，但實(shí)際上并不輕松。如今，伴隨著互聯(lián)網(wǎng)上社交媒體、直播、短視頻的發(fā)展，每天光上傳的圖片超過(guò)10億張，發(fā)文數(shù)量超過(guò)5億條，不少色情、暴力等內(nèi)容充斥其中。人工鑒黃師一天一人審核1萬(wàn)張圖片的工作量，遠(yuǎn)遠(yuǎn)滿足不了這一需求。

2015年10月，阿里巴巴“綠網(wǎng)”上線，用人工智能識(shí)別網(wǎng)絡(luò)上包括色情、暴力在內(nèi)的違規(guī)信息，阿里AI鑒黃師應(yīng)運(yùn)而生。通過(guò)人工智能、深度學(xué)習(xí)和大數(shù)據(jù)樣本等技術(shù)，阿里巴巴的AI鑒黃師訓(xùn)練識(shí)別千萬(wàn)張正常圖片與色情圖片，最終生成一個(gè)智能鑒黃模型。

“我們要做的就是拿圖片去‘喂養(yǎng)’它，讓它不斷學(xué)習(xí)，變得越來(lái)越聰明?！?阿里巴巴安全部高級(jí)算法工程師威視介紹：“最初在獲取樣本時(shí)，我們篩選了近2000網(wǎng)站、6000多萬(wàn)色情圖片，經(jīng)過(guò)去重，標(biāo)注1300多萬(wàn)張高質(zhì)量的色情圖片，可以說(shuō)這是AI鑒黃最重要的一塊基石?！?

阿里安全，一向致力于解決社會(huì)問(wèn)題，可以說(shuō)，高效率、低成本的阿里AI鑒黃技術(shù)，正將人工鑒黃師逐漸解放出來(lái)。威視表示：AI鑒黃師每天可審核數(shù)億張圖片，識(shí)別準(zhǔn)確率高于99.5%。舉個(gè)例子，一天要審核4億張圖片的話，單純由人工來(lái)審，一人一天審1萬(wàn)張，需要4萬(wàn)人，而AI鑒黃只需將其中20萬(wàn)張可疑的圖片篩出來(lái)，由人工再審一道，這需要20人即可。

更厲害的是，阿里AI鑒黃師不僅能鑒別黃片黃圖，連帶有情色信息的語(yǔ)音內(nèi)容都能識(shí)別。近期上線公測(cè)的AI語(yǔ)音鑒黃反垃圾服務(wù)，可支持中文、日文、英文等多國(guó)語(yǔ)言，還支持東北、四川、廣東等地方言。無(wú)語(yǔ)義的呻吟聲也能識(shí)別出來(lái)。8月21日在北京召開(kāi)的2018年網(wǎng)絡(luò)安全生態(tài)峰會(huì)上，這些成果將集中展示。

當(dāng)然，AI鑒黃并不能完全取代人工鑒黃，相比人工審核，機(jī)器還很難理解內(nèi)容背后的深意?！白罴训膶徍朔绞绞侵悄転橹鳎斯檩o。人工鑒黃師群體數(shù)量少了，目前主要做打標(biāo)和審查可疑圖片的工作?！卑⒗锇踩慨a(chǎn)品專家念夏說(shuō)。