數(shù)據(jù)荒危機(jī)迫近,AI產(chǎn)業(yè)面臨巨大挑戰(zhàn)
近日,研究機(jī)構(gòu)Epoch發(fā)布了一份令人震驚的報(bào)告,指出機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。而低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量也將分別在2030年至2050年、2030年至2060年枯竭。AI產(chǎn)業(yè)迅猛發(fā)展,數(shù)據(jù)荒已經(jīng)成為一個(gè)迫近的危機(jī),讓整個(gè)產(chǎn)業(yè)圈感到壓力倍增。

隨著數(shù)十億參數(shù)的起步和TB為單位的數(shù)據(jù)集的喂養(yǎng),AI模型的競爭已經(jīng)進(jìn)入白熱化階段。然而,這種競爭的背后卻是以燃盡數(shù)據(jù)為代價(jià)的。當(dāng)數(shù)據(jù)荒變成直觀的倒計(jì)時(shí)時(shí),整個(gè)產(chǎn)業(yè)圈才開始真正感受到這種危機(jī)的嚴(yán)重性。
在這種背景下,高質(zhì)量數(shù)據(jù)變得更加緊缺。那些急需數(shù)據(jù)的AI公司們開始感受到數(shù)據(jù)荒危機(jī)的切身之痛。繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集的價(jià)格也水漲船高。以Reddit API為例,自2008年以來一直以免費(fèi)的方式開放給第三方,然而近期卻通知開發(fā)者將從7月1日開始對(duì)數(shù)據(jù)接口進(jìn)行收費(fèi)。這無疑給開發(fā)者增加了巨大的經(jīng)濟(jì)壓力。
與此同時(shí),推特也在今年3月發(fā)布了API新政策,企業(yè)要抓取推文需要支付每月4萬美元至20萬美元不等的費(fèi)用。這些費(fèi)用對(duì)應(yīng)的數(shù)據(jù)量僅僅是整體推文的0.3%。由此可見,數(shù)據(jù)已經(jīng)變得越來越昂貴,這無疑加劇了業(yè)界對(duì)數(shù)據(jù)荒的擔(dān)憂。

面對(duì)數(shù)據(jù)供給的現(xiàn)狀,一些業(yè)內(nèi)人士透露,全球70%的數(shù)據(jù)源仍停留在免費(fèi)公開數(shù)據(jù)集的層面。這與大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn)。一些垂類大數(shù)據(jù),如金融、醫(yī)療、科研等行業(yè)型大數(shù)據(jù)尚未得到充分開發(fā)。這些數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,但由于數(shù)據(jù)安全合規(guī)的考慮,愿意開放共享核心數(shù)據(jù)的機(jī)構(gòu)并不多。
從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個(gè)過程需要經(jīng)歷數(shù)據(jù)的篩選、分級(jí)和標(biāo)注。中間附著的人力成本和硬件成本都極高,初始收集的數(shù)據(jù)總量到最后可用的數(shù)據(jù)量可能只有70%。相比于算力,數(shù)據(jù)的稀缺性更加突出。尤其是在中文語料方面,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集中,中文語料的占比僅為1.3%。這顯示出中文數(shù)據(jù)市場在全球范圍內(nèi)的弱勢地位。
為了解決數(shù)據(jù)荒危機(jī),一些企業(yè)開始探索新的解決方案。合成數(shù)據(jù)正成為生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路。7月25日深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”這是一個(gè)積極的信號(hào)。這個(gè)聯(lián)盟旨在匯集多模態(tài)的訓(xùn)練數(shù)據(jù)為數(shù)據(jù)交易增加合成數(shù)據(jù)、標(biāo)注數(shù)據(jù)、模型參數(shù)等新專區(qū)和新品類。這無疑為緩解數(shù)據(jù)荒危機(jī)開辟了新的可能。
合成數(shù)據(jù)引領(lǐng)AI訓(xùn)練新紀(jì)元
隨著AI模型的不斷擴(kuò)大和復(fù)雜化,對(duì)高質(zhì)量數(shù)據(jù)的需求也日益迫切,引發(fā)了一場數(shù)據(jù)荒危機(jī)。在這樣的背景下,合成數(shù)據(jù)應(yīng)運(yùn)而生,成為了解決數(shù)據(jù)短缺問題的新路徑。
所謂合成數(shù)據(jù),即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù)。這些數(shù)據(jù)并不直接對(duì)應(yīng)現(xiàn)實(shí)世界的實(shí)體,但卻能準(zhǔn)確反映真實(shí)數(shù)據(jù)的特點(diǎn)和規(guī)律。它們是通過將多個(gè)真實(shí)數(shù)據(jù)的特點(diǎn)打散、重新組合形成的全新數(shù)據(jù)個(gè)體。因此,雖然合成數(shù)據(jù)并不直接等于真實(shí)數(shù)據(jù),卻具有極高的訓(xùn)練價(jià)值。
尤其在自動(dòng)駕駛等領(lǐng)域,合成數(shù)據(jù)展現(xiàn)出了巨大的應(yīng)用潛力。因?yàn)樵趯?shí)際應(yīng)用中,要讓自動(dòng)駕駛汽車通過實(shí)際道路測試來窮盡所有可能的駕駛場景是不現(xiàn)實(shí)的。這時(shí),大量的合成數(shù)據(jù)就可以用來模擬各種駕駛場景,從而提高自動(dòng)駕駛算法的魯棒性。

另一方面,對(duì)于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,合成數(shù)據(jù)也能在保護(hù)隱私的同時(shí),提升模型的精準(zhǔn)度。比如在金融領(lǐng)域,訓(xùn)練量化交易模型時(shí),合成數(shù)據(jù)可以在不提供敏感歷史交易信息的前提下,提升模型的獲利能力。在藥物研發(fā)方面,通過合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓(xùn)練相關(guān)模型,加速新藥的研發(fā)過程,發(fā)現(xiàn)潛在的治療方法。

值得一提的是,合成數(shù)據(jù)的出現(xiàn)還解決了現(xiàn)代機(jī)器學(xué)習(xí)中一個(gè)笨拙、成本高昂的問題——數(shù)據(jù)標(biāo)記。合成數(shù)據(jù)不需要手動(dòng)標(biāo)記,自動(dòng)帶有完美的數(shù)據(jù)標(biāo)簽,這無疑極大地提高了數(shù)據(jù)利用的效率。
眼下,合成數(shù)據(jù)已經(jīng)成為AI產(chǎn)業(yè)的新熱點(diǎn)。國外的主流科技公司如英偉達(dá)、亞馬遜、微軟等紛紛布局合成數(shù)據(jù)技術(shù)。在國內(nèi),騰訊、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭也在合成數(shù)據(jù)領(lǐng)域取得了顯著進(jìn)展。
數(shù)據(jù)永動(dòng)機(jī)的“希望與困境”
隨著技術(shù)的不斷進(jìn)步,合成數(shù)據(jù)似乎為我們揭示了一個(gè)“數(shù)據(jù)永動(dòng)機(jī)”的美夢。它仿佛一臺(tái)永不停歇的機(jī)器,不斷產(chǎn)生著新的數(shù)據(jù),為眾多領(lǐng)域帶來了無限的可能。合成數(shù)據(jù)不僅能幫助解決數(shù)據(jù)稀缺的問題,還能為那些因數(shù)據(jù)有限而受限制的研究領(lǐng)域提供新的契機(jī)。
以基因組數(shù)據(jù)為例,這一領(lǐng)域長久以來受限于數(shù)據(jù)的可用性和隱私法規(guī)。然而,通過與初創(chuàng)公司合作,利用合成數(shù)據(jù)技術(shù),基因測序公司如今能夠復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號(hào),同時(shí)避免隱私問題。這樣的突破無疑為基因研究開辟了新的路徑,幫助我們更深入地探索生命的奧秘。
此外,合成數(shù)據(jù)的潛力遠(yuǎn)不止于此。無論是計(jì)算機(jī)視覺、機(jī)器人技術(shù)、物理安全,還是地理空間圖像、制造、生物醫(yī)藥等領(lǐng)域,合成數(shù)據(jù)都為實(shí)現(xiàn)“大量數(shù)據(jù)出奇跡”提供了新的解決方案。它甚至可能帶來數(shù)據(jù)平權(quán)的新時(shí)代,使得高質(zhì)量的訓(xùn)練數(shù)據(jù)更易于獲取和負(fù)擔(dān)得起,從而削弱了專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的地位。

然而,正如每枚硬幣都有兩面,合成數(shù)據(jù)的美夢也伴隨著困境。一方面,有研究表明,使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練可能導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,并最終走向模型崩潰。這種崩潰可能會(huì)引發(fā)基于性別、種族或其他敏感屬性的歧視問題,特別是當(dāng)AI學(xué)會(huì)只生成某一特定種族的數(shù)據(jù)時(shí),可能會(huì)忘記其他種族的存在。
另一方面,合成數(shù)據(jù)的泛濫也可能導(dǎo)致真實(shí)數(shù)據(jù)難以尋找。當(dāng)真實(shí)與虛擬的邊界變得模糊時(shí),人們可能難以分辨自己究竟是活在真實(shí)世界還是虛擬世界中。這種邊界的消失不僅是一個(gè)技術(shù)問題,更是一個(gè)涉及人類認(rèn)知、倫理和社會(huì)秩序的深刻問題。因此,在欣賞合成數(shù)據(jù)帶來的巨大潛力的同時(shí),我們也必須警惕其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)。為確保合成數(shù)據(jù)的健康發(fā)展,需要制定相關(guān)法規(guī)和技術(shù)標(biāo)準(zhǔn),加強(qiáng)監(jiān)管和倫理指導(dǎo),確保其在推動(dòng)人工智能進(jìn)步的同時(shí),不會(huì)對(duì)人類社會(huì)和個(gè)人權(quán)益造成不良影響。同時(shí),研究者和開發(fā)者也應(yīng)當(dāng)持續(xù)關(guān)注合成數(shù)據(jù)的潛在問題,探索更加穩(wěn)健、可靠的技術(shù)方案,為構(gòu)建更加和諧、可持續(xù)的數(shù)據(jù)驅(qū)動(dòng)世界貢獻(xiàn)力量。