99久久精品一区二区三区深爱网-99久久久国产精品观看-日韩最新激情在线观看-久久伊人八月婷婷综合激情-熟女人妻区二区三区-男人的天堂av天堂-国内精品久久久久免费-日韩欧美一区二区三区三州-国产一区二区三久久,日韩不卡高清av影院,69久久99精品久久久久婷婷,内射 极品 自拍

首頁 媒體中心智谷動(dòng)態(tài)

眾志電子·數(shù)據(jù)頭條:數(shù)據(jù)荒危機(jī)迫近,AI產(chǎn)業(yè)面臨巨大挑戰(zhàn)

2023-11-09

今日要聞

數(shù)據(jù)荒危機(jī)迫近,AI產(chǎn)業(yè)面臨巨大挑戰(zhàn)

近日,研究機(jī)構(gòu)Epoch發(fā)布了一份令人震驚的報(bào)告,指出機(jī)器學(xué)習(xí)數(shù)據(jù)集可能會(huì)在2026年前耗盡所有“高質(zhì)量語言數(shù)據(jù)”。而低質(zhì)量的語言數(shù)據(jù)和圖像數(shù)據(jù)的存量也將分別在2030年至2050年、2030年至2060年枯竭。AI產(chǎn)業(yè)迅猛發(fā)展,數(shù)據(jù)荒已經(jīng)成為一個(gè)迫近的危機(jī),讓整個(gè)產(chǎn)業(yè)圈感到壓力倍增。


AI機(jī)器視覺


隨著數(shù)十億參數(shù)的起步和TB為單位的數(shù)據(jù)集的喂養(yǎng),AI模型的競爭已經(jīng)進(jìn)入白熱化階段。然而,這種競爭的背后卻是以燃盡數(shù)據(jù)為代價(jià)的。當(dāng)數(shù)據(jù)荒變成直觀的倒計(jì)時(shí)時(shí),整個(gè)產(chǎn)業(yè)圈才開始真正感受到這種危機(jī)的嚴(yán)重性。


在這種背景下,高質(zhì)量數(shù)據(jù)變得更加緊缺。那些急需數(shù)據(jù)的AI公司們開始感受到數(shù)據(jù)荒危機(jī)的切身之痛。繼算力缺口后,數(shù)據(jù)成為最緊俏的資源,數(shù)據(jù)采集的價(jià)格也水漲船高。以Reddit API為例,自2008年以來一直以免費(fèi)的方式開放給第三方,然而近期卻通知開發(fā)者將從7月1日開始對(duì)數(shù)據(jù)接口進(jìn)行收費(fèi)。這無疑給開發(fā)者增加了巨大的經(jīng)濟(jì)壓力。

 

與此同時(shí),推特也在今年3月發(fā)布了API新政策,企業(yè)要抓取推文需要支付每月4萬美元至20萬美元不等的費(fèi)用。這些費(fèi)用對(duì)應(yīng)的數(shù)據(jù)量僅僅是整體推文的0.3%。由此可見,數(shù)據(jù)已經(jīng)變得越來越昂貴,這無疑加劇了業(yè)界對(duì)數(shù)據(jù)荒的擔(dān)憂。


流程編輯界面


面對(duì)數(shù)據(jù)供給的現(xiàn)狀,一些業(yè)內(nèi)人士透露,全球70%的數(shù)據(jù)源仍停留在免費(fèi)公開數(shù)據(jù)集的層面。這與大模型成長所需的理想數(shù)據(jù)環(huán)境相差甚遠(yuǎn)。一些垂類大數(shù)據(jù),如金融、醫(yī)療、科研等行業(yè)型大數(shù)據(jù)尚未得到充分開發(fā)。這些數(shù)據(jù)通常由政府和行業(yè)機(jī)構(gòu)掌握,但由于數(shù)據(jù)安全合規(guī)的考慮,愿意開放共享核心數(shù)據(jù)的機(jī)構(gòu)并不多。

 

從原生的數(shù)據(jù)資源到數(shù)據(jù)資產(chǎn)化再到形成數(shù)據(jù)產(chǎn)品,這個(gè)過程需要經(jīng)歷數(shù)據(jù)的篩選、分級(jí)和標(biāo)注。中間附著的人力成本和硬件成本都極高,初始收集的數(shù)據(jù)總量到最后可用的數(shù)據(jù)量可能只有70%。相比于算力,數(shù)據(jù)的稀缺性更加突出。尤其是在中文語料方面,全球通用的50億大模型數(shù)據(jù)訓(xùn)練集中,中文語料的占比僅為1.3%。這顯示出中文數(shù)據(jù)市場在全球范圍內(nèi)的弱勢地位。


為了解決數(shù)據(jù)荒危機(jī),一些企業(yè)開始探索新的解決方案。合成數(shù)據(jù)正成為生成和豐富AI訓(xùn)練數(shù)據(jù)的第二條路。7月25日深圳數(shù)交所聯(lián)合近50家單位成立“開放算料聯(lián)盟”這是一個(gè)積極的信號(hào)。這個(gè)聯(lián)盟旨在匯集多模態(tài)的訓(xùn)練數(shù)據(jù)為數(shù)據(jù)交易增加合成數(shù)據(jù)、標(biāo)注數(shù)據(jù)、模型參數(shù)等新專區(qū)和新品類。這無疑為緩解數(shù)據(jù)荒危機(jī)開辟了新的可能。


#1

合成數(shù)據(jù)引領(lǐng)AI訓(xùn)練新紀(jì)元


隨著AI模型的不斷擴(kuò)大和復(fù)雜化,對(duì)高質(zhì)量數(shù)據(jù)的需求也日益迫切,引發(fā)了一場數(shù)據(jù)荒危機(jī)。在這樣的背景下,合成數(shù)據(jù)應(yīng)運(yùn)而生,成為了解決數(shù)據(jù)短缺問題的新路徑。


所謂合成數(shù)據(jù),即由計(jì)算機(jī)人工生產(chǎn)的數(shù)據(jù)。這些數(shù)據(jù)并不直接對(duì)應(yīng)現(xiàn)實(shí)世界的實(shí)體,但卻能準(zhǔn)確反映真實(shí)數(shù)據(jù)的特點(diǎn)和規(guī)律。它們是通過將多個(gè)真實(shí)數(shù)據(jù)的特點(diǎn)打散、重新組合形成的全新數(shù)據(jù)個(gè)體。因此,雖然合成數(shù)據(jù)并不直接等于真實(shí)數(shù)據(jù),卻具有極高的訓(xùn)練價(jià)值。

 

尤其在自動(dòng)駕駛等領(lǐng)域,合成數(shù)據(jù)展現(xiàn)出了巨大的應(yīng)用潛力。因?yàn)樵趯?shí)際應(yīng)用中,要讓自動(dòng)駕駛汽車通過實(shí)際道路測試來窮盡所有可能的駕駛場景是不現(xiàn)實(shí)的。這時(shí),大量的合成數(shù)據(jù)就可以用來模擬各種駕駛場景,從而提高自動(dòng)駕駛算法的魯棒性。


無人駕駛


另一方面,對(duì)于數(shù)據(jù)敏感的金融和生物醫(yī)藥領(lǐng)域,合成數(shù)據(jù)也能在保護(hù)隱私的同時(shí),提升模型的精準(zhǔn)度。比如在金融領(lǐng)域,訓(xùn)練量化交易模型時(shí),合成數(shù)據(jù)可以在不提供敏感歷史交易信息的前提下,提升模型的獲利能力。在藥物研發(fā)方面,通過合成數(shù)據(jù)集,可以在不泄露患者隱私信息的條件下訓(xùn)練相關(guān)模型,加速新藥的研發(fā)過程,發(fā)現(xiàn)潛在的治療方法。


實(shí)驗(yàn)室


值得一提的是,合成數(shù)據(jù)的出現(xiàn)還解決了現(xiàn)代機(jī)器學(xué)習(xí)中一個(gè)笨拙、成本高昂的問題——數(shù)據(jù)標(biāo)記。合成數(shù)據(jù)不需要手動(dòng)標(biāo)記,自動(dòng)帶有完美的數(shù)據(jù)標(biāo)簽,這無疑極大地提高了數(shù)據(jù)利用的效率。

 

眼下,合成數(shù)據(jù)已經(jīng)成為AI產(chǎn)業(yè)的新熱點(diǎn)。國外的主流科技公司如英偉達(dá)、亞馬遜、微軟等紛紛布局合成數(shù)據(jù)技術(shù)。在國內(nèi),騰訊、阿里巴巴、百度等互聯(lián)網(wǎng)巨頭也在合成數(shù)據(jù)領(lǐng)域取得了顯著進(jìn)展。


#2

數(shù)據(jù)永動(dòng)機(jī)的“希望與困境”


隨著技術(shù)的不斷進(jìn)步,合成數(shù)據(jù)似乎為我們揭示了一個(gè)“數(shù)據(jù)永動(dòng)機(jī)”的美夢。它仿佛一臺(tái)永不停歇的機(jī)器,不斷產(chǎn)生著新的數(shù)據(jù),為眾多領(lǐng)域帶來了無限的可能。合成數(shù)據(jù)不僅能幫助解決數(shù)據(jù)稀缺的問題,還能為那些因數(shù)據(jù)有限而受限制的研究領(lǐng)域提供新的契機(jī)。


以基因組數(shù)據(jù)為例,這一領(lǐng)域長久以來受限于數(shù)據(jù)的可用性和隱私法規(guī)。然而,通過與初創(chuàng)公司合作,利用合成數(shù)據(jù)技術(shù),基因測序公司如今能夠復(fù)制真實(shí)基因組數(shù)據(jù)集的特征和信號(hào),同時(shí)避免隱私問題。這樣的突破無疑為基因研究開辟了新的路徑,幫助我們更深入地探索生命的奧秘。


此外,合成數(shù)據(jù)的潛力遠(yuǎn)不止于此。無論是計(jì)算機(jī)視覺、機(jī)器人技術(shù)、物理安全,還是地理空間圖像、制造、生物醫(yī)藥等領(lǐng)域,合成數(shù)據(jù)都為實(shí)現(xiàn)“大量數(shù)據(jù)出奇跡”提供了新的解決方案。它甚至可能帶來數(shù)據(jù)平權(quán)的新時(shí)代,使得高質(zhì)量的訓(xùn)練數(shù)據(jù)更易于獲取和負(fù)擔(dān)得起,從而削弱了專有數(shù)據(jù)資產(chǎn)作為持久競爭優(yōu)勢的地位。


數(shù)據(jù)技術(shù)服務(wù)


然而,正如每枚硬幣都有兩面,合成數(shù)據(jù)的美夢也伴隨著困境。一方面,有研究表明,使用AI生成的數(shù)據(jù)進(jìn)行訓(xùn)練可能導(dǎo)致AI模型存在不可逆轉(zhuǎn)的缺陷,并最終走向模型崩潰。這種崩潰可能會(huì)引發(fā)基于性別、種族或其他敏感屬性的歧視問題,特別是當(dāng)AI學(xué)會(huì)只生成某一特定種族的數(shù)據(jù)時(shí),可能會(huì)忘記其他種族的存在。


另一方面,合成數(shù)據(jù)的泛濫也可能導(dǎo)致真實(shí)數(shù)據(jù)難以尋找。當(dāng)真實(shí)與虛擬的邊界變得模糊時(shí),人們可能難以分辨自己究竟是活在真實(shí)世界還是虛擬世界中。這種邊界的消失不僅是一個(gè)技術(shù)問題,更是一個(gè)涉及人類認(rèn)知、倫理和社會(huì)秩序的深刻問題。因此,在欣賞合成數(shù)據(jù)帶來的巨大潛力的同時(shí),我們也必須警惕其可能帶來的風(fēng)險(xiǎn)和挑戰(zhàn)。為確保合成數(shù)據(jù)的健康發(fā)展,需要制定相關(guān)法規(guī)和技術(shù)標(biāo)準(zhǔn),加強(qiáng)監(jiān)管和倫理指導(dǎo),確保其在推動(dòng)人工智能進(jìn)步的同時(shí),不會(huì)對(duì)人類社會(huì)和個(gè)人權(quán)益造成不良影響。同時(shí),研究者和開發(fā)者也應(yīng)當(dāng)持續(xù)關(guān)注合成數(shù)據(jù)的潛在問題,探索更加穩(wěn)健、可靠的技術(shù)方案,為構(gòu)建更加和諧、可持續(xù)的數(shù)據(jù)驅(qū)動(dòng)世界貢獻(xiàn)力量。


亚洲精品日韩中文字幕-国产亚洲精品日韩久久久久久-黑人中出日本人av-中文乱码字幕高清一区二区 国产精品久久久久欧美-91久久久爱一区二区三区-日韩成人中文字幕在线播放-久久天堂人妻久久久精品 | 亚洲制服丝袜不卡中文字幕电影-亚洲国产精品久久久久久69-日韩成人在线观看视频-一道久久爱综合久久爱 | 亚洲人妻熟女少妇-懂色av懂色aⅴ精彩av-中文字幕人成乱码在线观看-久久久久亚洲成人av | 国产成人短视频免费看-日韩美免费在线观看-日本中文字幕有码在线视频-欧美中文字幕久久久 | 婷婷婷婷久久久久-久久久精品日本人妻-久久久久久久精品婷婷-99国产精品视频在线 | 99热尹人综合国语-久久久久久久逼逼-日韩在线观看视频3-91精品国产麻豆国产自产在线夫 | 国产欧美一区二区三区四区视频-国产成人综合av一区二区三区-六月婷婷综合五月天-国产成人自拍视频在线观看 | 91香蕉一区二区三区在线观看-亚洲 欧美 日韩专区-日韩一欧美p片内射中文-国产福利一区二区 | 欧美日韩一区二区三区四区视频-久久久国产熟女一区二区三区-久久99精品亚洲精品-69人妻精品一区二区三区蜜桃九 | 中文字幕人妻久久一区二区三区-亚洲中文精品久久久久久不卡-麻豆成人激情视频在线观看-大香蕉人妻久久 | 国产成人久久一区二区三区-视频一区 视频二区视频三区-最近最好看的中文字幕8-国产精品久久久久久久果冻 | 激情婷婷乱交人妻少妇群欢在线视频-国产av一区二区三区zzzxxx-黄色免费2b网页18岁有声音-久久久999国产一区 | 亚洲天堂 成人av-h色小视频在线观看-成人免费视频国产免费麻豆下-2018中文字幕免费在线 | 亚洲中文字幕一二三-91亚洲国产成人久久精品app-国产一区二区三区在线观看av-久久婷婷综合色拍 | 中文字幕超高级av-巨乳在线观看中文字幕-91精品人妻一区二区三区蜜-嫩草伊人久久久精品少妇av | 巨尻人妻,中文字幕-999久久久精品少妇一区-精品人妻久久久久-久久亚洲精品国产精品紫薇 | 黑人中文字幕av线-亚洲东南亚五级黄色片热插-1024久久久久金沙人妻-av在线中文网新版地址在线 | 日韩视频在线观看中文字幕-99全国免费在线观看视频-丰满少妇人妻久久久久久超肥的女人-丰满熟女一区二区三区91 | 成人精品视频99在线观看免费视频-91高清免费看视频-国产精品久久久久鬼色-欧美日韩日本在线视频 男人的天堂久久91-av一区中文字幕在线观看-国产91熟女被艹嗷嗷叫-五月婷婷丁香激情综合 | 国产av一区二区三区网址-在线免费观看日韩黄片-日本最新中文字幕在线观看-日韩美女电影天堂 | 亚洲精品蜜桃久久久-久久亚洲中文字幕丝袜长腿-久久亚洲国产婷婷-久久久久久久国产一区二区三区 精品国产精品色哟哟-岛国av中文字幕在线观看-久久久999精品国产-乱人视频中文字幕 | 中文字幕乱码久久午-日韩精品午夜资源-91大神在线观看中文字幕-国产成人av网页观看 | 精品少妇人妻一区二区三-久久久久综合日本-日韩激情中文字幕一区二区三区-麻豆精品蜜桃视频网站 日本丰满老熟妇-国产麻豆精品久久久久-99精品久久久久久国-超碰97免费在线精品 | 亚洲另类图片 av-91午夜精品一区二区三区-人妻99在线视频-99久热在线精品视频播放 | 久久久国产精品99-色婷婷激情五月综合网-91成人国产在线观看-日韩美女欧美美女破处视频免费观看 欧美精品手机在线播放-17c久久精品国产亚洲av-久久国产一区二区三区高清视频-久久久久综合亚洲伊人 | 成人在线一区二区三区视频-日韩性感美女伦理片-国产伦精品午夜剧场-中文字幕伊人久久网 | 久久久综合人妻少妇-国产精品久久久久久吹潮天美传媒-国产一区二区综合视频-精品人妻乱码一,二,三区 | 国产中文字幕一区二区视频-人妻中文字幕视频一区二区-69国产精品久久久久久久久-国产日韩欧美中文字幕一区二区三区 | 国产婷婷在线精品综合-久久精品成人免费电影-a亚洲va欧美va国产综合-国产又大又黄又长视频 | 婷婷婷婷久久久久-久久久精品日本人妻-久久久久久久精品婷婷-99国产精品视频在线 | 精品自拍美女视频色-五月开开婷婷综合久久-精品人妻一区二区免费蜜桃视频-六月婷婷不卡的 | 国产一区二区三区四区五区在线视频-内射亚洲少妇逼逼-欧美精品乱码久久久久久,欧-精品人妻少妇一区二区三区不卡 | 久久久综合人妻少妇-国产精品久久久久久吹潮天美传媒-国产一区二区综合视频-精品人妻乱码一,二,三区 | 99re久久这里只有精品-中文字幕熟妇人妻在线-欧美日韩一级一级一级淫片-久久伊人热热精品中文字幕 | 91精品9999视频-亚洲欧美最大色精品网站免费观看-欧美成人综合久久精品-久久久久人妻www | 69人妻精品久久久久88-欧美日韩一级二级片-av国产剧情md精品麻豆-成人福利在线观看免费视频 | 日韩欧美一区二区三区四区五区-欧美另类激情综合-人妻激情自拍中文字幕-国产欧州一区二区 | 2020国产热门学生视频-999中文字幕一区二区三区-免费在线观看日韩av影片-永久91嫩草亚洲精品人人 | 婷婷丁香六月精品网-日韩精品啪啪在线观看-国产午夜精品久久蜜臀-欧美日韩高清大片在线 | 国产精品成人免费视频99-99久久精品免费观看视频-97超碰天天摸天天碰天天爽-日韩免费视频最新 | 99精品视频在线观看网址-一区二区三区在线观看/日韩-久久久最新精品视频-91超碰在线播放视频 |