久久色播_色综合久久久久久久久久久_欧美.com_97中文在线_天堂在线资源库_久久成人视屏

okx

AI學習數據量將在2026年耗盡

時間:2023-04-17|瀏覽:290

蕭簫 發自 凹非寺 量子位 | 公眾號 QbitAI

AI胃口太大,人類的語料數據已經不夠吃了。來自Epoch團隊的一篇新論文表明,AI不出5年就會把所有高質量語料用光。

要知道,這可是把人類語言數據增長率考慮在內預測出的結果,換而言之,這幾年人類新寫的論文、新編的代碼,哪怕全都喂給AI也不夠。照這么發展下去,依賴高質量數據提升水平的語言大模型,很快就要迎來瓶頸。

已經有網友坐不住了:這太荒謬了。人類無需閱讀互聯網所有內容,就能高效訓練自己。我們需要更好的模型,而不是更多的數據。還有網友調侃,都這樣了不如讓AI吃自己吐的東西:可以把AI自己生成的文本當成低質量數據喂給AI。

讓我們來看看,人類剩余的數據還有多少?

論文主要針對文本和圖像兩類數據進行了預測。首先是文本數據。數據的質量通常有好有壞,作者們根據現有大模型采用的數據類型、以及其他數據,將可用文本數據分成了低質量和高質量兩部分。高質量語料,參考了Pile、PaLM和MassiveText等大型語言模型所用的訓練數據集,包括維基百科、新聞、GitHub上的代碼、出版書籍等。低質量語料,則來源于Reddit等社交媒體上的推文、以及非官方創作的同人小說(fanfic)等。

根據統計,高質量語言數據存量只剩下約4.6×10^12~1.7×10^13個單詞,相比當前最大的文本數據集大了不到一個數量級。結合增長率,論文預測高質量文本數據會在2023~2027年間被AI耗盡,預估節點在2026年左右。看起來實在有點快……

當然,可以再加上低質量文本數據來救急。根據統計,目前文本數據整體存量還剩下7×10^13~7×10^16個單詞,比最大的數據集大1.5~4.5個數量級。如果對數據質量要求不高,那么AI會在2030年~2050年之間才用完所有文本數據。

再看看圖像數據,這里論文沒有區分圖像質量。目前最大的圖像數據集擁有3×10^9張圖片。據統計,目前圖片總量約有8.11×10^12~2.3×10^13張,比最大的圖像數據集大出3~4個數量級。論文預測AI會在2030~2070年間用完這些圖片。

顯然,大語言模型比圖像模型面臨著更緊張的“缺數據”情況。那么這一結論是如何得出的呢?論文從兩個角度,分別對文本圖像數據生成效率、以及訓練數據集增長情況進行了分析。值得注意的是,論文統計的不都是標注數據,考慮到無監督學習比較火熱,把未標注數據也算進去了。

以文本數據為例,大部分數據會從社交平臺、博客和論壇生成。為了估計文本數據生成速度,有三個因素需要考慮,即總人口、互聯網普及率和互聯網用戶平均生成數據量。例如,這是根據歷史人口數據和互聯網用戶數量,估計得到的未來人口和互聯網用戶增長趨勢。再結合用戶生成的平均數據量,就能計算出生成數據的速率。(由于地理和時間變化復雜,論文簡化了用戶平均生成數據量計算方法)

根據這一方法,計算得出語言數據增長率在7%左右,然而這一增長率會隨著時間延長逐漸下降。預計到2100年,我們的語言數據增長率會降低到1%。同樣類似的方法分析圖像數據,當前增長率在8%左右,然而到2100年圖像數據增長率同樣會放緩至1%左右。

論文認為,如果數據增長率沒有大幅提高、或是出現新的數據來源,無論是靠高質量數據訓練的圖像還是文本大模型,都可能在某個階段迎來瓶頸期。

對此有網友調侃,未來或許會有像科幻故事情節一樣的事情發生:人類為了訓練AI,啟動大型文本生成項目,大家為了AI拼命寫東西。他稱之為一種“對AI的教育”:我們每年給AI送14萬到260萬單詞量的文本數據,聽起來似乎比《黑客帝國》中人類當電池要更酷?

你覺得呢?

論文地址:https://arxiv.org/abs/2211.04325 參考鏈接:https://twitter.com/emollick/status/1605756428941246466

聲明:內容來源于互聯網,不代表本站觀點。

熱點:數據

« 上一條| 下一條 »
區塊鏈交流群
數藏交流群

合作伙伴

玩合約 黃金行情 幣圈交流群 裝修裝飾網 谷歌留痕代發 茶百科 兼職信息網 谷歌留痕代發Google留痕技術 百悅米 百科書庫 幣圈官網 媽媽知道 幣圈論壇 皮卡丘資訊 趣玩幣 借春秋 幣圈ICO官網 寶寶起名 玩票票財經 谷歌留痕 元宇宙Web 培訓資訊網 秒懂域名 天天財富 談股票 旅游資訊網 金色幣圈 去玩唄SPA 周公解夢 愛網站 代特幣圈 美白沒斑啦 減肥瘦身吧 今日黃金 谷歌seo網站優化 聚幣網 非小號行情 借春秋財經
在區塊鏈世界中,智能合約不僅是代碼的信任,更是商業的革命。通過了解其在供應鏈、版權保護等領域的應用,您將真正體驗到智能合約的無限可能性
區塊鏈世界GxPiKaQiu.com ?2020-2024版權所有 桂ICP備16002597號-2
主站蜘蛛池模板: a黄色| 精品av久久久久电影 | 性生活毛片 | 夜夜嗨av色综合久久久综合网 | 99久久一区二区三区 | 精品一区一区三区新区乱码 | 国产免费黄网站 | 欧美在线色 | 性一交一乱一区二区洋洋av | 经典三级在线播放 | 欧洲视频一区 | 一区二区视频在线 | 日韩精品一区二区在线 | 久久精品国产一区 | 激情欧美日韩 | 一区二区三区 | 日韩毛片在线观看 | 欧美成人第一页 | 免费的三级网站 | 欧美videosdesex高潮| 大黑人交xxxxxhd性爽 | 十八岁网站| 韩国三级hd中文字幕 | 国产精品久久久久久久久久三级 | 日韩中文在线视频 | 成人精品毛片 | 99精品在线 | 亚洲精品免费观看 | 国产精品国产三级国产aⅴ中文 | 黄色小视频在线观看 | 国产传媒一区二区三区 | 欧美成人播放 | 国产日韩中文字幕 | 中文字幕在线观看日本 | 粉嫩久久99精品久久久久久夜 | 国产在线精品91国自产拍免费 | 亚洲视频在线免费 | 美女天天干 | 亚洲精品h| 99精品国产aⅴ | 精品3p|