久久色播_色综合久久久久久久久久久_欧美.com_97中文在线_天堂在线资源库_久久成人视屏

okx

大模型不是一躍而起的

時(shí)間:2023-07-09|瀏覽:255

大模型不是一躍而起的

大模型發(fā)展的前期被稱(chēng)為預(yù)訓(xùn)練模型,預(yù)訓(xùn)練技術(shù)的主要思想是遷移學(xué)習(xí)。當(dāng)目標(biāo)場(chǎng)景的數(shù)據(jù)不足時(shí),首先在數(shù)據(jù)量龐大的公開(kāi)數(shù)據(jù)集上訓(xùn)練模型,然后將其遷移到目標(biāo)場(chǎng)景中,通過(guò)目標(biāo)場(chǎng)景中的小數(shù)據(jù)集進(jìn)行微調(diào) ,使模型達(dá)到需要的性能 。在這一過(guò)程中,這種在公開(kāi)數(shù)據(jù)集訓(xùn)練過(guò)的深層網(wǎng)絡(luò)模型,被稱(chēng)為“預(yù)訓(xùn)練模型”。使用預(yù)訓(xùn)練模型很大程度上降低下游任務(wù)模型對(duì)標(biāo)注數(shù)據(jù)數(shù)量的要求,從而可以很好地處理一些難以獲得大量標(biāo)注數(shù)據(jù)的新場(chǎng)景。

2018年出現(xiàn)的大規(guī)模自監(jiān)督(self-supervised)神經(jīng)網(wǎng)絡(luò)是真正具有革命性的。這類(lèi)模型的精髓是從自然語(yǔ)言句子中創(chuàng)造出一些預(yù)測(cè)任務(wù)來(lái),比如預(yù)測(cè)下一個(gè)詞或者預(yù)測(cè)被掩碼(遮擋)詞或短語(yǔ)。這時(shí),大量高質(zhì)量文本語(yǔ)料就意味著自動(dòng)獲得了海量的標(biāo)注數(shù)據(jù)。讓模型從自己的預(yù)測(cè)錯(cuò)誤中學(xué)習(xí)10億+次之后,它就慢慢積累很多語(yǔ)言和世界知識(shí),這讓模型在問(wèn)答或者文本分類(lèi)等更有意義的任務(wù)中也取得好的效果。沒(méi)錯(cuò),說(shuō)的就是BERT 和GPT-3之類(lèi)的大規(guī)模預(yù)訓(xùn)練語(yǔ)言模型,也就是我們說(shuō)的大模型


2.5 為什么大模型有革命性意義?

突破現(xiàn)有模型結(jié)構(gòu)的精度局限

2020年1月,OpenAI發(fā)表論文[3],探討模型效果和模型規(guī)模之間的關(guān)系。

結(jié)論是:模型的表現(xiàn)與模型的規(guī)模之間服從Power Law,即隨著模型規(guī)模指數(shù)級(jí)上升,模型性能實(shí)現(xiàn)線性增長(zhǎng)


2022年8月,Google發(fā)表論文[4],重新探討了模型效果與模型規(guī)模之間的關(guān)系。

結(jié)論是:當(dāng)模型規(guī)模達(dá)到某個(gè)閾值時(shí),模型對(duì)某些問(wèn)題的處理性能呈現(xiàn)快速增長(zhǎng)。作者將這種現(xiàn)象稱(chēng)為Emergent Abilities,即涌現(xiàn)能力。


預(yù)訓(xùn)練大模型+細(xì)分場(chǎng)景微調(diào)更適合長(zhǎng)尾落地

用著名NLP學(xué)者斯坦福大學(xué)的Chris Manning教授[2]的話來(lái)說(shuō),在未標(biāo)注的海量語(yǔ)料上訓(xùn)練大模型可以:

Produce one large pretrained model that can be very easily adapted, via fine-tuning or prompting, to give strong results on all sorts of natural language understanding and generation tasks.

通過(guò)微調(diào)或提示,大規(guī)模預(yù)訓(xùn)練模型可以輕松地適應(yīng)各種自然語(yǔ)言理解和生成任務(wù),并給出非常強(qiáng)大的結(jié)果。

Transformer 架構(gòu)自2018年開(kāi)始統(tǒng)治NLP領(lǐng)域,NLP領(lǐng)域的進(jìn)展迎來(lái)了井噴。為何預(yù)訓(xùn)練的transformer有如此威力?其中最重要的思想是attention,也就是注意力機(jī)制。Attention其實(shí)非常簡(jiǎn)單,就是句子中每個(gè)位置的表征(representation,一般是一個(gè)稠密向量)是通過(guò)其他位置的表征加權(quán)求和而得到。Transformer模型通過(guò)每個(gè)位置的query, key以及value的表征計(jì)算來(lái)預(yù)測(cè)被掩碼位置的單詞,大致過(guò)程如下圖所示,更具體的細(xì)節(jié)這里不再贅述。



2.6 為什么這么簡(jiǎn)單的結(jié)構(gòu)和任務(wù)能取得如此威力?

原因在其通用性。

預(yù)測(cè)下一個(gè)單詞這類(lèi)任務(wù)簡(jiǎn)單且通用,以至于幾乎所有形式的語(yǔ)言學(xué)和世界知識(shí),從句子結(jié)構(gòu)、詞義引申、基本事實(shí)都能幫助這個(gè)任務(wù)取得更好的效果。大模型也在訓(xùn)練過(guò)程中學(xué)到了這些信息,讓單個(gè)模型在接收少量的指令后就能解決各種不同的NLP問(wèn)題。也許,大模型就是“大道至簡(jiǎn)”的最好詮釋。

基于大模型完成多種NLP任務(wù),在2018年之前靠fine-tuning(微調(diào)),也就是在少量針對(duì)任務(wù)構(gòu)建的有監(jiān)督數(shù)據(jù)上繼續(xù)訓(xùn)練模型。后來(lái)則出現(xiàn)了prompt(提示學(xué)習(xí))這種形式,只需要對(duì)任務(wù)用語(yǔ)言描述或者給幾個(gè)例子,模型就能很好的執(zhí)行以前從未訓(xùn)練過(guò)的任務(wù)。

大模型還改變了NLP的范式

傳統(tǒng)的NLP是流水線范式:先做詞法(如分詞、命名實(shí)體識(shí)別)處理,再做句法處理(如自動(dòng)句法分析等),然后再用這些特征進(jìn)行領(lǐng)域任務(wù)(如智能問(wèn)答、情感分析)。這個(gè)范式下,每個(gè)模塊都是由不同模型完成的,并需要在不同標(biāo)注數(shù)據(jù)集上訓(xùn)練。而大模型出現(xiàn)后,就完全代替了流水線模式,比如:

  • 機(jī)器翻譯:用一個(gè)模型同時(shí)搞多語(yǔ)言對(duì)之間的翻譯
  • 智能問(wèn)答:基于LPLM(large pretrained language model)微調(diào)的模型效果明顯提升
  • 其他NLU(natural language understanding)任務(wù)如NER(Named entity recognition)、情感分析也是類(lèi)似

更值得一提的是 NLG (natural language generation),大模型在生成通順文本上取得了革命性突破,對(duì)于這一點(diǎn)玩過(guò)ChatGPT的同學(xué)一定深有體會(huì)。

大模型能在NLP任務(wù)上取得優(yōu)異效果是毋庸置疑的,但我們?nèi)匀挥欣碛蓱岩纱竽P驼娴睦斫庹Z(yǔ)言嗎,還是說(shuō)它們僅僅是鸚鵡學(xué)舌?


2.7 大模型能真正理解人類(lèi)語(yǔ)言嗎?

要討論這個(gè)問(wèn)題,涉及到什么是語(yǔ)義,以及語(yǔ)言理解的本質(zhì)是什么。關(guān)于語(yǔ)義,語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)領(lǐng)域的主流理論是指稱(chēng)語(yǔ)義(denotational semantics),是說(shuō)一個(gè)單詞短語(yǔ)或句子的語(yǔ)義就是它所指代的客觀世界的對(duì)象。與之形成鮮明對(duì)比的是,深度學(xué)習(xí)NLP遵循的分布式語(yǔ)義(distributional semantics),也就是單詞的語(yǔ)義可以由其出現(xiàn)的語(yǔ)境所決定。

Meaning arises from understanding the network of connections between a linguistic form and other things, whether they be objects in the world or other linguistic forms.

意義來(lái)源于理解語(yǔ)言形式與其他事物之間的連接,無(wú)論它們是語(yǔ)言形式還是世界上其他的物體。

引用NLP大佬Manning的原話,用對(duì)語(yǔ)言形式之間的連接來(lái)衡量語(yǔ)義的話,現(xiàn)在的大模型對(duì)語(yǔ)言的理解已經(jīng)做的很好了。但局限性在于,這種理解仍然缺乏世界知識(shí),也需要用其他模態(tài)的感知來(lái)增強(qiáng),畢竟用語(yǔ)言對(duì)圖像和聲音等的描述,遠(yuǎn)不如這些信號(hào)本身來(lái)的直接。(沒(méi)錯(cuò),GPT-4!)

« 上一條| 下一條 »

合作伙伴

在區(qū)塊鏈?zhǔn)澜缰校悄芎霞s不僅是代碼的信任,更是商業(yè)的革命。通過(guò)了解其在供應(yīng)鏈、版權(quán)保護(hù)等領(lǐng)域的應(yīng)用,您將真正體驗(yàn)到智能合約的無(wú)限可能性
區(qū)塊鏈?zhǔn)澜鏕xPiKaQiu.com ?2020-2024版權(quán)所有 桂ICP備16002597號(hào)-2
主站蜘蛛池模板: 午夜精品久久久久久久久久久 | 欧美成人精品一区二区 | 国产一区二区免费 | 国产免费福利 | 成人久久久久 | 一区二区高清在线 | 一区二区三区久久 | 亚洲精品成人 | 免费a在线看 | 午夜性视频 | 国产精品国产精品国产专区不片 | a级欧美片 | 欧美精品性做久久久久久 | 中文字幕av一区二区三区 | 91精品一区二区三区久久久久久 | 嫩草国产 | 网友自拍第一页 | 成年人免费在线观看 | 亚洲精品乱码久久久久久麻豆不卡 | 日本精品视频一区二区三区四区 | 一集黄色大片 | 日本久久中文字幕 | 国产精品美女一区二区三区 | www.日韩av | 天堂成人国产精品一区 | 午夜一区二区三区视频 | 亚洲视频在线观看免费视频 | 成人欧美一区二区三区黑人孕妇 | 一区二区三区在线电影 | 国产精品久久久久久久久久大牛 | 久久久久久久久久一区二区三区 | 成人精品一区二区三区校园激情 | 国产精品久久一区二区三区不卡 | 国产视频在线一区二区 | 亚洲精品一区二区三区中文字幕 | 成人免费淫片aa视频免费 | 亚洲精品黄 | 成人免费视 | 日韩欧美精品一区二区三区 | 成人h动漫精品一区二区器材 | 日韩欧美在线观看视频 |