一、GPT-4實(shí)現(xiàn)了以下幾個(gè)飛躍式提升
GPT-4相比于之前的模型,實(shí)現(xiàn)了多個(gè)方面的提升。其中包括強(qiáng)大的識(shí)圖能力、2.5萬字的文字輸入限制、回答準(zhǔn)確性的顯著提高、以及能夠生成歌詞和創(chuàng)意文本,實(shí)現(xiàn)風(fēng)格變化。
根據(jù)OpenAI官方的介紹,GPT-4是一個(gè)超大的多模態(tài)模型,它的輸入可以是文字(上限2.5萬字),還可以是圖像。甚至只需要簡單在紙上畫一個(gè)網(wǎng)站的草稿圖或拍一張照片上傳給GPT-4,它就可以立馬生成網(wǎng)站的HTML代碼。
GPT-4可以接受文本和圖像形式的prompt,新能力與純文本設(shè)置并行,允許用戶指定任何視覺或語言任務(wù)。它在人類給定由散布的文本和圖像組成的輸入的情況下生成相應(yīng)的文本輸出(自然語言、代碼等)。在一系列領(lǐng)域——包括帶有文本和照片的文檔、圖表或屏幕截圖上——GPT-4展示了與純文本輸入類似的功能。此外,它還可以通過為純文本語言模型開發(fā)的測試時(shí)間技術(shù)得到增強(qiáng),包括少樣本和思維鏈prompt。
二、GPT-4強(qiáng)大的推理和語言能力體現(xiàn)
GPT-4在各種專業(yè)測試和學(xué)術(shù)基準(zhǔn)上的表現(xiàn)與人類水平相當(dāng)。例如,它通過了模擬律師考試,且分?jǐn)?shù)在應(yīng)試者的前10% 左右;相比之下,GPT-3.5的得分在倒數(shù)10%左右;做美國高考SAT試題,GPT-4也在閱讀寫作中拿下710分高分、數(shù)學(xué)700分(滿分800)。
許多現(xiàn)有的機(jī)器學(xué)習(xí)基準(zhǔn)測試都是用英語編寫的。為了初步了解GPT-4在其他語言上的能力,研究團(tuán)隊(duì)使用Azure Translate將MMLU 基準(zhǔn)——一套涵蓋57 個(gè)主題的14000 個(gè)多項(xiàng)選擇題——翻譯成多種語言。在測試的26種語言的24種中,GPT-4優(yōu)于GPT-3.5 和其他大語言模型(Chinchilla、PaLM)的英語語言性能。
三、GPT-4在用戶意圖理解力的提升
GPT-4在用戶意圖理解方面比以前的模型有了大幅改進(jìn)。
在一個(gè)由5,214個(gè)提示組成的數(shù)據(jù)集上,這些提示提交給了ChatGPT 和OpenAI API,與GPT-3.5生成的結(jié)果相比,GPT-4生成的結(jié)果在70.2%的提示上被優(yōu)先選擇。GPT-4還可以理解圖表中數(shù)據(jù)的含義,并做進(jìn)一步計(jì)算。用戶可以直接把論文截圖發(fā)給它,GPT-4可以按像素處理其中的文字和圖片,并給出對整篇論文的總結(jié)摘要。在修改代碼方面,出現(xiàn)問題啥也不用想,直接把1萬字的程序文檔一股腦扔給GPT-4就行。格式也不用管,你只需要Ctrl+A、Ctrl+C、Ctrl+V。此外,OpenAI還在為機(jī)器學(xué)習(xí)模型設(shè)計(jì)的傳統(tǒng)基準(zhǔn)上評估了GPT-4。GPT-4大大優(yōu)于現(xiàn)有的大型語言模型,以及大多數(shù)SOTA模型。