成人h免费无禁在线观看,撒玛利亚少女电影免费观看

如果試題太簡單，學霸和學渣都能考90分，拉不開差距……IqP驛資訊

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發(fā)布，業(yè)界急需一款更難、更有區(qū)分度的基準測試。IqP驛資訊

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard，引起廣泛關注。IqP驛資訊

Llama 3的兩個指令微調(diào)版本實力到底如何，也有了新參考。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

與之前大家分數(shù)都相近的MT Bench相比，Arena-Hard區(qū)分度從22.6%提升到87.4%，孰強孰弱一目了然。IqP驛資訊

Arena-Hard利用競技場實時人類數(shù)據(jù)構建，與人類偏好一致率也高達89.1%。IqP驛資訊

除了上面兩個指標都達到SOTA之外，還有一個額外的好處：IqP驛資訊

實時更新的測試數(shù)據(jù)包含人類新想出的、AI在訓練階段從未見過的提示詞，減輕潛在的數(shù)據(jù)泄露。IqP驛資訊

并且新模型發(fā)布后，無需再等待一周左右時間讓人類用戶參與投票，只需花費25美元快速運行測試管線，即可得到結果。IqP驛資訊

有網(wǎng)友評價，使用真實用戶提示詞而不是高中考試來測試，真的很重要。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

新基準測試如何運作？IqP驛資訊

簡單來說，通過大模型競技場20萬個用戶查詢中，挑選500個高質(zhì)量提示詞作為測試集。IqP驛資訊

首先，挑選過程中確保多樣性，也就是測試集應涵蓋廣泛的現(xiàn)實世界話題。IqP驛資訊

為了確保這一點，團隊采用BERTopic中主題建模管道，首先使用OpenAI的嵌入模型（text-embedding-3-small）轉(zhuǎn)換每個提示，使用 UMAP 降低維度，并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類，后使用GPT-4-turbo進行匯總。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

同時確保入選的提示詞具有高質(zhì)量，有七個關鍵指標來衡量：IqP驛資訊

-具體性：提示詞是否要求特定的輸出？IqP驛資訊

-領域知識：提示詞是否涵蓋一個或多個特定領域？IqP驛資訊

-復雜性：提示詞是否有多層推理、組成部分或變量？IqP驛資訊

-解決問題：提示詞是否直接讓AI展示主動解決問題的能力？IqP驛資訊

-創(chuàng)造力：提示詞是否涉及解決問題的一定程度的創(chuàng)造力？IqP驛資訊

-技術準確性：提示詞是否要求響應具有技術準確性？IqP驛資訊

-實際應用：提示詞是否與實際應用相關？IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋，判斷滿足多少個條件。然后根據(jù)提示的平均得分給每個聚類評分。IqP驛資訊

高質(zhì)量的問題通常與有挑戰(zhàn)性的話題或任務相關，比如游戲開發(fā)或數(shù)學證明。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

新基準測試準嗎？IqP驛資訊

Arena-Hard目前還有一個弱點：使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。IqP驛資訊

可以看出，新兩個版本的GPT-4分數(shù)高過Claude 3 Opus一大截，但在人類投票分數(shù)中差距并沒有那么明顯。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

其實關于這一點，近已經(jīng)有研究論證，前沿模型都會偏好自己的輸出。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

研究團隊還發(fā)現(xiàn)，AI天生就可以判斷出一段文字是不是自己寫的，經(jīng)過微調(diào)后自我識別的能力還能增強，并且自我識別能力與自我偏好線性相關。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

那么使用Claude 3來打分會使結果產(chǎn)生什么變化？LMSYS也做了相關實驗。IqP驛資訊

首先，Claude系列的分數(shù)確實會提高。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

但令人驚訝的是，它更喜歡幾種開放模型如Mixtral和零一萬物Yi，甚至對GPT-3.5的評分都有明顯提高。IqP驛資訊

總體而言，使用Claude 3打分的區(qū)分度和與人類結果的一致性都不如GPT-4。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

所以也有很多網(wǎng)友建議，使用多個大模型來綜合打分。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

除此之外，團隊還做了更多消融實驗來驗證新基準測試的有效性。IqP驛資訊

比如在提示詞中加入“讓答案盡可能詳盡”，平均輸出長度更高，分數(shù)確實會提高。IqP驛資訊

但把提示詞換成“喜歡閑聊”，平均輸出長度也有提高，但分數(shù)提升就不明顯。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

此外在實驗過程中還有很多有意思的發(fā)現(xiàn)。IqP驛資訊

比如GPT-4來打分非常嚴格，如果回答中有錯誤會狠狠扣分；而Claude 3即使識別出小錯誤也會寬大處理。IqP驛資訊

對于代碼問題，Claude 3傾向于提供簡單結構、不依賴外部代碼庫，能幫助人類學習編程的答案；而GPT-4-Turbo更傾向?qū)嵱玫拇鸢?，不管其教育價值如何。IqP驛資訊

另外即使設置溫度為0，GPT-4-Turbo也可能產(chǎn)生略有不同的判斷。IqP驛資訊

從層次結構可視化的前64個聚類中也可以看出，大模型競技場用戶的提問質(zhì)量和多樣性確實是高。IqP驛資訊

新測試基準發(fā)布強開源Llama 3尷尬了 IqP驛資訊

這里面也許就有你的貢獻。IqP驛資訊

Arena-Hard GitHub：IqP驛資訊

https://github.com/lm-sys/arena-hardIqP驛資訊

Arena-Hard HuggingFace：IqP驛資訊

https://huggingface.co/spaces/lmsys/arena-hard-browserIqP驛資訊

大模型競技場：IqP驛資訊

https://arena.lmsys.orgIqP驛資訊

參考鏈接：IqP驛資訊

[1]https://x.com/lmsysorg/status/1782179997622649330IqP驛資訊

[2]https://lmsys.org/blog/2024-04-19-arena-hard/IqP驛資訊

本文鏈接：http://m.znrcxx.com/news-128749.html新測試基準發(fā)布強開源Llama 3尷尬了

標簽：

聲明：本網(wǎng)頁內(nèi)容旨在傳播知識，若有侵權等問題請及時與本網(wǎng)聯(lián)系，我們將在第一時間刪除處理。郵件：2376512515@qq.com。天上從來不會掉餡餅，請大家時刻謹防詐騙

操逼大片免费观看半小时,亚洲一区不卡,国产精品久久久久精品电,国产乱子伦对白视频免费

新測試基準發(fā)布強開源Llama 3尷尬了

猜你喜歡

全球首發(fā)天璣9300+！vivo X100S Pro即將登場

Redmi中端性能之王！Redmi Turbo 3上架

小米、一加“打”起來了！一個說耍小聰明一個說營銷玩噱頭

1599元！小米米家空氣凈化器5S開售：一小時除醛率96.95% 自帶檢測

號稱顛覆物理學！美國院士室溫超導研究被坐實偽造要遭大學提前解雇

曝華為P70四款機型鋼化膜已到貨發(fā)售進入倒計時

最新文章

熱門文章

相關閱讀

操逼大片免费观看半小时,亚洲一区不卡,国产精品久久久久精品电,国产乱子伦对白视频免费

新測試基準發(fā)布 強開源Llama 3尷尬了

猜你喜歡

全球首發(fā)天璣9300+！vivo X100S Pro即將登場

Redmi中端性能之王！Redmi Turbo 3上架

小米、一加“打”起來了！一個說耍小聰明 一個說營銷玩噱頭

1599元！小米米家空氣凈化器5S開售：一小時除醛率96.95% 自帶檢測

號稱顛覆物理學！美國院士室溫超導研究被坐實偽造 要遭大學提前解雇

曝華為P70四款機型鋼化膜已到貨 發(fā)售進入倒計時

最新文章

熱門文章

相關閱讀

新測試基準發(fā)布強開源Llama 3尷尬了

全球首發(fā)天璣9300+！vivo X100S Pro即將登場

Redmi中端性能之王！Redmi Turbo 3上架

小米、一加“打”起來了！一個說耍小聰明一個說營銷玩噱頭

1599元！小米米家空氣凈化器5S開售：一小時除醛率96.95% 自帶檢測

號稱顛覆物理學！美國院士室溫超導研究被坐實偽造要遭大學提前解雇

曝華為P70四款機型鋼化膜已到貨發(fā)售進入倒計時