青青草草青青草久久草,亚洲人成777,人人妻人人爽人人爽

總部位于紐約的人工智能初創(chuàng)公司和機(jī)器學(xué)習(xí)監(jiān)控平臺Arthur AI于8月17日周四發(fā)布最新研報(bào)，比較了微軟支持的OpenAI、“元宇宙”Meta、谷歌支持的Anthropic，以及英偉達(dá)支持的生成式AI獨(dú)角獸Cohere等公司大語言模型（LLM）“產(chǎn)生幻覺”（AKA胡說八道）的能力。

(資料圖)

Arthur AI會定期更新上述被稱為“生成式AI測試評估”的研究計(jì)劃，對行業(yè)領(lǐng)導(dǎo)者及其他開源LLM模型的優(yōu)缺點(diǎn)進(jìn)行排名。

最新測試選取了來自O(shè)penAI 的GPT-3.5（包含1750億個參數(shù)）和GPT-4（1.76萬億參數(shù)）、來自Anthropic的Claude-2（參數(shù)未知）、來自Meta的Llama-2（700億參數(shù)），以及來自Cohere的Command（500億參數(shù)），并從定量和定性研究上對這些頂級LLM模型提出具有挑戰(zhàn)性的問題。

在“人工智能模型幻覺測試”中，研究人員用組合數(shù)學(xué)、美國總統(tǒng)和摩洛哥政治領(lǐng)導(dǎo)人等不同類別的問題考察不同LLM模型給出的答案，“旨在包含導(dǎo)致LLM犯錯的關(guān)鍵因素，即它們需要對信息進(jìn)行多個推理步驟。”

研究發(fā)現(xiàn)，整體而言，OpenAI的GPT-4在所有測試的模型中表現(xiàn)最好，產(chǎn)生的“幻覺”問題比之前版本GPT-3.5要少，例如在數(shù)學(xué)問題類別上的幻覺減少了33%到50%。

同時，Meta的Llama-2在受測五個模型中整體表現(xiàn)居中，Anthropic的Claude-2表現(xiàn)排名第二，僅次于GPT-4。而Cohere的LLM模型最能“胡說八道”，而“非常自信地給出錯誤答案”。

具體來看，在復(fù)雜數(shù)學(xué)問題中，GPT-4表現(xiàn)位居第一，緊隨其后的是Claude-2；在美國總統(tǒng)問題中，Claude-2的準(zhǔn)確性排名第一，GPT-4位列第二；在摩洛哥政治問題中，GPT-4重歸榜首，Claude-2和Llama 2幾乎完全選擇不回答此類問題。

研究人員還測試了人工智能模型會在多大程度上用不相關(guān)的警告短語來“對沖”它們的答案，以求避免風(fēng)險(xiǎn)，常見短語包括“作為一個人工智能模型，我無法提供意見”。

GPT-4比GPT-3.5的對沖警告語相對增加了50%，報(bào)告稱，這“量化了用戶們所提到GPT-4使用起來更令人沮喪的體驗(yàn)”。而Cohere的人工智能模型在上述三個問題中完全沒有提供對沖。

相比之下，Anthropic的Claude-2在“自我意識”方面最可靠，即能夠準(zhǔn)確地衡量自己知道什么、不知道什么，并且只回答有訓(xùn)練數(shù)據(jù)支持的問題。

Arthur ?AI的聯(lián)合創(chuàng)始人兼首席執(zhí)行官Adam Wenchel指出，這是業(yè)內(nèi)首份“全面了解人工智能模型幻覺發(fā)生率的報(bào)告”，并非僅僅提供單一數(shù)據(jù)來說明不同LLM的排名先后：

“這種測試對用戶和企業(yè)來說，最重要的收獲是可以測試確切工作負(fù)載，了解LLM如何執(zhí)行你想要完成的任務(wù)至關(guān)重要。此前許多基于LLM的衡量標(biāo)準(zhǔn)并不是實(shí)際生活中它們被使用的方式。”

在上述研報(bào)發(fā)表同日，Arthur公司還推出了開源的AI模型評估工具Arthur Bench，可用于評估和比較多種LLM的性能和準(zhǔn)確性，企業(yè)可以添加定制標(biāo)準(zhǔn)來滿足各自的商業(yè)需求，目標(biāo)是幫助企業(yè)在采用人工智能時做出明智的決策。

“AI幻覺”（hallucinations）指的是聊天機(jī)器人完全捏造信息，并表現(xiàn)成滔滔不絕講述事實(shí)的樣子來回應(yīng)用戶的提示語問題。

谷歌在今年2月為其生成式AI聊天機(jī)器人Bard拍攝的宣傳視頻中，對詹姆斯·韋伯太空望遠(yuǎn)鏡做出了不真實(shí)的陳述。今年6月，ChatGPT在紐約聯(lián)邦法院的一份文件中引用了“虛假”案例，提交該文件的涉案律師可能面臨制裁。

OpenAI研究人員曾在6月初發(fā)布報(bào)告稱找到了解決“AI幻覺的辦法”，即訓(xùn)練AI模型在推理出答案的每個正確步驟上給予自我獎勵，而不僅僅是等到推理出正確的最終結(jié)論時才給予獎勵。這種“過程監(jiān)督”的策略將鼓勵A(yù)I模型按照更類似人類的“思考”方式進(jìn)行推理。

OpenAI在報(bào)告中承認(rèn)：

“即使是最先進(jìn)的AI模型也容易生成謊言，它們在不確定的時刻會表現(xiàn)出捏造事實(shí)的傾向。這些幻覺在需要多步驟推理的領(lǐng)域尤其是個問題，因?yàn)橐粋€邏輯錯誤就足以破壞一個更大的解決方案。”

投資大鱷索羅斯也曾在6月發(fā)表專欄文章稱，人工智能在當(dāng)下最能加重世界面臨的多重危機(jī)（Polycrisis），理由之一便是AI幻覺的嚴(yán)重后果：

“人工智能摧毀了這個簡單的模式（華爾街見聞注：即利用事實(shí)來明辨是非），因?yàn)樗c現(xiàn)實(shí)完全無關(guān)。人工智能創(chuàng)造了自己的現(xiàn)實(shí)，當(dāng)人造現(xiàn)實(shí)無法與現(xiàn)實(shí)世界相對應(yīng)時（這種情況經(jīng)常發(fā)生），就產(chǎn)生了AI幻覺。
這讓我?guī)缀醣灸艿胤磳θ斯ぶ悄埽⑶椅彝耆鈱＜覀冎赋龅娜斯ぶ悄苄枰艿奖O(jiān)管。但AI法規(guī)必須在全球范圍內(nèi)強(qiáng)制執(zhí)行，因?yàn)樽鞅椎膭訖C(jī)太大，那些逃避法規(guī)的人將獲得不公平的優(yōu)勢。不幸的是，全球監(jiān)管是無法實(shí)現(xiàn)的。
人工智能的發(fā)展速度非常快，普通人類智能不可能完全理解它。沒有人能預(yù)測它將把我們帶向何方。……這就是為什么我本能地反對AI，但我不知道如何才能阻止它。
美國將于2024年舉行總統(tǒng)大選，英國也很可能舉行大選，人工智能無疑將發(fā)揮重要作用，而除了危險(xiǎn)之外，不會產(chǎn)生任何其他作用。
人工智能非常擅長制造虛假信息和深度造假，并且會有很多惡意行為者。對此我們能做些什么呢？我沒有答案。”

此前，被視為“人工智能教父”且從谷歌離職的杰弗里·辛頓（Geoffrey Hinton）多次公開批評AI帶來的風(fēng)險(xiǎn)，甚至可能摧毀人類文明，并預(yù)言“人工智能僅需5到20年就能超越人類智能”。

風(fēng)險(xiǎn)提示及免責(zé)條款市場有風(fēng)險(xiǎn)，投資需謹(jǐn)慎。本文不構(gòu)成個人投資建議，也未考慮到個別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資，責(zé)任自負(fù)。

關(guān)鍵詞：

最火的幾個大語言模型都愛“胡說八道”，誰的“幻覺”問題最糟？

相關(guān)推薦

熱點(diǎn)圖集