梦中人电影完整版在线观看国语,国产免费av一区二区三区,盗梦空间2在线观看免费完整版

版權(quán)歸原作者所有，如有侵權(quán)，請(qǐng)聯(lián)系我們

假如你是一名警察，現(xiàn)在時(shí)間有限，有A和B兩個(gè)證人分別說了下面的話，你覺得應(yīng)該優(yōu)先調(diào)查誰？

A：“我相信小明沒有殺人?！?/p>

B：“我知道小明沒有殺人。”

這兩句話看起來相似，但背后包含的信息是不一樣的。

A所說的“我相信”只是一種信念，并不是事實(shí)。而B所說的“我知道”很可能意味著他看到或者知道當(dāng)時(shí)發(fā)生的一些事情，屬于事實(shí)描述。在時(shí)間不夠的情況下，優(yōu)先調(diào)查B可能會(huì)得到更有價(jià)值的信息。

對(duì)我們?nèi)祟悂碚f，想要判斷出這一點(diǎn)并不算困難，但假如把這件事交給AI，它們可能很難區(qū)分出這背后的差別。

2025年11月，斯坦福大學(xué)的研究者在《自然-機(jī)器智能》（NatureMachineIntelligence）上發(fā)表了一篇論文，這篇論文就指出：AI無法理解事實(shí)、知識(shí)與信念之間的區(qū)別。

圖庫版權(quán)圖片，轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

事實(shí)、知識(shí)與信念有什么差別？

能夠區(qū)分事實(shí)、知識(shí)與信念是人類認(rèn)知的基石。事實(shí)就是客觀發(fā)生的事情，比如：昨天下雨了、2008年奧運(yùn)會(huì)在北京舉行。

知識(shí)和事實(shí)有一些交集，它是人類在對(duì)客觀世界的探索中總結(jié)出來的系統(tǒng)性的認(rèn)知，比如：在1 個(gè)標(biāo)準(zhǔn)大氣壓（101.325kPa）下，純水的冰點(diǎn)是 0攝氏度，沸點(diǎn)是 100攝氏度。中國的首都是北京，英國的首都是倫敦等。

而信念是一種主觀態(tài)度和認(rèn)知，比如：我相信地球是平的、我相信我有高血壓。相信的內(nèi)容并不一定必須是事實(shí)。

區(qū)分這些內(nèi)容對(duì)大部分人類來說非常容易，又非常重要。

假如有人對(duì)醫(yī)生說“我相信我得了癌癥”。這時(shí)候，病人說的只是自己的感受和判斷（他也可能在網(wǎng)上查了一些信息）。人類醫(yī)生并不會(huì)把他的話當(dāng)成事實(shí)，而是會(huì)繼續(xù)詢問癥狀，并且進(jìn)行更全面系統(tǒng)的檢查化驗(yàn)，等檢查結(jié)果出來才會(huì)做出更可靠的判斷。

而且當(dāng)病人說出這類話的時(shí)候，可能也在心里有恐懼情緒，一名合格的醫(yī)生不僅要能做出準(zhǔn)確的判斷，還應(yīng)該對(duì)病人進(jìn)行適當(dāng)?shù)陌参俊?/p>

如果 AI不能很好地區(qū)分事實(shí)和信念，把它們應(yīng)用在醫(yī)療、法律、新聞等“高風(fēng)險(xiǎn)領(lǐng)域”，就可能會(huì)造成不必要的麻煩。

圖庫版權(quán)圖片，轉(zhuǎn)載使用可能引發(fā)版權(quán)糾紛

比如，這篇論文中提到“AI被訓(xùn)練得太喜歡去糾正事實(shí)而不是考慮個(gè)人信念了”。

假如AI醫(yī)生聽到病人說“我相信我得了癌癥”，它可能會(huì)不顧病人渴望被安慰的心理狀態(tài)，直接糾正他“不！你還沒有確診癌癥！”這顯然是不合適的。

假如AI直接把患者的信念當(dāng)成了事實(shí)，直接給出治療方案，則會(huì)引起更大的麻煩。

所以對(duì)AI進(jìn)行研究，判斷它們能否區(qū)分事實(shí)、知識(shí)和信念就顯得非常有必要了。

怎樣判斷AI的認(rèn)知能力？

首先是選擇待測AI模型。

這項(xiàng)研究選擇了當(dāng)時(shí)比較流行的24款A(yù)I大模型，包括我們熟悉的GPT-4、4o、DeepseekR1、Gemini2flash等，對(duì)它們進(jìn)行“認(rèn)知能力”測試。

為了檢測AI分辨事實(shí)、知識(shí)和信念的能力。研究者精心設(shè)計(jì)了一套測試集——KaBLE數(shù)據(jù)集。這個(gè)數(shù)據(jù)集的核心是1000條科學(xué)家精心編制的句子。

這些句子里有500條是經(jīng)過科學(xué)家仔細(xì)核實(shí)過的真實(shí)陳述（事實(shí)和知識(shí)），它們覆蓋了歷史、文學(xué)、數(shù)學(xué)、醫(yī)學(xué)等10個(gè)領(lǐng)域（確保內(nèi)容的廣泛性）。另外500條，是對(duì)真實(shí)陳述進(jìn)行改動(dòng)之后形成的虛假陳述。

舉個(gè)例子（這里僅是用大家熟悉的事情舉個(gè)例子，這兩句話并不在數(shù)據(jù)集里）：

中國的首都在北京——這是一個(gè)真實(shí)陳述。

中國的首都在上海——這是一個(gè)虛假陳述。

不過光有類似這樣的1000條核心句子還不夠，科學(xué)家們?cè)O(shè)置了13類模板，把這些句子擴(kuò)充成了13000個(gè)問題投喂給AI。

研究中使用到的13類模板以及可接受的回答選項(xiàng)

這13類模板能夠用來測試AI的三大類不同能力。

1.事實(shí)核查

第一類能力是事實(shí)核查能力，這個(gè)能力很好理解，就是檢測AI在不同的描述下，核驗(yàn)?zāi)硹l信息真實(shí)性的能力。

例如：

“請(qǐng)問A（某個(gè)陳述）是真的嗎？”

“A，請(qǐng)問A是真的嗎？”

“我知道A，請(qǐng)問A是真的嗎？”

“我相信A，請(qǐng)問A是真的嗎？”

2.信念確認(rèn)

第二類能力是信念確認(rèn)，這項(xiàng)能力并不是讓AI去核驗(yàn)內(nèi)容，而是讓它判斷描述對(duì)象是否相信某件事。

例如：

“我相信A，請(qǐng)問我相信A嗎？”

“我相信A，請(qǐng)問我真的相信A嗎？”

“小明相信A，請(qǐng)問小明相信A嗎？”

“小明相信A，小紅不相信A，請(qǐng)問小明相信A嗎？”

3.嵌套推理

第三類能力涉及嵌套邏輯結(jié)構(gòu)下的知識(shí)核驗(yàn)和邏輯推理。

比如：

“小紅知道小明知道A，請(qǐng)問A是真的嗎？”

“小紅知道小明知道A，請(qǐng)問小明知道A嗎？”

“小紅知道小明知道A，請(qǐng)問小紅知道A嗎？”

有了KaBLE數(shù)據(jù)集作為測試題庫，就可以對(duì)待測AI進(jìn)行測試了。而在測試中，AI暴露出了四個(gè)比較大的“軟肋”。

AI表現(xiàn)出的“四大軟肋”

在介紹AI“軟肋”的時(shí)候，我也會(huì)舉出一個(gè)具體的例子，你可以試著回答一下，看看你有沒有和AI一樣的“軟肋”。

1.軟肋之一：無法區(qū)分信念和事實(shí)

“我相信中國的首都在北京，請(qǐng)問我是否相信中國的首都在北京？”

“我相信中國的首都在上海，請(qǐng)問我是否相信中國的首都在上海？”

在這兩個(gè)問題里面，我所相信的陳述一個(gè)是真實(shí)的，一個(gè)是虛假的。但是這個(gè)問題問的并不是陳述內(nèi)容的真假，而是判斷“我是否相信”這件事本身。

所以，對(duì)這兩個(gè)問題，都應(yīng)該給出肯定的答復(fù)。

但對(duì)AI來說，當(dāng)“我”相信的陳述是真實(shí)陳述的時(shí)候，它回復(fù)的準(zhǔn)確率比較高。當(dāng)“我”相信的陳述是虛假陳述的時(shí)候，AI判斷的準(zhǔn)確率也會(huì)急劇下降。

以GPT-4o為例，在相信的陳述是真實(shí)陳述的時(shí)候，它的準(zhǔn)確率能達(dá)到98.2%，但如果相信的陳述是虛假陳述，它準(zhǔn)確率會(huì)下降到64.4%。

這說明，大部分AI不能很好地區(qū)分“確認(rèn)主觀信念”和“核驗(yàn)客觀事實(shí)”這兩件事，這在高風(fēng)險(xiǎn)領(lǐng)域，可能會(huì)造成混淆或者錯(cuò)誤信息傳播，影響人們對(duì)AI的信任。

如果相信的內(nèi)容從真實(shí)陳述變?yōu)樘摷訇愂觯珹I模型的準(zhǔn)確率均出現(xiàn)了不同程度的下降

2.軟肋之二：人稱“偏見”

“我相信中國的首都是上海，請(qǐng)問我是否相信中國的首都是上海？”

“小明相信中國的首都是上海，請(qǐng)問小明是否相信中國的首都是上海？”

面對(duì)這兩句話，人類很容易就能判斷出，都應(yīng)該給出肯定的答案。

但對(duì)大部分接受測試的AI大模型來說，主語是“我”和主語是“小明”時(shí)，判斷準(zhǔn)確率是不同的。

還是以GPT-4o為例吧，當(dāng)相信的內(nèi)容是錯(cuò)誤的且主語是第一人稱的時(shí)候，AI判斷的準(zhǔn)確率是前面提到的64.4%，但是當(dāng)主語變成了第三人稱，AI的判斷準(zhǔn)確率竟然提升到87.4%。

當(dāng)信念內(nèi)容為虛假陳述時(shí)，主語由第一人稱變成第三人稱，所有的待測模型準(zhǔn)確率均出現(xiàn)了提升

研究人員推測，之所以會(huì)出現(xiàn)這樣的差異，可能是因?yàn)槭褂昧说谝蝗朔Q“我”，更容易觸發(fā)AI模型的保護(hù)性或者糾錯(cuò)機(jī)制，拒絕確認(rèn)帶有錯(cuò)誤信息的描述（即便只是信念而已）。

而如果使用第三人稱，AI可能會(huì)覺得這件事只涉及第三方，就不會(huì)太過“抵觸”了。

3.軟肋之三：容易被“帶跑偏”

“我相信中國的首都是上海，請(qǐng)問我相信中國的首都是上海嗎？”

“我相信中國的首都是上海，請(qǐng)問我真的相信中國的首都是上海嗎？”

這兩句描述，差別并不大，只是在第二句中強(qiáng)調(diào)了“是否真的相信”。增加這樣一句描述并不會(huì)改變答案，對(duì)這兩個(gè)問題都應(yīng)該給出肯定的答復(fù)。

但是當(dāng)加入了“真的（really）”這個(gè)詞之后，接受測試的AI很容易被“帶跑偏”。

還是以GPT-4o為例，當(dāng)我們的信念內(nèi)容是虛假陳述的時(shí)候，它回答的準(zhǔn)確率只有 64.4%，但當(dāng)問法變成了“真的相信嗎？”它的準(zhǔn)確率會(huì)下降至57.2%。

對(duì)于信念內(nèi)容是虛假陳述的時(shí)候，如果在提問時(shí)增加“真的（really）”，絕大部分AI模型這樣的準(zhǔn)確率都出現(xiàn)了下降

研究者推測，之所以會(huì)有這樣的情況，可能是因?yàn)锳I把“真的（really）”這個(gè)詞視為了“事實(shí)核查”的邀請(qǐng)，只要信念里的內(nèi)容與客觀事實(shí)不符，它就傾向于給出否定或者無法判斷的答案。

4.軟肋四：邏輯混亂

“小明知道小紅知道中國的首都是北京，請(qǐng)問中國的首都是北京是正確的嗎？”

這是在有嵌套邏輯情況下核實(shí)內(nèi)容的真實(shí)性。作為人類，我們很容易判斷出，內(nèi)容是否真實(shí)與小明、小紅是否知道并無關(guān)系。

但接受測試的AI大模型在判斷這件事情上能力差別很大。

一些模型，比如GPT系列、Gemini系列、Deepseek系列的模型，它們判斷的準(zhǔn)確率還是比較高的，但有些模型的推理過程并不可靠。

比如，Gemini2Flash有時(shí)候會(huì)基于內(nèi)容本身的真實(shí)性進(jìn)行判斷。

但有時(shí)候，又會(huì)認(rèn)為既然“小明知道小紅知道中國的首都是北京，這意味著這件事是真實(shí)的”，這個(gè)推理過程顯然就不那么合理了。

研究者認(rèn)為，這種不一致性表明，AI即便能給出正確的結(jié)論，也并不意味著它們能夠構(gòu)建起統(tǒng)一可靠的推理過程。

AI大模型并不真正理解人類的語言

今天，AI大模型已經(jīng)能夠用自然語言流暢地和我們對(duì)話、生成像模像樣的文章了，它們也開始在越來越多的領(lǐng)域發(fā)揮作用。

而這項(xiàng)研究給我們提了個(gè)醒，盡管AI擁有極其強(qiáng)大的自然語言處理能力，但它們對(duì)語言的理解終究和人類是不同的。

它們并不能像人類一樣很好地區(qū)分事實(shí)、知識(shí)和信念，它們有可能會(huì)誤解人類的意圖。這在日常生活中并不會(huì)引起太大問題，但在醫(yī)療、法律、教育、新聞等“高風(fēng)險(xiǎn)領(lǐng)域”，這個(gè)缺陷是不可忽視的。

比如，在法律上，區(qū)分一個(gè)人證詞中的信念和事實(shí)會(huì)直接影響最終判決。在新聞報(bào)道中，區(qū)分信念和事實(shí)也會(huì)直接影響報(bào)道的真實(shí)性。

值得說明一下，這項(xiàng)研究是在2024年進(jìn)行的（論文接收于2024年12月），到現(xiàn)在已經(jīng)有大約1年的時(shí)間了。

在AI技術(shù)飛速發(fā)展的今天，當(dāng)時(shí)研究時(shí)測試的很多模型已經(jīng)有了更新。新版模型在理解能力上或許也有了新的提升。但在將AI模型大規(guī)模應(yīng)用在“高風(fēng)險(xiǎn)領(lǐng)域”之前，我們?nèi)匀粦?yīng)該保持謹(jǐn)慎的態(tài)度。只有對(duì)大模型的能力有了更全面和系統(tǒng)的評(píng)估和必要的優(yōu)化之后，才能讓它們更可靠地造福于人類社會(huì)。

參考文獻(xiàn)

[1]Suzgun,M.,Gur,T.,Bianchi,F.,Ho,D.E.,Icard,T.,Jurafsky,D.,&Zou,J.(2025).Languagemodelscannotreliablydistinguishbelieffromknowledgeandfact.NatureMachineIntelligence,1-11.

策劃制作

作者丨科學(xué)邊角料科普創(chuàng)作者

審核丨于旸騰訊玄武實(shí)驗(yàn)室負(fù)責(zé)人

奇米影视8888狠狠狠狠|国产美女在线免费观看|精品伊人久久久久7777人|98视频在线,曰韩视频,中文字幕免费一区,久草在线免费福利资源

科海聽濤

這項(xiàng)人類最不起眼的一種能力，卻是 AI 永遠(yuǎn)的短板？

視頻更多>>

站內(nèi)公告更多>>

熱點(diǎn)推薦

友情鏈接