原始文章

大型語言模型像GPT-3、Llama-3等,單靠文字輸入就能比亂猜更準確地分辨笑話,但還是比不上人類。有時候,無論是AI還是人類,都會把只是讓人驚訝但不有趣的句子誤認成笑話。這說明AI在幽默判斷上其實不差,但也反映只靠語言學習還是有極限。 PubMed DOI


站上相關主題文章列表

比較兩個研究發現,ChatGPT 3.5在幽默表現上與人類相當,甚至更有趣。第一個研究中,ChatGPT和普通人回應幽默提示;第二個研究中,ChatGPT產生像《The Onion》那樣的諷刺標題。無論是在哪個幽默任務或人類喜劇作家的專業知識,人類參與者都認為ChatGPT的笑話跟人類製作的一樣有趣,甚至更有趣。 PubMed DOI

這項研究指出,阿斯伯格症兒童在理解諷刺等細微溝通上面臨挑戰,儘管他們的語言能力不錯。研究者透過特定測試來區分阿斯伯格症與其他狀況,如注意力不足過動症(ADHD),主要針對隱喻和諷刺的理解。最近對大型語言模型的評估顯示,這些模型在隱喻理解上有所進步,但在諷刺方面卻沒有相同的進展,可能需要不同的方法,與大腦情感處理有關。因此,為大型語言模型設計針對性訓練策略,提升其理解諷刺的能力,對於模擬人類認知過程非常重要。 PubMed DOI

兩字測試(TWT)是一個新開源基準,專門評估大型語言模型(LLMs)的語義理解能力。它針對1,768個名詞-名詞組合進行意義判斷,並提供0到4的評分或二元判斷(有意義 vs. 無意義)。實驗顯示,像GPT-4和Claude-3-Optus等模型在這方面的表現都不如人類,經常錯誤地將無意義的短語判斷為有意義。這突顯了目前LLMs的局限性,提醒我們對其理解能力的主張應保持謹慎。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

這項研究評估了七種大型語言模型(LLMs)在新基準上的理解能力,要求它們回答基於短文本的問題,並與400名人類的回答進行比較。結果顯示,這些模型的表現僅達到隨機準確率,且回答變異性大。相比之下,人類在數量和質量上都明顯優於這些模型,LLMs的錯誤也顯示出非人類特徵。這表明,雖然AI模型在某些應用中有效,但它們的語言理解仍無法與人類相提並論,可能因為無法有效處理語法和語義信息。 PubMed DOI

這項研究探討了生成式人工智慧(如ChatGPT)如何透過幽默提示改變圖像。結果顯示,幽默與AI生成內容的表現之間有微妙關係。當幽默涉及政治敏感特徵(如種族、性別)時,相關刻板印象的表現通常會減少,顯示出對這些議題的敏感性。相對地,對於較不敏感的特徵(如年長者、視力障礙者),幽默可能無意中延續刻板印象。這強調了在AI內容中使用幽默的複雜性,並提出了倫理考量,提醒我們注意幽默對不同群體的影響及潛在的無意識歧視。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

最新研究發現,像ChatGPT-4這類大型語言模型,在標準情緒智力測驗的表現比人類還好,正確率高達81%,遠超人類的56%。此外,AI也能自己出題,難度跟原本題目差不多。整體來說,AI不只會答題,連出題都很厲害,顯示它對人類情緒真的很懂。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI