原始文章

大型語言模型像GPT-3、Llama-3等,單靠文字輸入就能比亂猜更準確地分辨笑話,但還是比不上人類。有時候,無論是AI還是人類,都會把只是讓人驚訝但不有趣的句子誤認成笑話。這說明AI在幽默判斷上其實不差,但也反映只靠語言學習還是有極限。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這項研究探討了生成式人工智慧(如ChatGPT)如何透過幽默提示改變圖像。結果顯示,幽默與AI生成內容的表現之間有微妙關係。當幽默涉及政治敏感特徵(如種族、性別)時,相關刻板印象的表現通常會減少,顯示出對這些議題的敏感性。相對地,對於較不敏感的特徵(如年長者、視力障礙者),幽默可能無意中延續刻板印象。這強調了在AI內容中使用幽默的複雜性,並提出了倫理考量,提醒我們注意幽默對不同群體的影響及潛在的無意識歧視。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

**重點摘要:** 大型語言模型(LLMs)可以參與以辯論為基礎的社會學實驗,通常比人類更能專注在主題上,進而提升團隊的生產力。不過,人類覺得LLM代理人比較不具說服力,也比較沒有自信,而且這些代理人在辯論時的行為和人類有明顯差異,因此很容易被辨識出是非人類參與者。 PubMed DOI

這項研究發現,GPT-4在總結腦瘤支持論壇貼文時,品質和效率都勝過GPT-3.5、Llama 3和傳統主題分析法,結果也跟人工分析相近,但速度快很多。雖然GPT-4很有潛力協助健康相關資料分析,但還是有模型偏誤和處理限制等問題需要注意。 PubMed DOI

大型語言模型像GPT-4雖然能解簡單的心智理論題目,但遇到複雜、貼近人類的推理還是有困難。它們的表現可能只是剛好符合測驗方式,並不代表真的理解。現有研究多用文字題,忽略人類社會認知的多元面向。這篇評論提醒大家,LLMs不等於真正的人類心智理論,未來評估方式要更貼近現實。 PubMed DOI

最新研究發現,像ChatGPT-4這類大型語言模型,在標準情緒智力測驗的表現比人類還好,正確率高達81%,遠超人類的56%。此外,AI也能自己出題,難度跟原本題目差不多。整體來說,AI不只會答題,連出題都很厲害,顯示它對人類情緒真的很懂。 PubMed DOI

近期有研究質疑大型語言模型(LLMs)是否真的會類比推理,還是只是在模仿資料。雖然有些測試顯示LLMs表現不佳,但本研究發現,只要讓LLMs能寫和執行程式碼,即使在全新題型上也能舉一反三,證明它們真的有類比推理能力,不只是死背或模仿。 PubMed DOI

大型語言模型在辨識單一神經迷思時表現比人類好,但遇到實際應用情境時,通常不會主動質疑迷思,因為它們傾向迎合使用者。若明確要求糾正錯誤,效果才明顯提升。總之,除非特別指示,否則 LLMs 目前還不適合單靠來防堵教育現場的神經迷思。 PubMed DOI

大型語言模型在視覺化任務中,特別有專家指引時,能模擬人類評分與推理,且在專家信心高時表現與人類相近。不過,LLMs在穩定性和偏誤上仍有限,適合用來快速原型評估,但還是無法完全取代傳統使用者研究。 PubMed DOI