原始文章

這項研究探討「群眾智慧」在預測中的應用,利用12個大型語言模型(LLMs)對31個二元問題進行預測,並與925位人類預測者的表現進行比較。結果顯示,LLM的表現超越無資訊基準,準確度與人類相似,且也展現出類似的偏見。當LLM預測受到中位數人類預測影響時,準確度提升17%到28%。最準確的結果來自於簡單平均人類和機器的預測,顯示LLMs能透過聚合方法達到與人類相當的預測準確度。 PubMed DOI


站上相關主題文章列表

研究團隊研發了新的學習方式,讓大型語言模型在醫學問答更準確。他們專注於三個醫學問答資料庫,並引入LLM-Synergy架構,包含Boosting的多數投票和Cluster的動態模型選擇。這些方法在資料庫中表現比單一模型更好,準確率範圍從35.84%到96.36%。這個架構展現了提升醫學問答任務並因應未來挑戰的潛力。 PubMed DOI

研究指出,使用大型語言模型(LLMs)取代人類受試者進行數據收集,引入了新方法「number needed to beat」(NNB),用來評估人類數據質量與頂尖LLM如GPT-4相比的差距。實驗結果顯示,在英語任務中,NNB大於1,但各任務有所不同。結合LLM和人類數據的「centaur」方法被證實比單獨使用更有效。研究考量了數據成本和質量的權衡,建議此框架可協助判斷何時以及如何運用LLM生成的數據。 PubMed DOI

集體智慧在群體、組織和社會中非常重要,因為它能促進協調與分散的認知,超越個人能力,甚至專家的能力。資訊科技透過線上預測市場、結構化討論論壇和眾包平台來增強這種智慧。大型語言模型的出現改變了資訊的聚合和傳遞方式,帶來了新的機會與挑戰。我們需要探討這些模型的潛在好處、風險及相關政策,並深入研究它們如何影響我們解決複雜問題的能力。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

大型語言模型(LLMs)因在知識性任務上表現優於人類而受到關注,但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中,五個聊天機器人與276名人類參與者進行比較,結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類,且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力,但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

這篇文章探討如何利用大型語言模型(LLMs)來分析和預測公民的政策偏好,特別是針對巴西2022年總統候選人的政府計畫。研究採用訓練-測試交叉驗證,結果顯示LLMs在預測個人政治選擇上表現優於傳統的投票假設,且在估算整體偏好時也更準確。這項研究顯示LLMs能捕捉複雜的政治細微差異,為未來的數據增強研究提供了新方向,並與參與式治理和數位創新主題相關聯。 PubMed DOI

這份摘要強調大型語言模型(LLMs)在預測實驗結果方面的潛力,特別是在神經科學領域。研究介紹了BrainBench,一個評估LLMs預測能力的基準測試。結果顯示,LLMs在預測上可超越人類專家,而專門模型BrainGPT的準確性更高。當LLMs表現出高度信心時,預測也相對可靠,顯示它們在協助人類發現過程中的潛在角色。這種方法論不僅適用於神經科學,還可能對其他知識密集型領域產生廣泛影響。 PubMed DOI

現代大型語言模型(LLMs)引起了廣泛關注,展現出驚人的能力,但有時也會出錯,顯示出人工智慧在日常生活中的潛力與挑戰。雖然許多研究致力於改善這些模型,但人類與LLM的合作動態仍待深入探討。本文強調未來研究應優先考慮人類與LLM的互動,並指出可能妨礙合作的偏見,提出解決方案,並概述促進相互理解及提升團隊表現的研究目標,以改善推理與決策過程。 PubMed DOI

這項研究評估了專門的深度神經網絡(如 PersonalityMap)與大型語言模型(如 GPT-4o 和 Claude 3 Opus)在預測人格問卷項目相關性上的有效性。所有 AI 模型的表現都顯著超越大多數普通人和學術專家。透過使用每個群體的中位數預測,可以提升個別預測的準確性,展現「群眾智慧」的效果。結果顯示,PersonalityMap 和學術專家在中位數預測上通常優於 LLMs 和普通人,強調了專門模型在特定任務中的價值。 PubMed DOI

這項研究探討大型語言模型(LLMs)在系統性回顧中自動化摘要篩選的可行性。研究測試了六種LLMs,並在23篇Cochrane Library的系統性回顧中評估其分類準確性。初步結果顯示,LLMs在小型數據集上表現優於人類研究者,但在大型數據集上,由於類別不平衡,精確度下降。研究還發現,LLM與人類的結合能減少工作量並保持高敏感性,顯示自動化篩選可減輕研究者負擔。總體而言,LLMs有潛力提升系統性回顧的效率與質量,但仍需進一步驗證。 PubMed DOI