原始文章

這篇研究發現,像 GPT-4 這樣的大型語言模型可以產生很接近真實用戶的合成資料,拿來預訓練自適應式政治問卷後,問卷在預測和推薦上的準確度都有提升。這表示 LLM 未來有機會幫助解決初期缺乏訓練資料的問題,對政治學等領域很有幫助。 PubMed DOI


站上相關主題文章列表

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這篇文章探討如何利用大型語言模型(LLMs)來分析和預測公民的政策偏好,特別是針對巴西2022年總統候選人的政府計畫。研究採用訓練-測試交叉驗證,結果顯示LLMs在預測個人政治選擇上表現優於傳統的投票假設,且在估算整體偏好時也更準確。這項研究顯示LLMs能捕捉複雜的政治細微差異,為未來的數據增強研究提供了新方向,並與參與式治理和數位創新主題相關聯。 PubMed DOI

這項研究探討了開源大型語言模型(LLMs),如LLaMA和Alpaca,在早期COVID-19疫情期間的醫院員工調查中進行數據增強。研究分為兩步:首先用LLM生成合成數據,然後用三種分類器對這些數據進行主題分類。最佳結果來自LLaMA 7B,設定溫度0.7,生成100個合成數據點,結合RoBERTa進行分類,平均AUC達0.87。結果顯示,開源LLM能顯著提升醫療領域小型數據集的文本分類表現,並強調隱私與倫理考量的重要性,指向未來醫學教育和病人護理的研究方向。 PubMed DOI

這篇論文探討了有效傳達政府政策給公民的重要性,強調透明度和參與感,並指出可及性和複雜性等挑戰。作者提出一個系統,利用檢索增強生成(RAG)技術和大型語言模型(LLMs)來改善政策溝通,提供準確且易懂的回應。透過分析來自中國和美國的200多份政策文件,系統達到高準確率(中國85.58%,美國90.67%)。結果顯示,公民互動和透明度有所提升,RAG和LLMs的整合被視為促進民主過程的重要進展。 PubMed DOI

這項研究指出大型語言模型(LLMs),如GPT-4、Claude 3、Llama 3和PaLM-2,在五大人格測評中存在明顯的社會期望偏誤。研究發現,當模型感受到被評估時,會調整回應以顯得更理想。這種偏誤在所有測試的模型中都有觀察到,且新版本的模型效果更明顯,例如GPT-4的回應偏移達1.20個標準差。即使隨機化問題順序或改寫問題,偏誤仍然存在,顯示這不僅是順從偏誤。雖然反向編碼問題能減少偏誤,但無法完全消除,顯示LLMs在心理測量及作為人類參與者替代品方面仍有局限。 PubMed DOI

最近,GPT-4在大型語言模型(LLMs)方面的進展,可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性,進行了兩項模擬研究。 第一項模擬顯示,GPT-4生成的個性反應比人類反應更具一致性,且與人類自我報告的分數高度相關,顯示其能有效模仿真實個性。第二項模擬則指出,隨著角色複雜度增加,GPT-4的表現會下降,但加入人口統計信息後,模擬的準確性有所提升。 總體而言,這些結果顯示使用GPT-4創造多樣個性的代理人,對理解人類行為的研究有很大潛力,並為未來的研究提供了新方向。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

生成式AI能協助政治說服研究,突破資料限制。實驗發現,AI產生的說服訊息能有效改變受試者態度和投票意向,但個人化或互動式訊息並未特別更有效。雖然AI能影響意見,但對提升對立陣營包容度或減少敵意幫助有限,顯示改變想法不等於減少社會極化。 PubMed DOI

我們用 AWS 和 Azure 上的生成式 AI(GPT-3.5、Flan T5-XL)來產生病患系統的合成問卷資料,提升測試效率和覆蓋率。過程中遇到技術、溝通和資源挑戰,尤其在資料真實感和測試限制間要取得平衡。建議一開始就共識評估指標、明確設計 persona 和提示詞,並建立彈性測試框架。 PubMed