Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

The Emotional Intelligence of the GPT-4 Large Language Model.
GPT-4 大型語言模型的情緒智力。 Psychol Russ 2024-11-18

您的研究深入探討了Mayer-Salovey-Caruso模型如何評估GPT-4的情感智力。結果顯示，GPT-4在理解和運用情感方面表現優異，但在情感管理和利用情感促進思考上則較為不足。雖然它能有效識別和管理情感，但在深層情感分析和動機理解上仍有局限。將其與兒童探索心理狀態的模式相比較，為理解人工智慧的情感能力提供了新視角。整體而言，您的研究突顯了先進人工智慧在情感智力上的優缺點。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Evaluating GPT Models for Automated Literature Screening in Wastewater-Based Epidemiology.
評估 GPT 模型在污水基礎流行病學中自動文獻篩選的應用。 ACS Environ Au 2025-01-20

這項研究探討了利用AI模型，特別是GPT-3、GPT-3.5和GPT-4，自動化污水流行病學文獻篩選，以提升綜合分析的效率。結果顯示，GPT-4在識別原始數據論文方面表現優異，精確度達0.96，召回率為1.00，超越目前的人工篩選標準。不過，這些模型在準確識別相關取樣地點上仍有挑戰，顯示人類監督的重要性。研究強調模型設計的謹慎性，建議AI輔助篩選能提升WBE研究效率，但仍需人類介入以確保準確性。 PubMed DOI

Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records.
GPT-4 omni 在從獸醫電子健康紀錄中提取資訊的分類性能與重現性。 Front Vet Sci 2025-01-31

這項研究評估了兩個大型語言模型（LLMs），GPT-4 omni（GPT-4o）和GPT-3.5 Turbo，在從貓咪慢性腸病的獸醫電子健康紀錄中提取資訊的表現。結果顯示，GPT-4o的敏感度和特異性均高於GPT-3.5 Turbo，分別為96.9%和97.6%。此外，GPT-4o的重現性也優於人類配對，顯示其在自動化資訊提取方面的潛力。不過，仍需進一步驗證以確保其在實際應用中的準確性和可靠性。 PubMed DOI

Exploring the potential of large language models to understand interpersonal emotion regulation strategies from narratives.
運用大型語言模型探索從敘事中理解人際情緒調節策略的潛力 Emotion 2025-04-17

這項研究發現，經過優化指令後，AI語言模型在辨識故事中的人際情緒調節策略，準確度已接近人工，但在不同情緒和策略上仍有落差。研究強調AI分析敘事資料有潛力，但設計指令和驗證結果時要特別小心。 PubMed DOI

Evaluating Generative AI in Mental Health: Systematic Review of Capabilities and Limitations.
精神健康領域中生成式 AI 的評估：能力與侷限性的系統性回顧 JMIR Ment Health 2025-05-15

這篇系統性回顧發現，生成式AI像ChatGPT在心理健康領域有潛力，但目前在診斷、文化敏感度和情感互動上還有不少限制。多數研究評估方式較簡單，無法全面反映AI實力。使用者對信任度和情感連結也有疑慮。未來需要更進階的評估和長期研究，才能真正發揮AI在心理健康照護的價值。 PubMed DOI

Investigating the interpretability of ChatGPT in mental health counseling: An analysis of artificial intelligence generated content differentiation.
探討 ChatGPT 在心理健康諮詢中的可解釋性：人工智慧生成內容差異化之分析 Comput Methods Programs Biomed 2025-05-27

這項研究發現，ChatGPT在心理諮詢上的專業度、同理心和人性化表現，跟人類諮商師差不多。不過，AI還是能被辨識出來，主要差異在語境、句子結構和情感表達。研究也提醒要注意透明度、隱私和倫理問題。總結來說，ChatGPT有潛力協助心理健康，但還有不少實務和倫理挑戰要解決。 PubMed DOI

Evaluating the capacity of large language models to interpret emotions in images.
大型語言模型解讀影像中情緒能力之評估 PLoS One 2025-06-03

這項研究發現，GPT-4在辨識圖片情緒（愉悅度和激發度）時，表現和人類相近，但對細微情緒還是有點吃力。這代表未來用GPT-4來自動篩選和驗證情緒刺激，有機會大幅減少人力、提升效率。 PubMed DOI

Evaluation of generative AI assistance in clinical nephrology: Assessing GPT-4, GPT-4o, Gemini 1.0 Ultra, and PaLM 2 in patient interaction and renal biopsy interpretation.
臨床腎臟科中生成式 AI 協助的評估：評估 GPT-4、GPT-4o、Gemini 1.0 Ultra 與 PaLM 2 在病患互動與腎臟切片判讀的表現 Digit Health 2025-06-05

最新研究比較四種AI模型在腎臟科問題上的表現，發現GPT-4o最準確且穩定，GPT-4同理心最佳，PaLM 2和Gemini 1.0 Ultra則在部分任務表現突出。結果顯示，生成式AI有助於提升腎臟科病患的溝通與衛教，不同模型可依臨床需求選用。 PubMed DOI

原始文章

站上相關主題文章列表