Can large language models replace humans in systematic reviews? Evaluating GPT-4's efficacy in screening and extracting data from peer-reviewed and grey literature in multiple languages.
大型語言模型能否取代人類進行系統性回顧？評估 GPT-4 在篩選和提取來自多種語言的同行評審和灰色文獻中的數據的效力。 Res Synth Methods 2024-03-14

系統性回顧很重要，但耗時。大型語言模型如GPT-4可加速，但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好，但受機會和數據集影響。調整後表現下降，尤其在數據提取和篩選任務。給予提示後，在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎，但在特定條件下可匹敵人類。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Evaluating large language models for health-related text classification tasks with public social media data.
利用公共社交媒體數據評估大型語言模型在健康相關文本分類任務中的表現。 J Am Med Inform Assoc 2024-08-09

這項研究評估大型語言模型（LLMs）在社交媒體健康相關文本分類的表現，並比較了不同模型的效果。結果顯示，基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強，但僅依賴LLM標註數據訓練效果不佳。研究指出，LLM作為零樣本分類器能有效減少假陰性，並減輕手動標註負擔，顯示其在特定領域自然語言處理的潛力。 PubMed DOI

Large Language Models Can Enable Inductive Thematic Analysis of a Social Media Corpus in a Single Prompt: Human Validation Study.
大型語言模型能夠在單一提示中啟用社交媒體語料庫的歸納主題分析：人類驗證研究。 JMIR Infodemiology 2024-08-29

這項研究探討生成性大型語言模型（LLMs）在分析公共健康相關社交媒體內容的可行性，特別是疫苗言論。研究發現，LLMs通常能有效識別人類專家所關注的主題，且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家，但專家認為其生成的主題仍然合理且相關。總體來看，LLMs在處理健康相關社交媒體內容方面展現出顯著潛力，未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Use of large language models as a scalable approach to understanding public health discourse.
大型語言模型作為理解公共衛生話語的可擴展方法。 PLOS Digit Health 2024-10-16

這項研究探討大型語言模型（LLMs）在分析社交媒體貼文，評估公眾對疫苗接種態度的應用。研究人員比較了不同LLMs的表現，包括GPT模型和開源替代品，並與基於規則的情感分析工具進行對比。結果顯示，使用表現最佳的LLMs進行少量提示能獲得最佳效果，而其他方法則有較高的誤分類風險。研究強調LLMs在公共衛生領域的潛力，建議將其納入公共衛生監測，以提升對健康政策公眾意見的評估能力。 PubMed DOI

Using large language models to estimate features of multi-word expressions: Concreteness, valence, arousal.
使用大型語言模型來估計多詞表達的特徵：具體性、價值、喚起。 Behav Res Methods 2024-12-05

這項研究探討大型語言模型（LLMs）在評估多字表達的具體性、價值性和喚起性方面的效果。與早期的人工智慧方法相比，LLMs能更好地捕捉這些表達的細微意義。研究中，GPT-4o在預測情感和感官維度的表現上，與人類評分有強烈相關性（r = .8）。後續研究也顯示其在價值性和喚起性評分上有類似的強相關性，表現優於以往的人工智慧模型。此外，研究提供了一個包含126,397個單字和63,680個多字表達的數據集，幫助研究人員選擇刺激材料。 PubMed DOI

Evaluating the ability of large language models to emulate personality.
評估大型語言模型模擬個性的能力。 Sci Rep 2025-01-02

最近，GPT-4在大型語言模型（LLMs）方面的進展，可能會改變社會科學的研究方式。研究探討了GPT-4在模擬擁有不同大五人格特徵的個體的有效性，進行了兩項模擬研究。第一項模擬顯示，GPT-4生成的個性反應比人類反應更具一致性，且與人類自我報告的分數高度相關，顯示其能有效模仿真實個性。第二項模擬則指出，隨著角色複雜度增加，GPT-4的表現會下降，但加入人口統計信息後，模擬的準確性有所提升。總體而言，這些結果顯示使用GPT-4創造多樣個性的代理人，對理解人類行為的研究有很大潛力，並為未來的研究提供了新方向。 PubMed DOI

Deploying large language models for discourse studies: An exploration of automated analysis of media attitudes.
部署大型語言模型於話語研究：媒體態度自動分析的探索。 PLoS One 2025-01-09

這項研究探討如何利用大型語言模型（LLM）分析媒體對中國的態度，以香港的《東方日報》為例。研究強調分析媒體數據集對理解公眾意見的重要性，並指出傳統方法常忽略隱性態度。研究使用Martin和White的框架來分類態度，並運用Meta的開源Llama2（13b）模型進行分析，針對40,000條與中國相關的表達進行量化。結果顯示，LLM能有效識別顯性和隱性態度，準確率約80%，與人類編碼者相當。研究也討論了實施過程中的挑戰及其解決策略。 PubMed DOI

Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media: Evaluation Study.
大型語言模型在模擬人類專家對社交媒體上加熱煙草產品公共情緒評估的準確性：評估研究。 J Med Internet Res 2025-03-07

這項研究分析大型語言模型（LLMs），特別是GPT-3.5和GPT-4 Turbo，對加熱煙草產品（HTPs）相關社交媒體訊息的情感分析效果。研究分析了1,000則訊息，結果顯示GPT-3.5在Facebook的準確率為61.2%，Twitter為57%；而GPT-4 Turbo則在Facebook達到81.7%，Twitter為77%。即使只用三個回應，GPT-4 Turbo的準確率也可達99%。研究指出，LLMs在分析HTPs討論情感上有效，但不同情感類別的準確性差異可能會影響整體結果，未來需進一步探討。 PubMed DOI

原始文章

站上相關主題文章列表