Evaluating large language models for health-related text classification tasks with public social media data.
利用公共社交媒體數據評估大型語言模型在健康相關文本分類任務中的表現。 J Am Med Inform Assoc 2024-08-09

這項研究評估大型語言模型（LLMs）在社交媒體健康相關文本分類的表現，並比較了不同模型的效果。結果顯示，基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強，但僅依賴LLM標註數據訓練效果不佳。研究指出，LLM作為零樣本分類器能有效減少假陰性，並減輕手動標註負擔，顯示其在特定領域自然語言處理的潛力。 PubMed DOI

Large Language Models Can Enable Inductive Thematic Analysis of a Social Media Corpus in a Single Prompt: Human Validation Study.
大型語言模型能夠在單一提示中啟用社交媒體語料庫的歸納主題分析：人類驗證研究。 JMIR Infodemiology 2024-08-29

這項研究探討生成性大型語言模型（LLMs）在分析公共健康相關社交媒體內容的可行性，特別是疫苗言論。研究發現，LLMs通常能有效識別人類專家所關注的主題，且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家，但專家認為其生成的主題仍然合理且相關。總體來看，LLMs在處理健康相關社交媒體內容方面展現出顯著潛力，未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

Enhancing health assessments with large language models: A methodological approach.
利用大型語言模型增強健康評估：一種方法論的探討。 Appl Psychol Health Well Being 2024-10-11

這項研究探討大型語言模型（LLMs）在健康心理學中如何增強健康評估，旨在克服傳統統計和機器學習方法的限制。傳統方法因線性評分而準確性不足，而機器學習則在可解釋性和數據需求上有挑戰。研究提出的ScaleLLM利用LLMs的自然語言理解能力，提供健康量表的專家評估。實驗結果顯示，ScaleLLM在身心健康評估的準確性和可解釋性上都有所提升，成為該領域的一個有前景的工具。 PubMed DOI

Use of large language models as a scalable approach to understanding public health discourse.
大型語言模型作為理解公共衛生話語的可擴展方法。 PLOS Digit Health 2024-10-16

這項研究探討大型語言模型（LLMs）在分析社交媒體貼文，評估公眾對疫苗接種態度的應用。研究人員比較了不同LLMs的表現，包括GPT模型和開源替代品，並與基於規則的情感分析工具進行對比。結果顯示，使用表現最佳的LLMs進行少量提示能獲得最佳效果，而其他方法則有較高的誤分類風險。研究強調LLMs在公共衛生領域的潛力，建議將其納入公共衛生監測，以提升對健康政策公眾意見的評估能力。 PubMed DOI

Mental-LLM: Leveraging Large Language Models for Mental Health Prediction via Online Text Data.
Mental-LLM：利用大型語言模型透過線上文本數據進行心理健康預測。 Proc ACM Interact Mob Wearable Ubiquitous Technol 2025-02-10

這項研究評估了多種大型語言模型（LLMs）在心理健康預測任務中的表現，測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術，結果顯示指令微調能顯著提升模型能力，尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外，研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

Large Language Models' Accuracy in Emulating Human Experts' Evaluation of Public Sentiments about Heated Tobacco Products on Social Media: Evaluation Study.
大型語言模型在模擬人類專家對社交媒體上加熱煙草產品公共情緒評估的準確性：評估研究。 J Med Internet Res 2025-03-07

這項研究分析大型語言模型（LLMs），特別是GPT-3.5和GPT-4 Turbo，對加熱煙草產品（HTPs）相關社交媒體訊息的情感分析效果。研究分析了1,000則訊息，結果顯示GPT-3.5在Facebook的準確率為61.2%，Twitter為57%；而GPT-4 Turbo則在Facebook達到81.7%，Twitter為77%。即使只用三個回應，GPT-4 Turbo的準確率也可達99%。研究指出，LLMs在分析HTPs討論情感上有效，但不同情感類別的準確性差異可能會影響整體結果，未來需進一步探討。 PubMed DOI

Comparing large Language models and human annotators in latent content analysis of sentiment, political leaning, emotional intensity and sarcasm.
比較大型語言模型與人類標註者在情感、政治傾向、情緒強度和諷刺的潛在內容分析中的表現。 Sci Rep 2025-04-03

這項研究分析了七種大型語言模型（LLMs）在潛在內容分析的有效性，並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示，無論是人類還是LLMs，在情感和政治分析上表現一致，LLMs的可靠性通常超過人類。不過，人類在情感強度評分上較高，兩者在諷刺檢測上都面臨挑戰。總體來看，LLMs，特別是GPT-4，能有效模仿人類的分析能力，但人類專業知識仍然重要。 PubMed DOI

Natural Language Processing for Digital Health in the Era of Large Language Models.
大型語言模型時代的數位健康自然語言處理。 Yearb Med Inform 2025-04-08

大型語言模型（LLMs）對醫療領域的自然語言處理（NLP）影響深遠，近期的研究顯示，專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP，資料來源涵蓋多個學術平台，重點在醫學文獻、電子健康紀錄（EHRs）及社交媒體。雖然通用LLMs如GPT-4被廣泛使用，但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs，但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

Summarizing Online Patient Conversations Using Generative Language Models: Experimental and Comparative Study.
使用生成語言模型總結線上病患對話：實驗性和比較研究。 JMIR Med Inform 2025-04-14

這項研究探討大型語言模型（LLMs）在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型，並測試不同的提示策略。結果顯示，GPT-3.5在零-shot提示中表現最佳，並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解，但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

Implementing Large Language Models in Health Care: Clinician-Focused Review With Interactive Guideline.
在醫療保健中導入大型語言模型：以臨床醫師為中心的綜述與互動式指引 J Med Internet Res 2025-07-11

這篇綜述分析270篇文獻，發現現有大型語言模型（如GPT-4）雖然能協助醫師處理多種臨床任務，但沒有單一模型能全面勝任所有需求，專業任務還需客製化。多數先進模型又是封閉原始碼，造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引，幫助醫師選擇合適的LLM。 PubMed DOI

原始文章

站上相關主題文章列表