原始文章

這篇論文比較了 GPT-3.5-Turbo、FLAN-T5 和 BERT 等大型語言模型在健康社群媒體情感分析的表現。結果顯示,LLMs 比傳統工具(像 VADER)表現更好,但準確度還有進步空間。透過調整提示語和微調,尤其是 BERT,效果會更好。研究也建議未來要在標註資料少的情況下,持續優化這些模型。 PubMed


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在心理健康預測任務中的表現,測試的模型包括Alpaca、FLAN-T5、GPT-3.5和GPT-4。研究探討了不同的提示技術,結果顯示指令微調能顯著提升模型能力,尤其是Mental-Alpaca和Mental-FLAN-T5在準確率上超越了GPT-3.5和GPT-4。此外,研究也強調了模型的推理能力及其在實際應用中的倫理問題與偏見考量。這些發現為改善LLM在心理健康領域的應用提供了指導。 PubMed DOI

這項研究分析大型語言模型(LLMs),特別是GPT-3.5和GPT-4 Turbo,對加熱煙草產品(HTPs)相關社交媒體訊息的情感分析效果。研究分析了1,000則訊息,結果顯示GPT-3.5在Facebook的準確率為61.2%,Twitter為57%;而GPT-4 Turbo則在Facebook達到81.7%,Twitter為77%。即使只用三個回應,GPT-4 Turbo的準確率也可達99%。研究指出,LLMs在分析HTPs討論情感上有效,但不同情感類別的準確性差異可能會影響整體結果,未來需進一步探討。 PubMed DOI

這項研究分析了七種大型語言模型(LLMs)在潛在內容分析的有效性,並與人類標註者進行比較。研究涵蓋情感、政治傾向、情感強度和諷刺檢測。結果顯示,無論是人類還是LLMs,在情感和政治分析上表現一致,LLMs的可靠性通常超過人類。不過,人類在情感強度評分上較高,兩者在諷刺檢測上都面臨挑戰。總體來看,LLMs,特別是GPT-4,能有效模仿人類的分析能力,但人類專業知識仍然重要。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

大型語言模型(LLMs)對醫療領域的自然語言處理(NLP)影響深遠,近期的研究顯示,專為醫療文本設計的LLMs逐漸受到重視。這篇回顧分析了基於LLMs的生物醫學NLP,資料來源涵蓋多個學術平台,重點在醫學文獻、電子健康紀錄(EHRs)及社交媒體。雖然通用LLMs如GPT-4被廣泛使用,但針對特定應用的自訂LLMs趨勢上升。傳統模型在某些任務上仍優於新型LLMs,但後者在少量學習和生成任務中表現佳。未來研究需關注評估、偏見及公平性等議題。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

這項研究發現,GPT-4在總結腦瘤支持論壇貼文時,品質和效率都勝過GPT-3.5、Llama 3和傳統主題分析法,結果也跟人工分析相近,但速度快很多。雖然GPT-4很有潛力協助健康相關資料分析,但還是有模型偏誤和處理限制等問題需要注意。 PubMed DOI

這篇文獻回顧指出,GPT類模型適合用在醫療溝通、報告撰寫等任務,BERT類模型則較適合做分類和知識挖掘。由於兩者架構不同,適用場景也不一樣,醫療人員應根據實際需求選擇合適的模型。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI