原始文章

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了多種大型語言模型在總結臨床對話的表現,並與人類生成的摘要進行比較。測試了五個模型,包括微調的變壓器模型和ChatGPT。結果顯示,微調模型在ROUGE分數上表現最佳,而ChatGPT在UniEval指標上表現優異,獲得最高分。臨床醫師的評估也偏向ChatGPT,顯示其摘要接近人類質量。研究指出ROUGE可能不適合臨床摘要評估,強調了大型語言模型在自動化臨床對話摘要的潛力,但仍需進一步研究以確認其可靠性。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI

這項研究探討了ChatGPT-4是否能創建清晰易懂的前列腺癌研究摘要,分析了2022年7月至2024年6月間80篇發表於*Current Oncology*的文章。研究發現,使用詳細提示的摘要在可讀性和質量上都顯著優於簡單提示。雖然兩者都能提供全面的摘要,但詳細提示讓資訊更易於被廣泛受眾理解。研究強調了自訂提示在醫療溝通中的重要性,並建議未來應考慮病患反饋,將此方法擴展至其他醫療領域。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在幫助病人理解臨床筆記及做出明智決策的效果。研究評估了三種LLM(ChatGPT 4o、Claude 3 Opus、Gemini 1.5),使用四種提示方式,並由神經腫瘤科醫生和病人根據準確性、相關性、清晰度和同理心等標準進行評分。結果顯示,標準提示和角色提示的表現最佳,特別是ChatGPT 4o最為突出。不過,所有LLM在提供基於證據的回應上仍有挑戰。研究建議,LLM有潛力幫助病人解讀臨床筆記,特別是使用角色提示時。 PubMed DOI

這項研究發現,GPT-4在總結腦瘤支持論壇貼文時,品質和效率都勝過GPT-3.5、Llama 3和傳統主題分析法,結果也跟人工分析相近,但速度快很多。雖然GPT-4很有潛力協助健康相關資料分析,但還是有模型偏誤和處理限制等問題需要注意。 PubMed DOI

**重點摘要:** 這項研究顯示,使用 prompt-tuning 搭配大型臨床語言模型(GatorTronGPT)可以有效地摘要醫師與病患之間的對話,不僅表現優於以往經過 fine-tune 的模型,而且更有效率,因為不需要更新模型的參數。 PubMed

這項研究發現,GPT-4在分析癌症病患與醫療人員的對話內容時,和人類專家有高度到中度的一致性,像是判斷有無討論症狀、誰先提起、以及建議內容等。雙方意見分歧的情況不多,且有詳細分類。結果顯示,LLM有潛力協助提升醫療溝通與照護品質。 PubMed DOI