原始文章

病人報告結果量測(PROMs)對於了解病人的臨床經驗很重要,但傳統問卷格式可能影響其實用性和病人的接受度。這篇評論探討大型語言模型(LLMs)在提升PROM數據收集和解釋的潛力。透過LLMs,我們能創造更互動的PROMs,讓病人能即時在數位平台上回應和評分。這些LLM-PROMs應在各方參與下開發,並與傳統PROMs驗證,能在現實環境中補充現有量測,捕捉更相關的病人信息,促進臨床應用。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何生成符合病人和醫師需求的醫療建議回應。研究團隊透過人員參與的迭代過程,優化提示,提升回應質量。經過三次迭代後,臨床醫師對草擬回應的接受度從62%提升至84%,且74%的回應被評為「有幫助」。病人也認為優化後的回應在語氣和質量上更佳,76%的病人無法分辨人類與LLM生成的回應。研究顯示,根據醫師和病人的反饋來精煉提示,能有效生成有用的醫療建議。 PubMed DOI

大型語言模型(LLMs)在臨床實踐中有潛力提升病人教育與賦權,提供更個人化的醫療服務。然而,目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究,主要集中於GPT-3.5和GPT-4,應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制,包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在創建虛擬病人(VPs)方面的潛力,能模擬病人與醫師的互動。研究使用OpenAI的GPT模型生成60個針對慢性咳嗽和糖尿病的對話,並評估其真實性和使用者體驗。主要發現包括: 1. **成本效益**:每次對話成本低,具可擴展性。 2. **對話真實性**:評分高,顯示對話現實且有用。 3. **病人偏好**:大多數對話符合病人預期。 4. **模型比較**:GPT-4.0-turbo表現優於GPT-3.5-turbo。 5. **反饋相似性**:醫師與LLM的評分相似。 6. **缺陷識別**:某些特徵影響真實性。 7. **工具驗證**:確認測量工具的可靠性。 總體而言,LLM生成的虛擬病人能有效模擬臨床互動,具成本效益,建議進一步研究以提升對話質量。 PubMed DOI

這項研究探討如何從電子健康紀錄中提取與炎症性腸病(IBD)相關的病人報告結果(PROs),比較了傳統自然語言處理(tNLP)和大型語言模型(LLMs)如GPT-4的表現。研究發現,GPT-4在提取腹痛、腹瀉和糞便血的準確率上均優於tNLP,特別是在外部驗證中保持高準確率。這顯示LLMs在IBD研究和病人護理中具有良好的應用潛力,且不受人口統計或診斷偏見影響。 PubMed DOI

大型語言模型(LLMs)正在改變病患用藥管理的教育方式,提供易於取得的資訊,協助醫療決策。這些AI工具能詳細說明藥物相互作用、副作用及緊急護理協議,幫助病患做出明智的用藥選擇。不過,仍有挑戰,如錯誤資訊的風險及缺乏個別病患數據的準確性問題。當病患過度依賴AI建議時,安全性問題更為突出。這篇分析探討了LLMs的能力與限制,並強調監管監督的重要性,以確保這些工具輔助而非取代專業醫療建議。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分析患者對緊急研究中免除知情同意(EFIC)過程的看法。研究分析了102個與兒科研究相關的社區訪談,使用五種LLMs,包括GPT-4,來評估情感並進行主題分類。結果顯示,LLMs在情感分析上與人類評審者一致性高(Cohen's kappa: 0.69),主題分類準確率也高(0.868)。雖然LLMs在數據分析上效率高,但仍應輔助人類判斷。未來研究應著重於將LLMs整合進EFIC過程,以提升分析效率與準確性。 PubMed DOI

這項研究探討病人自報結果量表(PROMs),特別是PHQ-9,對門診抑鬱症治療紀錄質量的影響。研究分析了18,000份臨床筆記,重點在2019至2024年期間的就診紀錄。主要發現顯示,參與者平均年齡46.3歲,大多數為女性,PHQ-9平均分數較低,只有4.8%符合中度或以上的抑鬱症狀。雖然大型語言模型(LLM)能提供一些見解,但在移除實際分數後,準確性不佳,顯示依賴PROMs可能導致精神症狀紀錄不夠全面。 PubMed DOI

這項研究探討大型語言模型(LLMs)在幫助病人理解臨床筆記及做出明智決策的效果。研究評估了三種LLM(ChatGPT 4o、Claude 3 Opus、Gemini 1.5),使用四種提示方式,並由神經腫瘤科醫生和病人根據準確性、相關性、清晰度和同理心等標準進行評分。結果顯示,標準提示和角色提示的表現最佳,特別是ChatGPT 4o最為突出。不過,所有LLM在提供基於證據的回應上仍有挑戰。研究建議,LLM有潛力幫助病人解讀臨床筆記,特別是使用角色提示時。 PubMed DOI

這項研究回顧了大型語言模型(LLMs)在生成病人教育材料(PEMs)的應用。研究人員根據JBI指導方針,從五個資料庫中篩選出69項相關研究,並提取了21個變數,分為五個主題。主要發現包括:美國的研究最多,最常用的LLM是ChatGPT-4、3.5和Bard,大多數研究集中在評估生成回應的準確性和可讀性,只有三項研究使用外部知識庫,且大部分提示為英語。總體而言,這項回顧顯示LLMs在創建有效病人教育材料方面的潛力,並指出評估框架和多語言應用的不足。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI