原始文章

這項研究顯示大型語言模型(LLMs)在創建虛擬病人(VPs)方面的潛力,能模擬病人與醫師的互動。研究使用OpenAI的GPT模型生成60個針對慢性咳嗽和糖尿病的對話,並評估其真實性和使用者體驗。主要發現包括: 1. **成本效益**:每次對話成本低,具可擴展性。 2. **對話真實性**:評分高,顯示對話現實且有用。 3. **病人偏好**:大多數對話符合病人預期。 4. **模型比較**:GPT-4.0-turbo表現優於GPT-3.5-turbo。 5. **反饋相似性**:醫師與LLM的評分相似。 6. **缺陷識別**:某些特徵影響真實性。 7. **工具驗證**:確認測量工具的可靠性。 總體而言,LLM生成的虛擬病人能有效模擬臨床互動,具成本效益,建議進一步研究以提升對話質量。 PubMed DOI


站上相關主題文章列表

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現,並與醫生的回應進行比較。結果顯示,GPT-4的表現優於醫生和BioMistral 7B,回應被認為正確且具同理心。BioMistral 7B的回應則部分正確,而醫生的表現介於兩者之間。專家指出,雖然LLMs能減輕醫生負擔,但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳,但需注意回應的變異性和準確性。 PubMed DOI

這篇論文探討如何利用大型語言模型(LLMs),像是ChatGPT-4,來改善醫療溝通,讓病人能選擇喜歡的溝通風格。研究基於Emanuel和Emanuel的四種溝通模式:父權式、資訊式、詮釋式和審議式,旨在滿足病人的需求與偏好。不過,論文也提到潛在風險,如可能加深偏見及LLMs的說服性,可能導致病人與醫療提供者之間的互動出現意外操控。 PubMed DOI

這項研究探討社交機器人虛擬病人平台與大型語言模型在醫學生臨床推理訓練中的效果,並與傳統電腦平台比較。瑞典的15名醫學生參與,結果顯示社交機器人平台更具真實感,對學習幫助更大,平均分數較高。定性反饋指出該機器人在臨床推理、溝通及情感技能訓練上的優勢,但也提到一些技術限制。研究建議將社交機器人和大型語言模型整合進虛擬病人模擬中,以提升醫學教育的學習體驗,並提出改進建議。 PubMed DOI

這項研究探討大型語言模型(LLMs)在總結患者在網上論壇和健康社群分享經驗的有效性。研究評估了Flan-T5、GPT、GPT-3和GPT-3.5等模型,並測試不同的提示策略。結果顯示,GPT-3.5在零-shot提示中表現最佳,並在3-shot設置中結合方向性提示時達到最佳效果。手動評估也確認了其摘要的準確性。雖然研究顯示LLMs能提供有價值的質性見解,但也存在數據樣本小和手動摘要僅由一位標註者創建的限制。 PubMed DOI

這項研究開發了一個用GPT-4打造的虛擬模擬病人,幫助醫學生練習和病人討論異常乳房攝影結果。團隊邀集多方專家設計情境,並多次測試調整。GPT-4讓對話更自然,也能給學習者回饋,但有時會誤判溝通流程。初步成果不錯,接下來會讓醫學生實際體驗,評估可行性和接受度。 PubMed DOI

這項研究發現,讓醫學生用 ChatGPT 扮演「標準化病人」練習溝通,能提升他們面對困難情境的信心,學生覺得這種方式安全又方便,回饋也很詳細。不過,AI 在情感表現和技術上還有待加強,不同學校學生的接受度也不一樣。由於樣本少、沒對照組,結果僅供參考,未來還需更大規模的客觀研究。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI

這項研究比較四款主流大型語言模型在產生整形外科醫病對話的表現,結果顯示它們都能產生真實又實用的對話,平均分數都超過4.5分。雖然 Gemini Pro 2.5 和 Claude 3.7 Sonnet 表現稍好,但彼此間沒有明顯差異。這些模型適合用於醫學教育和研究,但還是要注意多元性和偏見的問題。 PubMed DOI