這項研究顯示大型語言模型(LLMs)在創建虛擬病人(VPs)方面的潛力,能模擬病人與醫師的互動。研究使用OpenAI的GPT模型生成60個針對慢性咳嗽和糖尿病的對話,並評估其真實性和使用者體驗。主要發現包括: 1. **成本效益**:每次對話成本低,具可擴展性。 2. **對話真實性**:評分高,顯示對話現實且有用。 3. **病人偏好**:大多數對話符合病人預期。 4. **模型比較**:GPT-4.0-turbo表現優於GPT-3.5-turbo。 5. **反饋相似性**:醫師與LLM的評分相似。 6. **缺陷識別**:某些特徵影響真實性。 7. **工具驗證**:確認測量工具的可靠性。 總體而言,LLM生成的虛擬病人能有效模擬臨床互動,具成本效益,建議進一步研究以提升對話質量。 PubMed DOI
作者針對大型語言模型在醫療自然語言理解表現不佳,提出統一提示格式、多元醫療指令微調資料集,並以BioMistral微調成BioMistral-NLU。該模型在零樣本下於多項醫療NLU基準測試勝過原始BioMistral及ChatGPT、GPT-4等,證明多元任務指令微調能有效提升泛化能力。 PubMed