Evaluating Hospital Course Summarization by an Electronic Health Record-Based Large Language Model.

以電子健康紀錄為基礎的大型語言模型對住院過程摘要的評估

<think> 好，我需要分析這篇有關醫院病程摘要的研究。首先，看看研究目的是什麼。研究主要想比較醫生和大型語言模型生成的病程摘要，然後看哪個需要更多的編輯努力。這可能是因為病程摘要對醫生來說負擔越來越重了，所以想找一個更有效的方法。研究假設可能是大型語言模型（LLM）生成的摘要需要的編輯更少，或者質量更高。從摘要來看，結果顯示LLM的摘要在某些方面表現更好，比如完整性和簡潔性，但有更多的編造內容。接下來，看看研究的方法。研究採用了質量改進研究，樣本包括住院醫師和醫院評估者，隨機選取了病例。住院醫師在不知情的情况下編輯了兩組摘要，一組是醫生寫的，一組是LLM生成的。然後評估者根據四個C來評分。研究的優點是實際應用，直接比較了兩種方法的效果。缺點可能是樣本量不大，只有10個住院醫師，可能不夠具代表性。另外，時間限制可能影響結果，因為住院醫師只有3分鐘來編輯，這可能不夠全面。數據解釋方面，LLM的摘要編輯比例和語義改變都少，醫院評估者也認為LLM的摘要更完整，但有更多的編造。這可能是因為LLM有時會生成不準確的信息，需要醫生進行核實。研究的局限性包括樣本量小、單一機構、時間限制以及可能的偏見。未來研究可以擴大樣本範圍，調整時間限制，看看長期效果如何。此外，還可以探討如何減少LLM生成的編造內容。臨床應用方面，LLM可以幫助醫生節省時間，但仍需醫生進行最終核查。未來研究可以改進LLM的準確性，或者開發檢查系統來過濾錯誤信息。其他可能的解釋是，醫生的摘要可能在某些方面更具個性化，而LLM則更標準化，這可能在評分時有不同的偏好。另外，醫生可能在編輯時更為保守，導致LLM的摘要看似需要更少改動。總結來說，研究支持醫生和LLM合作生成病程摘要的可行性，但仍需解決準確性問題。未來研究應繼續改進LLM的性能，確保其在臨床上的安全和有效。 </think> ### 1. 研究目的與假設研究旨在比較醫生與大型語言模型（LLM）生成的病程摘要（Hospital Course, HC），並評估醫生編輯這兩種摘要所需的努力。假設LLM生成的摘要在編輯努力、質量上可能更優，從而減輕醫生的負擔。 ### 2. 方法與設計研究採用質量改進研究，樣本包括10名住院醫師和8名醫院評估者，隨機選取了100例病例。醫生在不知情的情況下編輯了兩組摘要，評估者根據四個C評分。優點是直接比較，實際應用；缺點是樣本量小，時間限制可能影響結果。 ### 3. 數據解釋與結果結果顯示LLM摘要編輯比例和語義改變較少，評估者認為LLM摘要更完整，但有更多編造內容。這支持假設LLM在某些方面更優，但也揭示了準確性問題。 ### 4. 局限性與偏見研究樣本量小，單一機構，時間限制可能影響結果，且可能存在偏見，如醫生的編輯習慣差異。 ### 5. 臨床及未來研究意涵研究支持醫生與LLM合作的可行性，但需解決準確性問題。未來研究可擴大樣本，調整時間限制，改進LLM準確性。 ### 6. 其他觀點醫生的摘要可能更具個性化，而LLM更標準化，評分時可能有不同偏好。醫生編輯時可能更保守，導致LLM摘要看似更少改動。 ### 總結研究支持LLM在病程摘要中的應用，但需解決準確性問題。未來研究應改進LLM性能，確保臨床安全和有效。