原始文章

這項研究用開源大型語言模型(像LLaMA3)自動產生德文出院摘要,並請醫師評估品質。結果顯示,AI生成的摘要資訊算完整,但常漏掉重要細節或出現錯誤,尤其在複雜病例時更明顯。研究也發現資料集太小、資料不全和模型德文醫學詞彙不足是主要挑戰,建議未來要用更多資料和微調模型,才能提升表現。 PubMed DOI


站上相關主題文章列表

這項研究探討大型語言模型(LLMs)在生成重症監護病房(ICU)病人出院摘要的表現,分析了匿名臨床筆記。三個模型中,GPT-4 API的表現最佳,準確識別41.5%的關鍵臨床事件,ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異,但仍有小錯誤,且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看,這些LLM在生成出院摘要上有潛力,但仍需改進。 PubMed DOI

這項研究探討了如何在有限計算資源下,利用非專有的大型語言模型(LLMs)協助醫療專業人員撰寫德語醫療文本。研究團隊訓練了四個擁有70億參數的模型,並與商業模型Claude-v2進行比較。結果顯示,BLOOM-CLP-German模型在自動評估中表現最佳,且在專家評估中,有93.1%的生成報告被認為可用,僅需少量修改。這顯示即使資源有限,仍能生成適合臨床的醫療文檔,強調選擇非英語模型時需考慮目標語言的重要性。 PubMed DOI

這項初步研究探討了大型語言模型(LLM),特別是LLaMA3,如何從三級醫院的出院摘要中提取中風審核數據。研究分析了一個月內的中風住院病人出院摘要,成功提取144個數據點,LLM的準確率高達93.8%(135個正確)。結果顯示,LLM能有效提升中風審核數據的收集效率,並建議進一步研究以優化LLM與醫療專業人員的合作。 PubMed DOI

這項研究比較了ChatGPT-4生成的精神科出院摘要與住院醫師撰寫的摘要質量。研究結果顯示,人類撰寫的摘要在整體質量上明顯優於AI生成的,平均評分分別為3.78和3.12。人類摘要在大多數評估項目中表現更佳,且評分者偏好人類版本。AI摘要在40%的案例中出現幻覺,且內容錯誤率較高。雖然AI生成的摘要在簡潔性和正式性上有一定表現,但仍需改進,未來可作為醫生修訂的參考。 PubMed DOI

這篇論文探討了六種大型語言模型(LLMs)在自動化出院摘要方面的有效性,並提出了一種新的自動評估指標,與人類評估結果相符。研究使用F1-Score來評估模型表現,並與醫療專業人員的評估進行比較。結果顯示,雖然LLMs有潛力,但在醫學知識和診斷能力上仍需改進。實驗的源代碼和數據可在GitHub上找到。 PubMed DOI

這項研究用三種開源AI模型自動摘要病人影像檢查紀錄,經專業醫師評估,發現AI摘要內容準確、實用又好上手。這樣能幫醫師快速掌握重點,省下查閱時間,資訊品質也沒打折,對放射科工作流程很有幫助。 PubMed DOI

研究發現,大型語言模型(LLM)生成的出院摘要,品質和醫師寫的差不多,受歡迎程度也相近。LLM寫的內容比較精簡、結構清楚,但資訊沒那麼完整,錯誤率也稍高。不過這些錯誤通常不會造成傷害。只要有醫師審核,LLM生成的摘要很有機會成為醫院的好幫手。 PubMed DOI

**重點摘要:** 這項研究測試了兩個大型語言模型(LLMs),用來從真實的臨床紀錄自動產生出院摘要,並用一個經過驗證的評分指標來評分他們的結果。兩個模型的表現差不多,顯示LLMs有潛力協助醫師準備出院摘要,進而減輕臨床醫師的行政工作負擔。 PubMed DOI

這項研究發現,GPT-4o能用簡單易懂的語言重寫心臟科出院摘要,並加入生活建議,讓病人更容易理解。醫療專家認為AI產出的內容正確又安全,但建議較不個人化。未來還需更多研究,才能確保實際應用的安全性。 PubMed DOI

這項研究發現,用大型語言模型自動產生心臟衰竭住院摘要,能幫助部分醫師更快回答問題,且準確率沒變。大多數醫師認為這樣能省時間,也願意使用,但摘要格式要配合個人需求。整體來說,LLM有助提升醫師效率,但摘要內容還需客製化。 PubMed DOI