原始文章

這項研究評估了多種大型語言模型(LLMs)在從電子健康紀錄中提取數據的表現,使用了50份合成醫療筆記。共測試了18個LLM,並與基準模型RoBERTa比較,涵蓋多個任務。表現最佳的模型包括Claude 3.0 Opus、GPT 4等,準確率超過0.98,明顯優於RoBERTa的0.742。這些模型在多次測試中也展現出一致性,顯示出能有效協助數據提取,減輕醫療人員的負擔。不過,仍需用真實數據進一步驗證其實際應用效果。 PubMed DOI


站上相關主題文章列表

LLMs在從公開來源中提取數據很有用,但在臨床設置中的效果尚不明確。這項研究比較了使用「Versa Chat」(OpenAI gpt-35-turbo LLM的實現)與手動病歷審查在肝癌影像報告中提取數據的準確性。研究涉及182份腹部影像報告,評估其性能包括準確性、精確性、召回率和F1分數。 PubMed DOI

研究比較了Claude 2和GPT-4兩個大型語言模型在提取文章數據的表現。Claude 2使用PDF解析插件,準確率高達96.3%,GPT-4則為68.8%。兩者皆能辨識缺失數據並提取未明確報告的資訊。在提供文本時,兩者表現皆相當準確。研究指出語言模型在數據提取上的潛力,但也強調了準確的PDF解析和人工驗證的必要性。 PubMed DOI

這項研究探討小型大型語言模型(sLLM)在從病理報告中提取關鍵資訊的效果。使用三個版本的Llama 2模型,參數從70億到700億不等,並在零樣本和五樣本學習情境下進行評估。結果顯示,700億參數的模型在五樣本情境下表現優異,顯示sLLM能有效提升數據提取的效率與準確性。研究強調範例學習的重要性,並討論模型大小、準確性及處理時間的權衡,支持在臨床環境中應用先進語言模型,以改善病人護理和生物醫學研究。 PubMed DOI

這項初步研究探討了大型語言模型(LLM),特別是LLaMA3,如何從三級醫院的出院摘要中提取中風審核數據。研究分析了一個月內的中風住院病人出院摘要,成功提取144個數據點,LLM的準確率高達93.8%(135個正確)。結果顯示,LLM能有效提升中風審核數據的收集效率,並建議進一步研究以優化LLM與醫療專業人員的合作。 PubMed DOI

這項研究探討大型語言模型(LLMs)在中文生物醫學命名實體識別(BNER)任務的表現,這領域的研究相對較少。作者評估了多個LLMs,包括ChatGLM2-6B、GLM-130B、GPT-3.5和GPT-4,使用真實的中文電子病歷數據集及公共數據集。結果顯示,雖然LLMs在零樣本和少樣本情境下有潛力,但經過指令微調後表現顯著提升。特別是微調後的ChatGLM2-6B在真實數據集上超越了專門模型,而GPT-3.5在CCKS2017數據集上表現最佳,但仍未超過頂尖專業模型DGAN。這是首個評估LLMs在中文BNER任務的研究,顯示其潛力並為未來應用提供指導。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從非結構化住院病歷中提取ICD-10-CM代碼的效果,並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等,共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼,平均每份病歷4個。雖然LLMs的中位數代碼數量較高,GPT-4表現最佳,但與人類編碼員的符合率仍然較低,顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

這項研究評估了六種大型語言模型(LLMs)在從病人筆記中提取ICD-10-CM代碼的表現,並與人類編碼員進行比較。結果顯示,人類編碼員提取了165個代碼,而LLMs提取的數量明顯更多,Llama 2-70b以658個代碼領先。GPT-4與人類的協議百分比最高,但整體協議程度極低。Claude 3在主要診斷方面表現最佳。研究指出,LLMs在提取過程中存在不一致,整體表現仍不及人類編碼員。 PubMed DOI

這項研究探討開源大型語言模型(LLMs)在從電子健康紀錄(EHRs)中提取社會健康決定因素(SDoH)數據的效果。研究隨機選取200名患者,並由兩位審查者手動標記九個SDoH方面,達成93%的高一致性。結果顯示,LLMs的表現明顯優於基準模型,特別是在識別明確提及的SDoH方面。最佳模型openchat_3.5在所有SDoH方面的準確率最高。研究強調進一步精煉和專業訓練的潛力,以提升LLMs在臨床研究中的應用,最終改善醫療結果。 PubMed DOI

這項研究評估大型語言模型(LLMs)在107項補充醫學試驗中的數據提取及偏見風險評估的效果。僅用LLM的方法,如Moonshot-v1-128k和Claude-3.5-sonnet,準確率達95%以上;而LLM輔助的方法更佳,準確率可達97%以上。此外,LLM輔助的方法處理時間大幅縮短,分別只需14.7分鐘和5.9分鐘,傳統方法則需86.9分鐘和10.4分鐘。這些結果顯示,LLM結合人類專業知識能有效提升證據綜合的效率與準確性。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI