原始文章

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI


站上相關主題文章列表

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語(CPT)代碼的效果。分析了30份手術記錄後,AtlasGPT 表現最佳,正確識別35.3%的 CPT 代碼,ChatGPT 緊隨其後,正確率為35.1%,而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出,雖然這些模型能部分識別 CPT 代碼,但進一步訓練可提升準確性,並可能降低醫療成本。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4.0、ChatGPT-4o 和 Claude—在生成手術報告和出院摘要的效果。研究重點在準確性、效率和質量,由整形外科醫生進行驗證。可讀性用不同指數評估,可靠性則用DISCERN分數衡量。結果顯示,Claude在速度和輸出質量上優於其他模型,成為醫療文檔中最有效率的LLM,可能改善醫患溝通和病人結果。研究強調選擇合適的LLMs對臨床應用的重要性。 PubMed DOI

這項研究發現,ChatGPT-4在有選擇題選項時,答對率超過86%,但沒選項時最低只有61.5%。它在管理問題上比診斷問題更容易出錯。雖然GPT-4能處理臨床資訊,但不是真的懂臨床情境。未來如果和專業醫療人員搭配,有機會幫助臨床工作,但還需要更多測試來確保安全和有效。 PubMed DOI

這項研究發現,ChatGPT-4o在分析敗血症患者臨床紀錄、評估抗生素和導管管理上表現不錯,但在隔離措施和壓瘡辨識上有失誤。整體來說,LLMs有潛力成為臨床感染控制的輔助工具。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed