原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語(CPT)代碼的效果。分析了30份手術記錄後,AtlasGPT 表現最佳,正確識別35.3%的 CPT 代碼,ChatGPT 緊隨其後,正確率為35.1%,而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出,雖然這些模型能部分識別 CPT 代碼,但進一步訓練可提升準確性,並可能降低醫療成本。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-4和GPT-3.5在提取神經放射學報告中缺血性中風患者機械溶栓術數據的表現。結果發現,GPT-4比GPT-3.5更準確,處理所有報告且無需進一步處理即可正確提取94.0%的數據項目,而GPT-3.5僅有63.9%的準確率。總結來說,GPT-4在提取正確程序數據方面更有效。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別顱面外科手術的CPT代碼的有效性,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時,尤其在專業編碼人員短缺的情況下,研究旨在評估這些AI模型的效率和準確性。結果顯示,雖然整體準確性差異不大,但ChatGPT 4.0在複雜代碼上表現較佳,而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔,並提升CPT編碼的資源效率,支持將其整合進臨床流程。 PubMed DOI

這項研究探討了大型語言模型(LLMs),如ChatGPT-4o、ChatGPT-3.5和Google Gemini,在輔助放射學研究中的效能。進行了兩個實驗: 1. **生物統計學與數據視覺化**:測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳,正確回答7個問題,且生成的程式碼錯誤較少。 2. **深度學習**:評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼,並透過互動修正錯誤。 總體而言,LLMs對放射學研究有幫助,但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在急性缺血性中風(AIS)患者的手術記錄中提取數據的有效性。分析了382份手術記錄,重點在30份,以指導LLMs提取關鍵特徵。六種LLMs的表現良好,平均準確率達95.09%,整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出,準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師,顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在從非結構化住院病歷中提取ICD-10-CM代碼的效果,並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等,共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼,平均每份病歷4個。雖然LLMs的中位數代碼數量較高,GPT-4表現最佳,但與人類編碼員的符合率仍然較低,顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT,在填寫血管質量倡議(VQI)程序數據庫的有效性。研究針對三種手術進行,結果顯示LLMs的準確率相當高,CEA為84.0%、EVAR為92.2%、LEB為84.3%。排除少見指標後,準確率更提升至CEA的95.5%、EVAR的94.8%和LEB的93.2%。兩個模型(gpt-35-turbo和gpt-4)之間性能差異不大,且分析成本低。整體而言,LLMs能有效協助填寫VQI數據庫,建議進一步研究以提升準確性。 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI