原始文章

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語(CPT)代碼的效果。分析了30份手術記錄後,AtlasGPT 表現最佳,正確識別35.3%的 CPT 代碼,ChatGPT 緊隨其後,正確率為35.1%,而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出,雖然這些模型能部分識別 CPT 代碼,但進一步訓練可提升準確性,並可能降低醫療成本。 PubMed DOI


站上相關主題文章列表

這項研究評估了AtlasGPT和ChatGPT 4.0在預測動脈瘤性蛛網膜下腔出血(aSAH)患者的準確性,並與傳統臨床評估量表比較。研究包含82名患者,結果顯示住院死亡率為22%,34.1%需進行減壓性半顱切除手術。出院時28%患者有良好結果,六個月後提升至46.9%。AtlasGPT在預測手術需求方面表現最佳(AUC 0.80),而WFNS量表在長期功能預測上最為準確(AUC 0.76)。研究建議結合AI模型與傳統量表可提升預測準確性。 PubMed DOI

這項研究探討了使用先進的大型語言模型,如ChatGPT 3.5和ChatGPT 4,來提升醫療紀錄中ICD-10代碼的分類準確性,特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行,結果顯示ChatGPT 4的匹配率為86%到89%,明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳,但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中,能提升醫療文檔的準確性,特別在複雜案例中。 PubMed DOI

這項研究比較了兩個大型語言模型,ChatGPT-4.0 和 Gemini,在解釋神經外科影像問題上的表現。研究提出250個問題,結果顯示ChatGPT-4.0的正確回答率為33.6%,明顯優於Gemini的0.4%。在某本教科書的問題中,ChatGPT-4.0的正確率達50%,而另一個教科書則為17.7%。Gemini的「無法回答」率高,顯示其在影像解釋上存在困難。這些結果顯示,AI在神經外科視覺解釋方面仍需進一步改進。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別手部手術的CPT代碼上的表現,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現,Perplexity.AI在簡單程序中表現最佳,獲得15個正確結果,而對於複雜程序,則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性,未來可能成為醫療工作流程的標準部分,符合數位轉型的趨勢。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Google Gemini,在顱面手術記錄中識別CPT修飾符的效果。準確的醫療編碼對醫療管理和報銷非常重要,尤其在顱面外科這種複雜領域。研究分析了10份手術報告,結果顯示兩個模型都未能成功識別CPT代碼及修飾符,但ChatGPT稍微優於Google Gemini,部分回應中包含正確的代碼。這項研究顯示LLMs在顱面外科的潛力,未來應提升其能力並評估在其他外科的應用。 PubMed DOI

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI

這項研究比較ChatGPT-Omni和Gemini兩款AI在500題神經外科案例題的表現。結果顯示,ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini好,不論初次還是後續評估都領先。雖然兩者都有進步,但ChatGPT-Omni在所有神經外科情境下表現都較佳,更適合用於臨床決策和教育輔助。 PubMed DOI

這項研究比較ChatGPT-Omni和Gemini兩款AI語言模型在500題神經外科案例題的表現。結果顯示,ChatGPT-Omni在準確性、相關性和清晰度上都比Gemini優秀,不論初次或後續測試都拿到較高分。雖然兩者都有進步,但ChatGPT-Omni始終領先,顯示它在神經外科決策和教學上很有潛力。 PubMed DOI