原始文章

這項研究比較GPT-4、Gemini、Copilot三種大型語言模型在分配整形外科手術CPT代碼的表現,結果發現三者準確率都很低(最高僅19.2%)。Gemini在美學手術較佳,Copilot則在一般重建手術表現較好,但沒一款能正確處理乳房重建或顱顏外傷。常見錯誤有誤解手術內容和代碼合併錯誤。目前這些模型還不夠準確,仍需人工審核。 PubMed DOI


站上相關主題文章列表

研究比較了三個大型語言模型(LLMs)- ChatGPT-3.5、GPT-4和Gemini-在為整形外科患者提供術後護理建議的表現。結果顯示,這些模型提供的資訊都很準確,其中GPT-3.5在評分上表現最好。Gemini的回應更易讀、更易懂。雖然LLMs在術後護理方面有潛力,但仍需進一步研究和改進,才能成為更完善的資源。 PubMed DOI

美國醫療常有診斷錯誤,研究發現ChatGPT-4比Google Gemini更適合急診決策。即使沒有身體檢查數據,ChatGPT-4表現更佳。加入檢查數據並未明顯提升性能,顯示人工智慧可輔助臨床決策,但不應取代傳統醫學知識。 PubMed DOI

醫學研究人員越來越多地使用先進的語言模型(LLMs),如ChatGPT-4和Gemini,來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力,以協助整形外科醫生做出更好的診斷和治療決策。 研究中創建了五十個臨床情境來評估分類準確性,結果顯示Gemini的準確率高達98%,而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4,顯示出其在整形外科實踐中的潛力,未來有望增強診斷支持和決策能力。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別顱面外科手術的CPT代碼的有效性,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時,尤其在專業編碼人員短缺的情況下,研究旨在評估這些AI模型的效率和準確性。結果顯示,雖然整體準確性差異不大,但ChatGPT 4.0在複雜代碼上表現較佳,而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔,並提升CPT編碼的資源效率,支持將其整合進臨床流程。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、AtlasGPT 和 Gemini—在識別血管內神經外科手術報告中的程序術語(CPT)代碼的效果。分析了30份手術記錄後,AtlasGPT 表現最佳,正確識別35.3%的 CPT 代碼,ChatGPT 緊隨其後,正確率為35.1%,而 Gemini 僅有8.9%。統計分析顯示這些模型之間的表現差異顯著。研究指出,雖然這些模型能部分識別 CPT 代碼,但進一步訓練可提升準確性,並可能降低醫療成本。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Gemini,在根據手術記錄生成當前程序術語(CPT)代碼的有效性。分析了10個案例,將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似,準確性無顯著差異。Gemini的正確回應率稍高(30%對20%),而ChatGPT則有更多部分正確的回應(50%對40%)。研究指出,AI有潛力提升編碼準確性並減少醫療帳單的行政負擔,未來將探討其在其他外科領域的應用。 PubMed DOI

這項研究分析了五種大型語言模型(LLMs)在識別手部手術的CPT代碼上的表現,包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和4.0。研究發現,Perplexity.AI在簡單程序中表現最佳,獲得15個正確結果,而對於複雜程序,則只有Perplexity.AI和Bard各有三個正確結果。這顯示AI模型在手術編碼中有潛力提升效率與準確性,未來可能成為醫療工作流程的標準部分,符合數位轉型的趨勢。 PubMed DOI

這項研究介紹了PlasticSurgeryGPT,一個專為整形外科設計的語言模型,經過微調以適應25,389篇研究摘要,旨在提升臨床決策、外科教育及研究表現。數據來自2010至2024年間的PubMed,並已預處理以便訓練。模型基於GPT-2架構,評估結果顯示PlasticSurgeryGPT在生成整形外科內容上表現優於通用模型。研究強調特定領域的語言模型在整形外科的潛力,並建議未來可探索更多數據和更大模型以進一步改善。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT和Google Gemini,在顱面手術記錄中識別CPT修飾符的效果。準確的醫療編碼對醫療管理和報銷非常重要,尤其在顱面外科這種複雜領域。研究分析了10份手術報告,結果顯示兩個模型都未能成功識別CPT代碼及修飾符,但ChatGPT稍微優於Google Gemini,部分回應中包含正確的代碼。這項研究顯示LLMs在顱面外科的潛力,未來應提升其能力並評估在其他外科的應用。 PubMed DOI

這項研究比較三款大型語言模型產生的SCR手術衛教資料,發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過,所有模型都沒附參考文獻,也沒提及其他治療選擇或不手術的風險,顯示臨床使用前還是需要專家把關。 PubMed DOI