原始文章

這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。 PubMed DOI


站上相關主題文章列表

人工智慧如ChatGPT在醫療方面有潛力,尤其在診斷和治療上。研究顯示,在外科知識問題上,ChatGPT的表現接近或超越人類水準,尤其在多重選擇問題上更優秀,提供獨到見解。然而,有時答案可能不正確,且回應可能不一致。儘管表現令人驚豔,但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

研究指出,像ChatGPT這樣的大型語言模型對神經外科醫生在處理臨床病例時有幫助。ChatGPT 3.5和4.0在診斷方面比Perplexity AI和Bard AI更準確,前五個診斷中達到77.89%的正確率。然而,對於複雜疾病仍有挑戰。總的來說,LLMs有助於提升神經外科診斷的精準度。 PubMed DOI

研究發現ChatGPT-4在外科決策方面表現優於初級醫師,與高年級醫師相當。ChatGPT-4平均得分為79.2%,初級醫師66.8%,高年級醫師76.0%,主治醫師77.6%。特別在手術和檢查方面表現出色,可作為教育工具幫助初級醫師學習外科決策。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究評估了ChatGPT在診斷結腸癌的能力,特別是比較GPT-3.5和GPT-4.0的表現。研究分析了286份腸癌病例,結果顯示GPT-4.0在初診和次診的準確率均高於GPT-3.5,分別為0.972對0.855和0.908對0.617。雖然GPT-4.0在處理病史和實驗室數據上有所改善,但在識別症狀方面仍有挑戰。整體而言,GPT-4.0在臨床輔助診斷中展現出潛力,但仍需進一步研究以克服其限制。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Claude,在脊椎病理的外科決策及放射影像解讀的有效性,並與經驗豐富的脊椎外科醫生進行比較。結果顯示,雖然LLMs能詳細描述MRI影像,但在準確識別病變及外科決策上表現不佳,準確率僅20%,遠低於外科醫生的100%。研究建議LLMs在輔助影像解讀和決策上有潛力,但需進一步發展以克服現有限制,並強調AI研究人員與臨床專家的合作重要性。 PubMed DOI

這項研究探討了ChatGPT-4在分析下肢缺損影像及理解複雜病例報告的能力,並與專業外科醫生及住院醫師進行比較。研究在瑞士、德國和奧地利進行,52名參與者評估影像並選擇重建技術。結果顯示,ChatGPT-4在識別最佳解決方案上有困難,而專業外科醫生則表現出高度一致性。這強調了人類專業知識在患者治療計畫中的重要性,建議AI可作為輔助工具,而非取代技術熟練的外科醫生。 PubMed DOI

這項研究探討了使用ChatGPT協助先天性心臟病患者在心血管手術會議中的決策。研究分析了37個案例,發現ChatGPT能在10到15秒內準確總結案例,並在94.5%的情況下正確識別診斷。手術計畫與會議共識一致的比例為40.5%,而手術時機一致性為62.2%。研究建議ChatGPT可作為有價值的工具,特別在較簡單的案例中,但對於複雜情況仍需謹慎,並強調專家監督的重要性。 PubMed DOI

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示,ChatGPT-3.5的正確率為51.6%,而ChatGPT-4提升至63.4%;Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5,顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

這項研究探討了人工智慧,特別是ChatGPT-4,在分析複雜臨床數據及生成合理評估和計畫的能力,特別針對骨科手術。研究聚焦於急診部門的十種常見骨折,利用患者的諮詢紀錄來提供AI所需的病史和檢查結果。結果顯示,ChatGPT-4能產出安全且合理的計畫,與多專科會議的臨床結果相符。雖然對大型語言模型的評估仍在發展中,但這項研究顯示AI在臨床決策中的潛力,未來可考慮以實際臨床結果作為基準。 PubMed DOI