原始文章

這項研究比較四款AI聊天機器人在外科選擇題的表現,發現Copilot表現最佳,ChatGPT次之,Bard和Medical Chat較弱。各專科表現有落差,尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題,Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI


站上相關主題文章列表

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術,手術後30天內死亡人數達420萬,因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應,並由外科醫生評估。 主要發現包括: - ChatGPT-4o在準確性(4.12/5)和相關性(4.46/5)上表現優異,潛在危害性低(0.22/5)。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少,但準確性高於大型手術。 研究建議將GPT-4o整合進醫院系統,以提供即時可靠的信息,提升病人滿意度和知情決策能力。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

這項研究評估了ChatGPT-3.5、ChatGPT-4及由ChatGPT-4驅動的Microsoft Copilot在手外科自我評估考試中的表現。分析了1,000道來自美國手外科學會的問題。結果顯示,ChatGPT-3.5的正確率為51.6%,而ChatGPT-4提升至63.4%;Microsoft Copilot則為59.9%。ChatGPT-4和Microsoft Copilot的表現均優於ChatGPT-3.5,顯示出它們在醫學教育中的潛力。研究建議未來需進一步評估這些模型在不同情境下的可靠性。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是ChatGPT-4和Microsoft Copilot在小兒外科的有效性。研究於2024年4月進行,分析了13個臨床案例,並將AI的回應與經驗豐富的小兒外科醫生的回應進行比較。結果顯示,ChatGPT-4的表現(52.1%)優於Copilot(47.9%),但兩者都低於醫生的68.8%。雖然ChatGPT-4在生成鑑別診斷方面表現較佳,但整體上,醫生對LLMs的評價為一般,顯示出其在臨床決策中的限制,需進一步研究以提升AI的應用能力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括Google Bard、Microsoft Copilot、具視覺功能的GPT-4和Gemini Ultra,專注於耳鼻喉科的題庫。共收集350道選擇題,結果顯示Gemini Ultra準確率最高,達79.8%,GPT-4為71.1%、Copilot 68.0%、Bard 65.1%。Gemini的回應較長,且包含解釋性圖片,而Bard的回應最長。Gemini和GPT-4成功回答所有影像問題,顯示其多模態能力。研究強調醫學學習者需批判性評估LLMs的準確性與可靠性。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),ChatGPT-4.0 和 ERNIE Bot-4.0,在外科住院醫師考試問題上的表現,並與人類住院醫師進行比較。分析了596個問題,結果顯示兩者在正確性上無顯著差異,但ERNIE Bot-4.0的表現始終優於ChatGPT-4.0。在210個有提示的問題中,ERNIE Bot-4.0的表現顯著優於ChatGPT-4.0及人類住院醫師,並在住院醫師的分數中排名前95%。總體來看,ERNIE Bot-4.0在此情境中表現更佳。 PubMed DOI

這項研究發現,ChatGPT-4 在回答牙髓病學問題時,準確度和資訊完整性都比 Google Bard 和 ChatGPT-3.5 更好,錯誤率也最低。不過,所有 AI 聊天機器人偶爾還是會出錯,所以臨床上用這些工具時要特別注意。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

這項研究發現,AI 聊天機器人(像是ChatGPT、Copilot等)在回答兒童下頜骨延長術常見照護問題時,雖然Copilot表現最好,但整體來說,答案不夠可靠、資料來源不足,而且用詞太艱深,病人和家屬很難看懂,暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI