原始文章

這項研究評估了四款熱門聊天機器人(ChatGPT-4、Bard、Perplexity 和 Claude 2)在與認證胸腔外科醫生進行考試的表現。結果顯示,聊天機器人的中位得分為1.06,而外科醫生為1.88,差異顯著(p=0.019)。外科醫生在大多數情境中表現優於聊天機器人,且聊天機器人的重大失誤率較高(0.50對0.19;p=0.016)。總體來看,研究認為聊天機器人的表現顯著不如外科醫生,提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI


站上相關主題文章列表

研究評估人工智慧對手部手術問題回答的正確度,透過ChatGPT提問。兩位手外醫檢視回答,發現多數正確,但意見有分歧。研究顯示語言模型可能影響患者觀感,需確保安全並避免錯誤。外科醫師與AI開發者合作,提供最佳照護。 PubMed DOI

研究比較了不同聊天機器人在口腔顎面外科問題上的表現,結果顯示它們的準確性普遍不高,GPT-4在開放式問題上表現較好。這表明聊天機器人在臨床決策中可能不夠可靠。 PubMed DOI

研究評估四個聊天機器人在處理胸部外科臨床情境的表現,結果顯示它們未達到及格標準,準確性和可靠性有待提升。 PubMed DOI

研究比較LLMs和外科醫師在專業考試上的表現,結果顯示人類優於LLMs,但ChatGPT展現出分析骨科資訊的能力。儘管人類整體表現更好,LLMs有潛力在深度學習進步下提升,可能與外科醫師表現匹敵。 PubMed DOI

研究發現ChatGPT-4在外科決策方面表現優於初級醫師,與高年級醫師相當。ChatGPT-4平均得分為79.2%,初級醫師66.8%,高年級醫師76.0%,主治醫師77.6%。特別在手術和檢查方面表現出色,可作為教育工具幫助初級醫師學習外科決策。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

這項研究評估了三個AI模型—ChatGPT、Bard和BingChat—在骨科住院醫師訓練考試中的表現。結果顯示,ChatGPT的準確率為46.3%,BingChat為52.4%,Bard為51.4%。排除圖像問題後,準確率有所提升,ChatGPT達49.1%,BingChat 53.5%,Bard 56.8%。相比之下,醫學生的表現為30.8%,而PGY1至PGY5住院醫師的準確率分別為53.1%到71.9%。整體來看,這些AI模型的表現與第一年住院醫師相似。 PubMed DOI

這項研究評估了婦科腫瘤學中醫生與AI聊天機器人(如ChatGPT和Bard)對常見臨床問題的回答質量。研究中,五位醫生和兩個AI平台回答了十個問題。結果顯示,醫生的回答在76.7%的情況下被評為最佳,明顯優於ChatGPT(10%)和Bard(13.3%)。醫生的準確率為86.7%,而AI的準確率則分別為60%和43%。這顯示醫生的回答質量和準確性高於AI,並提醒大家在尋求醫療建議時要謹慎使用AI。 PubMed DOI

這項研究評估了AI聊天機器人GPT-4o和Claude-3在面對醫療診斷不確定性時的表現,與320名家庭醫學住院醫師相比。結果顯示,住院醫師的正確率為61.1%至63.3%,而Claude-3和GPT-4o的正確率分別為57.7%和53.3%。Claude-3的回應時間較長,回答字數也較多,而GPT-4o的錯誤多為邏輯性錯誤。整體來看,雖然AI在醫學知識上有潛力,但在診斷不確定性方面仍不及人類醫師。 PubMed DOI

這項研究評估了不同人工智慧聊天機器人在心臟科專科考試中的表現,並與人類研究員進行比較。研究使用了88道選擇題,結果顯示所有36名研究員都通過考試,且中位數準確率高達98%。相比之下,聊天機器人的表現參差不齊,只有Jasper quality達到最低通過率73%。大多數聊天機器人的Top-1準確率僅47%,Top-2為67%。只有Jasper quality和ChatGPT plus 4.0通過考試。結果顯示,現階段的聊天機器人在醫學考試中表現不佳,但未來可能會有改進的潛力。 PubMed DOI