原始文章

這項研究評估了兩個人工智慧系統,ChatGPT 4.0 和 Algor,在生成耳鼻喉科概念圖的表現。八位專家根據概念識別、關係建立等標準進行評估。結果顯示,兩者各有優勢,ChatGPT 在交叉連結和佈局上表現佳,特別是鼻整形手術方面;而 Algor 在識別主題和區分概念上更出色,尤其在 BPVV 和鼓膜通氣管的指導方針中。研究建議需進一步探討 AI 在醫學教育中的應用潛力與限制。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個AI聊天機器人,GPT-4和GPT-3.5(ChatGPT),在回答鼻整形手術相關臨床問題的表現。分析了10個問題後,兩者準確率均達90%。不過,GPT-4的準確率(86.0%)略低於GPT-3.5(94.0%),但差異不顯著。GPT-4在評估證據信心方面表現更佳(52.0%對28.0%)。兩者在政策層級和證據質量上無顯著差異,但GPT-4引用文獻的頻率較高(36.9%對24.1%)。總體來看,GPT-4在專業情境中顯示出更準確的參考潛力。 PubMed DOI

ChatGPT是由OpenAI開發的生成式人工智慧,因其優秀的對話能力而受到關注,特別是在醫療領域的應用,如病人管理和臨床試驗。這篇回顧分析了2000年至2023年間在泌尿科和外科的相關文獻,使用PRISMA流程圖說明文章選擇過程,並探討了ChatGPT在外科的多種應用,包括行政任務、手術同意書、報告撰寫及醫學教育。儘管其在病人診斷和預測結果上展現潛力,但也面臨錯誤資訊、偏見及保密等挑戰,因此整合時需謹慎監管以確保病人安全。 PubMed DOI

這項研究評估了ChatGPT對常見鼻科問題的回答準確性,並與專業外科醫師的回答進行比較。ChatGPT的平均得分為1.65分(滿分3分),顯示部分回答可接受,但多數不正確或不完整。10個問題中,只有2個回答與專家一致,8個則被認為不足。評分者之間的可靠性中等,且能以97.5%的準確率區分ChatGPT和人類回答。這些結果顯示ChatGPT在醫學領域提供準確資訊的能力有限。 PubMed DOI

這項研究評估了兩個版本的ChatGPT在美國醫學執照考試(USMLE)風格問題上的表現,使用了900道選擇題。結果顯示,ChatGPT-4的準確率為71.33%,明顯高於AMBOSS用戶的54.38%和ChatGPT-3.5的46.23%。ChatGPT-4在準確率上比ChatGPT-3.5提升了25%,且在多次測試中的一致性也較高。雖然兩個模型在不同醫學主題上的表現有所不同,但問題的複雜性可能影響了表現變異性。總體而言,ChatGPT-4在醫學教育中展現出潛力,甚至在某些方面超越人類。 PubMed DOI

人工智慧(AI)在醫療領域的應用帶來了機會與挑戰,尤其在倫理和專業問題上。本研究評估了ChatGPT 3.5和4.0在處理醫療情境中的表現,使用了273道來自不同題庫的問題。結果顯示,GPT-3.5的正確回答率普遍低於醫學生的平均水平,而GPT-4在某些題庫中表現較佳。雖然GPT-4在倫理和人際互動方面顯示潛力,但人類的推理能力仍然優於AI,未來需持續發展AI系統以提升其在醫療中的有效性。 PubMed DOI

本研究比較了ChatGPT4.0與3.5在手外科影像問題上的表現,發現兩者在正確率上無顯著差異(分別為30.1%和28.7%)。雖然ChatGPT4.0提供的解釋較長,但對答案的信心卻較低,尤其在放射影像問題上表現出更高的不確定性。未來研究應探討AI生成的回答如何影響臨床與教育環境中的行為,以促進AI在醫療中的應用。 PubMed DOI

AICHECK的研究評估了ChatGPT在生成持續醫學教育內容的有效性,特別針對痤瘡的回應與NICE指導方針進行比較。研究使用23項問卷,由五位皮膚科醫生評估ChatGPT版本4的輸出。結果顯示質量、可讀性和全面性評分高,但準確性和與指導方針的一致性較低。雖然參考文獻的相關性和適切性獲得好評,但僅62.3%被認為是最新的。研究強調對於有爭議的主題,AI生成內容需嚴格評估和專家監督,以確保準確性。 PubMed DOI

本研究評估了ChatGPT在眼科領域撰寫科學引言的能力,並與經驗豐富的眼科醫師進行比較。十位專家在不知情的情況下評估了ChatGPT和人類撰寫的引言,準確率為57.7%。錯誤分類率在不同子專科中差異顯著,眼整形的錯誤率最高。評估指標顯示,ChatGPT生成的引言與人類撰寫的並無顯著差異,近一半的引言無法區分。這顯示ChatGPT在眼科科學內容生成上有顯著進步,未來應探討其在學術寫作中的潛力與倫理影響。 PubMed DOI

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI