原始文章

這項研究比較了外科醫生與大型語言模型(LLM)聊天機器人在解釋白內障手術併發症的效果。結果顯示,外科醫生的回應更清晰且同理心較高,但回應較短;聊天機器人則提供更詳細的解釋,準確性和完整性相似。研究建議透過真實情境和專業數據訓練聊天機器人,以提升其在病人諮詢中的表現。 PubMed DOI


站上相關主題文章列表

斜視是常見的眼科疾病,病人教育對於知情決策很重要。本研究比較了三個AI聊天機器人(ChatGPT、Bard、Copilot)和一個可靠網站(AAPOS)在回答斜視相關問題的表現。結果顯示,AAPOS在準確性上表現最佳,其次是Bard、Copilot和ChatGPT。Bard在可理解性和可行性方面得分最高,而AAPOS則在可讀性上最容易理解。情感分析顯示,Bard和Copilot在病人教育上有潛力,但AAPOS在準確性和可讀性上仍優於這些聊天機器人。 PubMed DOI

這項研究評估了四款大型語言模型(LLM)聊天機器人對屈光手術常見問題的回答適當性與可讀性。經驗豐富的屈光外科醫生評估了答案的正確性,並用五種指標測量可讀性。結果顯示,ChatGPT 3.5 正確率為 45%,ChatGPT 4.0 為 52.5%,Gemini 表現最佳,達 87.5%,Copilot 則為 60%。所有機器人的可讀性都很困難,理解需具大學學位。儘管如此,Gemini 提供的答案最為適當,且可讀性較佳。總體而言,這些聊天機器人仍可能產生不當回應,且閱讀上有挑戰。 PubMed DOI

這項研究顯示ChatGPT-4o在提升病人手術教育方面的潛力。每年全球有約3億次手術,手術後30天內死亡人數達420萬,因此有效的病人教育非常重要。研究針對六種手術程序的常見問題進行音頻回應,並由外科醫生評估。 主要發現包括: - ChatGPT-4o在準確性(4.12/5)和相關性(4.46/5)上表現優異,潛在危害性低(0.22/5)。 - 手術後的回應準確性和相關性優於手術前。 - 小型手術的回應雖少,但準確性高於大型手術。 研究建議將GPT-4o整合進醫院系統,以提供即時可靠的信息,提升病人滿意度和知情決策能力。 PubMed DOI

這項研究評估了七款熱門聊天機器人生成的白內障手術病人資訊手冊的品質,包括Bing AI、ChatGPT 3.5、ChatGPT 4、ChatSonic、Google Bard、Perplexity和Pi。研究發現,ChatSonic的回應品質最佳,其次是Bing AI和Perplexity,而ChatGPT 3.5的表現最差,還包含錯誤資訊。Bing AI、ChatSonic和Perplexity提供了可靠的參考資料,顯示出在醫療資訊提供上,聊天機器人的品質和可靠性差異明顯,特別是ChatSonic在眼科病人教育方面的潛力。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了基於人工智慧的聊天機器人,特別是ChatGPT 3.5和Claude-instant,在複雜口腔外科案例中輔助臨床決策的效果。口腔及顏面外科醫生設計了一系列問題,並透過專業評估工具來檢視聊天機器人的回應質量。結果顯示,ChatGPT和Claude-instant都提供高質量的回應,ChatGPT的質量評分分別為86%和79.6%,而Claude-instant則為81.25%和89%。這些結果顯示聊天機器人技術的進步,可能提升醫療效率並降低成本。 PubMed DOI

本研究評估了ChatGPT在分析青光眼患者案例及建議手術治療的能力。對60例手術案例進行回顧性分析,結果顯示ChatGPT的建議準確率為78%,在普通案例中表現良好,與專家建議相近。然而,在挑戰性案例中準確率下降至65%,顯示其在複雜情境下的局限性。總體而言,ChatGPT在普通案例中能提供合理的治療計畫,但在處理更具挑戰性的情況時仍需謹慎。 PubMed DOI

這項研究比較四款AI聊天機器人在外科選擇題的表現,發現Copilot表現最佳,ChatGPT次之,Bard和Medical Chat較弱。各專科表現有落差,尤其耳鼻喉科和腸胃科最明顯。所有AI在診斷題的表現都優於處置題,Bard差異最大。結果顯示AI在外科教育和臨床應用各有優缺點。 PubMed DOI

這項初步研究發現,ChatGPT 3.5回答腦血管問題時,比醫師更完整、有同理心,正確率也差不多,但用詞較艱深,一般人可能看不懂。未來可考慮結合AI和醫師意見,幫助病患更好溝通。 PubMed DOI

這項研究發現,AI 聊天機器人(像是ChatGPT、Copilot等)在回答兒童下頜骨延長術常見照護問題時,雖然Copilot表現最好,但整體來說,答案不夠可靠、資料來源不足,而且用詞太艱深,病人和家屬很難看懂,暫時還不適合當作醫療諮詢的主要工具。 PubMed DOI