原始文章

這項研究比較五款主流AI(如ChatGPT-4、Grok-3等)回答靜脈曲張射頻消融術常見問題的表現。結果顯示,Grok-3在風險與術後照護問題上表現最好,ChatGPT-4則在入門問題最優。其他AI表現較弱。醫師對是否推薦病人用AI工具看法不一。總結來說,目前Grok-3和ChatGPT-4在這領域最可靠,但AI仍需持續評估。 PubMed DOI


站上相關主題文章列表

這項研究評估了AI工具ChatGPT和Google Gemini在製作腹部超音波、CT掃描和MRI病患教育手冊的效果。研究於2024年6月進行,持續一週,分析了字數、句子數、可讀性和內容可靠性等指標。結果顯示,除了ChatGPT的字數和年級水平較高外,兩者在大多數指標上差異不大。兩個工具的內容在可讀性和可靠性上相似,但字數和複雜度的差異顯示需要更好地調整內容,以符合不同病患的識字能力。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

本研究評估六款生成式AI聊天機器人在鎖骨骨折管理教育中的效果,包括ChatGPT 4、Gemini 1.0等。雖然可讀性分數無顯著差異,但Microsoft Copilot和Perplexity的回答質量明顯優於其他模型。整體來看,這些AI模型在病患教育中表現良好,特別是Microsoft Copilot和Perplexity,適合用於提供鎖骨骨折相關資訊。 PubMed DOI

這項研究評估了六款生成式AI聊天機器人在跟腱斷裂相關問題上的可讀性和回應質量,目的是探討它們作為病人教育工具的潛力。分析的聊天機器人包括ChatGPT 3.5、ChatGPT 4、Gemini 1.0、Gemini 1.5 Pro、Claude和Grok。結果顯示,Gemini 1.0的可讀性最佳,對一般讀者最易理解;而在回應質量上,Gemini 1.0和ChatGPT 4的表現優於其他模型。整體而言,這些聊天機器人都能提供高於平均水平的資訊,顯示出它們在病人教育上的價值。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT和ChatSonic,針對腹腔鏡修補腹股溝疝氣的問題所提供的回答質量。研究者提出十個問題,並由兩位外科醫生使用全球質量評分(GQS)和修改版的DISCERN評分來評估。結果顯示,ChatGPT的回答質量較高,獲得了良好的評分,而ChatSonic的表現稍遜。雖然兩者都有潛力,但在可靠性和質量上的不一致性,顯示在臨床使用前仍需進一步驗證。 PubMed DOI

這項研究評估了四個人工智慧模型在生成脊椎手術病患教育材料的有效性,主要針對腰椎椎間盤切除術、脊椎融合術和減壓椎板切除術。結果顯示,DeepSeek-R1 的可讀性最佳,Flesch-Kincaid 分數介於 7.2 到 9.0 之間,而 ChatGPT-o3 的可讀性最低,超過 10.4。所有模型的資訊品質均低於 60,顯示出「公平」的品質,主要因缺乏參考資料。研究強調改善引用實踐及個性化 AI 生成健康資訊的必要性,未來應整合互動元素和病患反饋,以提升準確性和可及性。 PubMed DOI

這項研究評估了ChatGPT-4在回答全踝關節置換術(TAA)相關問題的表現。研究人員提出十二個常見問題,並請四位專科外科醫生評分其回答的準確性和清晰度。平均得分為1.8(滿分4分),顯示在事實性問題上表現尚可,但對於術後方案等細緻問題評分較低。外科醫生的評分差異顯著,顯示出不同的解讀和期望。這強調了針對特定臨床情境設計AI工具的必要性,以提升病人教育和資訊的準確性。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這項研究比較 ChatGPT-4o 和 DeepSeek R1 回答 ACL 手術常見問題的表現。結果顯示,兩者答案都很正確且一致。ChatGPT 的內容較完整,DeepSeek 則更清楚、好讀,對一般人來說較容易理解。整體來說,兩款 AI 都能提供高品質資訊,若能結合兩者優點,將更有助於病人衛教。 PubMed DOI

這項研究比較DeepSeek-V3和ChatGPT-4o在回答腹腔鏡膽囊切除術常見病人問題的表現。由兩位外科醫師評分後,發現DeepSeek-V3在適切性、正確性和易讀性都勝出,顯示它在這類病人衛教上可能更有優勢。 PubMed DOI