原始文章

這項研究比較了三款大型語言模型(ChatGPT-4、Copilot、Gemini)回答梨狀肌症候群相關問題的表現。結果發現,ChatGPT 和 Gemini 的答案比 Copilot 更完整、品質也較好,但三者在正確性上差不多。整體來說,這些AI有潛力協助健康諮詢,但還需要再加強,才能讓資訊更正確、完整又好懂。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。研究分析了30個由臨床醫師制定的問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,但風險因素的回答最不準確。整體可讀性被評為「相當困難」,平均得分為50.94。此外,70%-100%的回答都包含健康建議的免責聲明。研究建議,雖然LLM聊天機器人對病人教育有幫助,但準確性和可靠性可能因主題而異,影響病人理解。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT和Gemini,對黑色素瘤病人問題的回答效果,並與荷蘭的病人資訊資源(PIRs)比較。結果顯示,ChatGPT-3.5在準確性上表現最佳,而Gemini在完整性、個人化和可讀性方面優秀。荷蘭的PIRs在準確性和完整性上表現穩定,某網站在個人化和可讀性上特別強。整體來看,LLMs在大多數領域超越PIRs,但準確性仍需加強,且LLM的可重複性隨時間下降。研究強調,LLMs需提升準確性和可重複性,才能有效取代或補充傳統PIRs。 PubMed DOI

這項研究探討了可獲得的醫療資訊對患者的重要性,並評估了兩個AI工具,ChatGPT和Google Gemini,針對特定醫療狀況(如深靜脈血栓、壓瘡和痔瘡)的可理解性。結果顯示,ChatGPT的內容需要較高的教育水平才能理解,且其回應與現有線上資訊相似度較高。雖然兩者在易讀性和可靠性上有差異,但統計分析未能證明哪一個工具在資訊質量上優於另一個。 PubMed DOI

這項研究評估了大型語言模型(LLM)聊天機器人對於常見病人問題(如下背痛)的回答準確性和可讀性。分析了30個問題,結果顯示120個回答中,55.8%準確,42.1%不準確,1.9%不清楚。治療和自我管理的回答較準確,風險因素則最不準確。可讀性平均得分為50.94,顯示文本相對困難。此外,70%-100%的回答都有健康建議的免責聲明。總體而言,雖然LLM聊天機器人有潛力,但準確性和可讀性差異可能影響病人理解。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在回答脊髓損傷相關問題的表現,包括ChatGPT-4o、Claude-3.5 sonnet、Gemini-1.5 Pro和Llama-3.1。結果顯示,Gemini的資訊品質最佳,但可讀性較低,需大學程度理解。ChatGPT在準確性上表現最佳,達83.8%的「良好」評級,超過其他模型。所有模型在全面性和自我修正能力上表現良好,特別是ChatGPT和Claude在修訂後有顯著改善。這是首次在脊髓損傷背景下系統性比較這些模型的研究。 PubMed DOI

這項研究比較ChatGPT、Gemini和Copilot三種AI回答OAB治療問題的表現。結果顯示,ChatGPT在正確性、完整性、清楚度和實用性都拿下最高分,平均3.98/4,特別適合臨床應用。Gemini和Copilot表現較差且不穩定。整體來說,ChatGPT目前最可靠,但所有AI還需進一步改進和臨床驗證。 PubMed DOI

這項研究比較四款主流大型語言模型在回答肝硬化相關問題的表現。結果顯示,Gemini 的資訊品質最佳,ChatGPT 的正確率最高。所有模型的答案都需要大學程度閱讀能力,但簡化複雜內容的能力不錯。整體來說,這些模型在提供肝硬化健康資訊上表現良好,但品質、可讀性和正確性仍有差異,未來還需進一步改進。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究比較了ChatGPT、Gemini和Copilot在回答結核病問題的表現。ChatGPT整體表現最佳,資訊最相關;Gemini在預防控制方面較強;Copilot在疾病管理上較弱。三者在診斷表現差不多。共同缺點是缺乏來源和不確定性標註。總結來說,三款AI都能回答結核病問題,但資訊透明度和參考來源還有待加強,這對醫療應用很重要。 PubMed DOI

這項研究比較三款大型語言模型產生的SCR手術衛教資料,發現 Gemini-1.5-Pro 在教育品質和病患滿意度上表現最佳。不過,所有模型都沒附參考文獻,也沒提及其他治療選擇或不手術的風險,顯示臨床使用前還是需要專家把關。 PubMed DOI