原始文章

這項研究發現,現有的大型語言模型雖然能回答更年期健康問題,但目前的評估方式對於敏感醫療議題還不夠完善。作者建議應發展更專業且重視倫理的評估標準,確保AI產出的醫療資訊安全又可靠。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

最近大型語言模型(LLMs)在即時搜尋和多語言支持上有了顯著進展,但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示,英語回應中沒有臨床錯誤,但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用,但39%的英語引用來自.com網站,質量堪憂。此外,英語回應的閱讀水平普遍較高,非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進,持續的基準測試是必要的。 PubMed DOI

這項研究探討了患者與GPT-4驅動的聊天機器人在泌尿科諮詢中的互動。從2024年2月到7月,共招募300名患者,評估聊天機器人提供的醫療資訊質量。292名參與者完成了研究,結果顯示大多數患者認為聊天機器人的回應有用且易懂,但人類醫生的回答評價較高。53%的參與者偏好大型語言模型的問答能力。研究指出,這類模型可增強患者教育,並減輕醫療提供者的時間壓力。限制包括潛在的偏見和抽樣問題。 PubMed DOI

大型語言模型在腫瘤醫學應用越來越多,能提升資訊取得效率、減輕醫師負擔,但準確性和幻覺問題仍讓人擔心,需醫師監督。現有研究多聚焦於問答、診斷和治療管理,雖然相關技術持續進步,但在廣泛臨床應用前,還需更多驗證和提升準確性。 PubMed DOI

研究比較六款聊天機器人回答中年健康問題的表現,發現 Meta AI 答案最準確、最有條理,Perplexity 最容易閱讀。整體來說,這些聊天機器人對中年健康教育有幫助,但表現有差異,選擇合適的工具很重要。 PubMed DOI

這項研究發現,經過提示優化的AI聊天機器人(像Alice)在提供正確、準確和安全的健康資訊上,比標準版ChatGPT表現更好。不過,所有AI偶爾還是會出錯,所以只能當作輔助工具,不能取代醫療專業人員。未來若要廣泛應用,還需要持續改進並由人員監督。 PubMed DOI

這項研究發現,聊天機器人雖然能提供基本的情感支持和心理教育,但回應較制式,無法深入探討或安全處理危機。相較之下,治療師會引導來談者多說明,介入方式也更細緻。結論是,目前聊天機器人還不能取代專業心理健康照護,尤其遇到危機時更要小心使用。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI