原始文章

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)在臨床實踐中有潛力提升病人教育與賦權,提供更個人化的醫療服務。然而,目前對其在病人照護中的應用資訊仍不夠完整。本系統性回顧分析了2022至2023年間的89項相關研究,主要集中於GPT-3.5和GPT-4,應用於回答醫療問題、生成病人資訊等。研究指出設計和輸出方面的限制,包括缺乏針對醫療的優化及數據透明度等問題。此回顧為LLMs在醫療環境中的應用與評估提供了基礎框架。 PubMed DOI

最近大型語言模型(LLMs)在即時搜尋和多語言支持上有了顯著進展,但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示,英語回應中沒有臨床錯誤,但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用,但39%的英語引用來自.com網站,質量堪憂。此外,英語回應的閱讀水平普遍較高,非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進,持續的基準測試是必要的。 PubMed DOI

大型語言模型(LLMs)在臨床醫學中展現出潛力,能改善決策支持、診斷及醫學教育。不過,將其整合進臨床流程需徹底評估,以確保可靠性、安全性及倫理性。本系統性回顧調查了LLMs在臨床環境中的評估方法,發現大多數研究集中於一般領域的LLMs,醫學領域的研究較少。準確性是最常評估的參數。儘管對LLMs的興趣上升,研究中仍存在限制與偏見,未來需建立標準化框架,確保其安全有效地應用於臨床實踐。 PubMed DOI

這項研究探討使用者對大型語言模型(LLM)驅動的聊天機器人(如ChatGPT)提供的健康資訊的看法,與傳統線上資源相比。結果顯示,98%的參與者仍主要依賴搜尋引擎尋找健康資訊,只有21.2%使用聊天機器人。大多數人尋求健康狀況資訊,但對於用藥建議和自我診斷的需求較低。雖然LLM聊天機器人逐漸受到年輕族群的青睞,但使用者在遵循建議時仍較為謹慎。研究強調提高準確性和透明度對於健康資訊的安全性至關重要。 PubMed DOI

本研究探討大型語言模型(LLMs)在肌肉骨骼醫學的應用,並評估相關研究的質量。透過系統文獻回顧,分析了2022至2024年間的114項研究,主要集中在病人問題回答、診斷管理、骨科檢查等五大領域。大部分研究使用ChatGPT 3.5,方法學上存在透明度不足的問題。研究指出,雖然LLMs在醫療上有潛力,但目前的研究仍需改進,並強調建立指導方針以促進有效應用。 PubMed DOI

慢性病是全球主要死因,LLMs(像ChatGPT)在管理慢性病上有潛力,能提供準確、易懂的健康建議,幫助病人自我管理和獲得支持。專業型LLMs表現更好,但目前證據有限,還有隱私、語言和診斷等挑戰。臨床應用還在初期,未來需加強資料安全、專業化和與穿戴裝置整合。 PubMed DOI

大型語言模型在腫瘤醫學應用越來越多,能提升資訊取得效率、減輕醫師負擔,但準確性和幻覺問題仍讓人擔心,需醫師監督。現有研究多聚焦於問答、診斷和治療管理,雖然相關技術持續進步,但在廣泛臨床應用前,還需更多驗證和提升準確性。 PubMed DOI

這篇回顧整理了17篇關於ChatGPT在醫療應用的研究,發現它在病患照護、臨床決策和醫學教育上有潛力,應用範圍廣泛。不過,目前多數研究品質普通,且在倫理、法律和準確性上還有疑慮。未來需要更完善的指引和政策,才能確保安全可靠地使用。 PubMed DOI

這項研究比較五款聊天機器人在篩選AI牙齒分割相關X光文獻的表現,發現它們在篩選決策上差異很大,跟人類專家的結果也不太一致。ChatGPT-4的精確度和準確率最高,Claude-instant-100k雖然敏感度最好,但精確度最低。整體來說,這些聊天機器人的準確性和一致性都有限,還是需要人類專家來監督和確認結果。 PubMed DOI

這篇綜述分析270篇文獻,發現現有大型語言模型(如GPT-4)雖然能協助醫師處理多種臨床任務,但沒有單一模型能全面勝任所有需求,專業任務還需客製化。多數先進模型又是封閉原始碼,造成透明度和隱私疑慮。作者建議建立簡單易懂的線上指引,幫助醫師選擇合適的LLM。 PubMed DOI