原始文章

生成式人工智慧(GenAI)在醫療服務中有潛力,尤其是在臨床環境。不過,實際臨床的複雜性需要謹慎且基於證據的方法來確保AI的安全與有效性。本研究將系統性評估四個知名的GenAI模型(Claude 2、Gemini Pro、GPT-4.0及一個自訂的GPT-4.0聊天機器人),並針對臨床微生物學和傳染病領域進行分析。評估將由兩組專業醫師進行,使用5點李克特量表來檢視回應的事實一致性、全面性、一致性及潛在醫療危害。研究將提供GenAI在臨床應用的見解,並強調制定倫理指導方針的重要性。 PubMed DOI


站上相關主題文章列表

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現,結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分,尤其在倫理問題上。AI有助於醫師,但不應取代人類專業知識,需進一步研究整合到臨床環境中的方法。 PubMed DOI

這項研究探討醫學生在與大型語言模型(如ChatGPT)和人類教練互動時,對診斷決策的影響。研究對象為158名來自柏林查理大學的四年級醫學生,他們被分配到不同的互動方式,並接受相關訓練。研究將評估資訊搜尋、假設考量、診斷準確性及信心水平等因素,並使用線性混合效應模型進行統計分析。研究已獲倫理審查批准,預期結果將為人工智慧在醫學診斷中的應用提供重要見解,並將發表於同行評審期刊。 PubMed DOI

2022年11月推出的ChatGPT引起了對大型語言模型在臨床環境中應用的關注。最近一項針對英國全科醫生的調查顯示,20%的醫生已在臨床實踐中使用生成式人工智慧工具。使用者中,29%用於生成就診後文檔,28%用於建議鑑別診斷。儘管醫生認為這些工具在行政和臨床推理上有價值,但缺乏明確的指導和政策,醫療界面臨著教育專業人員和患者的挑戰。 PubMed DOI

這項研究評估了ChatGPT在生成前列腺癌相關醫療回應的表現。研究期間為2023年4月至6月,超過700名醫療腫瘤科和泌尿科醫師參與,且他們不知是在評估AI。結果顯示,602名受訪者在9個問題中有7個偏好AI生成的回應,但仍認為醫療網站更可信。98名受訪者對AI生成的複雜問題回應給予高評價,顯示臨床醫師欣賞AI的清晰度,但仍偏好傳統網站作為資訊來源。這提供了對臨床醫師評估AI內容的見解,並為未來的AI驗證研究提出了評估標準。 PubMed DOI

最近的研究顯示,透過大型語言模型(LLMs)在急性肝衰竭(ALF)問題上的表現,特別是使用增強檢索生成(RAG)技術的ChatGPT 4,顯示出顯著的優勢。研究中評估了五個模型,結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳,得分分別為4.70、4.89和4.78。相比之下,其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力,但也指出其需持續進化以符合實際需求。 PubMed DOI

大型語言模型如ChatGPT正在改變臨床研究,提升內容創作及數據分析的能力。不過,將這些工具融入學術寫作仍面臨挑戰。本文探討在臨床研究中使用AI的實用策略,並考量倫理問題。強調安全有效使用生成式AI的例子,並指出確保AI結果在學術上可靠的重要性。雖然AI能簡化重複性任務,但無法取代作者的批判性分析。仔細審查AI生成的文本,確保與作者見解一致,並解決抄襲檢測及倫理使用的挑戰。 PubMed DOI

這項系統性回顧分析了137篇經過同行評審的研究,探討生成式人工智慧聊天機器人在健康建議上的表現。結果顯示,研究報告標準差異大,主要集中在外科、醫學和基層醫療。大部分研究針對治療、診斷或疾病預防,但幾乎全數(99.3%)使用的都是無法訪問的封閉源碼大型語言模型,且對其特徵描述不足。此外,多數研究未提及提示工程,只有少數討論倫理、法規及病人安全。這些結果顯示需改善報告標準,建議開發聊天機器人評估報告工具(CHART),以提升臨床評估與整合的效果。 PubMed DOI

最近大型語言模型(LLMs)在即時搜尋和多語言支持上有了顯著進展,但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示,英語回應中沒有臨床錯誤,但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用,但39%的英語引用來自.com網站,質量堪憂。此外,英語回應的閱讀水平普遍較高,非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進,持續的基準測試是必要的。 PubMed DOI