原始文章

這項研究評估了十四個大型語言模型(LLMs)在不同臨床情境中推薦抗生素的表現。研究使用標準化提示,針對60個案例的藥物選擇、劑量和治療持續時間進行評估。結果顯示,ChatGPT-o1的準確率最高,達71.7%,劑量正確性達96.7%。而在治療持續時間方面,Gemini表現最佳(75.0%)。不過,各模型在複雜案例中的表現差異明顯,顯示出在臨床應用前仍需謹慎驗證。 PubMed DOI


站上相關主題文章列表

研究發現GPT-4在醫學案例初步診斷、檢查和治療方面表現最佳,尤其在常見疾病方面。商業LLMs有潛力用於醫學問答,但仍需加強。開源LLMs則可應對數據隱私和培訓透明度需求。強調強大且受監管的AI模型在醫療保健領域的重要性。 PubMed DOI

研究評估了ChatGPT模型在脊椎手術抗生素使用方面的應用,發現GPT-4.0比GPT-3.5更準確,並更頻繁引用指引。儘管ChatGPT能提供準確答案,但仍需謹慎應用於臨床。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)在幽門螺旋桿菌感染諮詢中的有效性,重點分析其在英語和中文的表現。研究期間為2023年11月20日至12月1日,針對15個H. pylori相關問題進行評估。結果顯示,準確性得分為4.80,顯示良好,但完整性和可理解性得分較低,分別為1.82和2.90。英語回應在完整性和準確性上普遍優於中文。結論指出,雖然LLMs在提供資訊上表現不錯,但在完整性和可靠性方面仍需改進,以提升其作為醫療諮詢工具的效能。 PubMed DOI

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究評估了GPT-3.5-turbo和GPT-4-turbo在急診部門提供臨床建議的表現,分析了10,000次就診。結果顯示,這兩個模型的準確性都不如住院醫師,GPT-4-turbo平均低8%,而GPT-3.5-turbo低24%。雖然這些大型語言模型在敏感性上表現良好,但特異性較低,顯示出建議過於謹慎。研究指出,儘管LLMs在臨床應用上有潛力,但在成為可靠的醫療決策支持系統前,仍需大幅改進。 PubMed DOI

抗微生物抗藥性對全球公共健康造成重大挑戰。本研究評估了AI語言模型ChatGPT<sup>®</sup>在抗生素處方上的表現,並與傳染病專家比較。研究創建了100個模擬病人案例,結果顯示ChatGPT<sup>®</sup>與專家在抗生素處方上達成一致的有51個案例,Cohen's kappa係數為0.48,顯示中等一致性。在抗藥性機制方面,雙方一致的有42個案例,kappa係數為0.39,顯示公平一致性。整體而言,ChatGPT<sup>®</sup>在抗生素管理上的一致性較差。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示,Med-Go 的中位數得分為37.5,優於其他模型,而 Gemini 得分最低,為33.0,差異顯著(p < 0.001)。所有模型在鑑別診斷上表現較弱,但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練,以提升效能,並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

大型語言模型(LLMs)在醫療領域的應用日益增多,能協助診斷和治療感染。一項研究比較了全科醫生與六個LLMs(如ChatGPT、Gemini等)對24個臨床案例的反應。全科醫生在診斷和抗生素處方的準確率高達96%-100%,但在劑量和療程的準確性上較低(50%-75%)。LLMs的表現也不錯,但在參考指導方針的能力上不一致,特別是在挪威的表現不佳。研究指出LLMs有數據洩漏的風險,雖然它們在抗生素處方上有潛力,但全科醫生在臨床情境解釋和指導方針應用上仍更具優勢。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI