原始文章

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI


站上相關主題文章列表

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在回答眼表疾病相關問題的表現,包括ChatGPT-4、ChatGPT-3.5、Claude 2、PaLM2和SenseNova。研究團隊設計了100道單選題,涵蓋角膜炎等主題。結果顯示,ChatGPT-4的準確性和可信度最佳,成功率為59%,但仍有28%的錯誤率。PaLM2在答案準確性上表現良好,相關係數達0.8。整體而言,這些模型在醫學教育和臨床實踐中展現了潛力,特別是ChatGPT-4的表現尤為突出。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示,GPT-4的準確率為72.9%,明顯優於GPT-3.5的59.1%。在基礎科目中,GPT-4得分更高,顯示其在臨床藥學和教育上的潛力。不過,研究也提醒使用者需謹慎,因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計,以更有效評估學生能力。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了九個大型語言模型(LLMs)在醫學領域的表現,特別是在臨床化學和實驗室管理方面。使用零-shot提示法測試109個臨床測驗,結果顯示GPT-4o的準確率最高,達81.7%,其次是GPT-4 Turbo(76.1%)和Claude 3 Opus(74.3%)。這些模型在數字和計算任務上表現優異,顯示出它們能有效運用現有知識協助醫療專業人員進行決策,未來有潛力成為醫療輔助工具。 PubMed DOI

在兒科護理中,藥物計算錯誤仍然是一大挑戰。本研究探討大型語言模型(LLMs)如ChatGPT-4o和Claude-3.0在減少這些錯誤的效果,並與經驗豐富的護理人員進行比較。結果顯示,LLMs的準確率達100%,而護理人員為93.14%。此外,LLMs的計算速度也顯著更快。研究建議進一步探索這些模型在醫療環境中的應用潛力,以提升藥物安全性和臨床效率。 PubMed DOI

ChatGPT-3.5 在治療學考試的表現明顯不如藥學系學生,分數只有 53%,學生平均則有 82%。它在需要應用和案例分析的題目上特別吃力,只有在記憶型題目表現較好,顯示生成式 AI 在複雜醫學教育任務上還有不少限制。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI

五款主流大型語言模型(如ChatGPT-4、Gemini等)在麻醉學考題測試中都拿到高分,彼此表現差不多,顯示未來有望協助醫學教育和臨床決策。不過,還需要更多研究來確認它們的可靠性、倫理問題及對病患照護的實際影響。 PubMed DOI