原始文章

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI


站上相關主題文章列表

ChatGPT是經過在醫學文獻上訓練的語言模型,用來回答臨床藥學問題。它在準確性、一致性和證據品質方面表現優於藥劑師,準確率達79%,一致性達95%,且73%的問題證據品質為良好/優秀。ChatGPT對藥劑師可能是有幫助的資源,未來有潛力表現更出色。 PubMed DOI

這項研究評估了ChatGPT-4在社區藥局的表現,包括藥物資訊檢索、標籤錯誤識別、處方解讀及決策支持等。結果顯示,ChatGPT對藥物查詢的回應相當滿意,能引用正確的藥物數據,並成功識別標籤錯誤。在臨床情境中,其建議與藥師相當,特別是在藥物反應評估和健康建議方面。研究指出,ChatGPT可能成為社區藥局的有用工具,但仍需進一步驗證其在不同查詢和病人群體中的有效性及隱私問題。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試(NAPLEX)練習題上的表現。結果顯示,GPT-4的準確率最高,McGraw Hill題組達87%,RxPrep題組達83.5%。相比之下,GPT-3.5和Chatsonic的表現較差,尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應(ADR)問題上表現特別優異,顯示其在藥學教育中的潛在應用價值。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

最近的研究顯示,像 ChatGPT 這樣的大型語言模型(LLMs)能有效通過美國醫學執照考試(USMLE)。本研究評估了不同版本的 ChatGPT(GPT-3.5、GPT-4 和 GPT-4 Omni)在醫學學科及臨床技能方面的表現。結果顯示,GPT-4 Omni 的準確率最高,達到90.4%,明顯超過其他版本及醫學生的平均準確率59.3%。這顯示出大型語言模型在醫學教育中的潛力,但也強調需要結構化課程來指導其整合及持續評估。 PubMed DOI

這項研究評估了兩個版本的ChatGPT(GPT-3.5和GPT-4)在韓國藥師執照考試的表現,分析了960道選擇題。結果顯示,GPT-4的正確率為86.5%,明顯優於GPT-3.5的60.7%。GPT-4在生物藥學表現最佳,但在醫療健康法規方面最差。與人類藥學學生相比,GPT-3.5的表現較差,而GPT-4則與學生相當或更佳。研究指出大型語言模型在藥學教育中有潛力,但仍需進一步研究以確保其可靠性和安全性。 PubMed DOI

這項研究探討大型語言模型(LLMs)在藥理學中的挑戰,因為缺乏全面的測試集。研究團隊創建了一個包含藥物資訊檢索、先導化合物結構優化及研究趨勢分析的測試集,並評估了GPT-3.5和GPT-4的表現。結果顯示這兩個模型在藥物特性、動力學及毒性預測等方面表現優異,但在藥物識別和互動資訊檢索上仍有不足。研究建議透過檢索增強生成(RAG)方法,整合專業知識庫,以提升LLMs在藥理學的應用效果。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-3.5和GPT-4在台灣國家藥師執照考試的表現。結果顯示,GPT-4的準確率為72.9%,明顯優於GPT-3.5的59.1%。在基礎科目中,GPT-4得分更高,顯示其在臨床藥學和教育上的潛力。不過,研究也提醒使用者需謹慎,因為模型仍有局限性。未來應著重改進模型的穩定性和問題設計,以更有效評估學生能力。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI