原始文章

這項研究發現,GPT-3.5-turbo-0125、GPT-4-turbo 和 GPT-4o 在腫瘤科藥物品牌名和學名的配對上表現很好,但在較複雜的臨床任務(如藥物交互作用判斷、診斷副作用等)則表現不穩定,甚至有偏誤。特別是 GPT-3.5-turbo-0125 偏好用品牌名。總結來說,這些模型在簡單任務上可靠,但臨床應用還需更嚴謹的評估與改進。 PubMed DOI


站上相關主題文章列表

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

大型語言模型(LLMs),如OpenAI的GPT系列,在醫學領域展現潛力,特別是在腫瘤學中。研究評估了LLM在分類化療引起的主觀毒性方面的能力,結果顯示LLM在一般毒性類別的準確率為85.7%,但在特定類別的準確率僅為64.6%。雖然LLM的表現與腫瘤科醫生相當,但特定類別的準確性仍需改進。未來研究應聚焦於真實病人的驗證及即時互動能力,並考量數據準確性和隱私等倫理問題。總體而言,LLMs有潛力提升病人護理質量與效率。 PubMed DOI

這項研究評估了三種大型語言模型(LLMs)—GPT-3.5、GPT-4和Chatsonic—在北美藥師執照考試(NAPLEX)練習題上的表現。結果顯示,GPT-4的準確率最高,McGraw Hill題組達87%,RxPrep題組達83.5%。相比之下,GPT-3.5和Chatsonic的表現較差,尤其在選擇所有正確答案的問題上。GPT-4在不良藥物反應(ADR)問題上表現特別優異,顯示其在藥學教育中的潛在應用價值。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT 4.0、Bard 和 LLaMA—在提供免疫檢查點抑制劑(ICIs)相關眼部毒性資訊的表現。研究提出八個問題,並由四位眼科醫生使用6點李克特量表評分。結果顯示,三者在準確性和完整性上評分相似,無顯著差異。平均評分為:ChatGPT(準確性4.59,完整性4.09)、Bard(準確性4.59,完整性4.19)、LLaMA(準確性4.38,完整性4.03)。整體而言,這三個模型在提供ICI眼部毒性資訊方面表現良好,但評分者之間的可靠性較低,建議未來需進一步研究。 PubMed DOI

這項研究評估了兩個受歡迎的大型語言模型(LLMs)在臨床決策支持(CDS)方面的潛力,類似於美國FDA授權的設備功能。研究發現,這些LLM能在不同情境下生成類似設備的決策支持,甚至在遵循FDA規範的情況下也能做到。這引發了對LLM可能無意中提供未經授權醫療建議的擔憂,強調了在臨床應用中需要謹慎監督和規範的重要性。 PubMed DOI

最近在人工智慧(AI)領域,特別是大型語言模型(LLMs)如GPT-3.5和GPT-4,顯示出在醫療應用上的潛力。本研究探討將這些模型整合進良好實踐(GxP)驗證系統的可行性,重點在效能和可重複性。研究比較外部和內部託管的模型在命名實體識別(NER)和關係提取的表現,發現Zephyr-7b-beta模型在少樣本學習中表現優於GPT-3.5。儘管GPT-4的表現不錯,但在可重複性上仍有挑戰,建議利用GPT模型生成註釋提案作為微調訓練數據的基礎。 PubMed DOI

這項研究探討大型語言模型(LLMs)在藥理學中的挑戰,因為缺乏全面的測試集。研究團隊創建了一個包含藥物資訊檢索、先導化合物結構優化及研究趨勢分析的測試集,並評估了GPT-3.5和GPT-4的表現。結果顯示這兩個模型在藥物特性、動力學及毒性預測等方面表現優異,但在藥物識別和互動資訊檢索上仍有不足。研究建議透過檢索增強生成(RAG)方法,整合專業知識庫,以提升LLMs在藥理學的應用效果。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI

這項研究比較 GPT-4o、Llama 3.1 和 Qwen 2.5 在癌症基因變異臨床分類的表現,發現 GPT-4o 準確率最高。LLMs 在有明確證據時表現佳,但遇到證據較弱的變異時一致性較差,且容易過度分類。透過 prompt 設計和檢索增強生成可提升準確度。整體來說,LLMs 有潛力,但臨床應用還需再優化。 PubMed DOI