原始文章

這項研究發現,GPT-3.5-turbo-0125、GPT-4-turbo 和 GPT-4o 在腫瘤科藥物品牌名和學名的配對上表現很好,但在較複雜的臨床任務(如藥物交互作用判斷、診斷副作用等)則表現不穩定,甚至有偏誤。特別是 GPT-3.5-turbo-0125 偏好用品牌名。總結來說,這些模型在簡單任務上可靠,但臨床應用還需更嚴謹的評估與改進。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)在藥物審查中的表現,特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM,發現ChatGPT在劑量方案上表現良好,但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用,但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議,而Gemini在基因組學上表現不錯。研究指出,LLM在藥物審查中有潛力,但整合進醫療系統對病人安全至關重要。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項評估針對五種大型語言模型(LLMs)在重症護理藥物治療問題上的表現進行測試,結果顯示ChatGPT-4的準確性最高,達71.6%。LLMs在知識回憶問題上表現較好,但在知識應用問題上則不及藥學博士學生(學生準確性81%)。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練,以改善其應用能力,對於全面藥物管理的使用應謹慎。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是GPT-4,在製作癌症臨床試驗教育內容的潛力,旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書,生成簡短摘要和多選題,並透過患者調查和眾包註釋來評估其有效性。結果顯示,摘要內容可讀且具資訊性,患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高,但當要求提供未明確列出的資訊時,GPT-4的準確性較低。整體而言,研究顯示GPT-4能有效生成患者友好的教育材料,但仍需人類監督以確保準確性。 PubMed DOI

這項研究比較了大型語言模型(如GPT-3.5和GPT-4)與傳統機器學習方法(如梯度提升樹)在使用電子健康紀錄預測臨床結果的效果。結果顯示,傳統機器學習在預測性能和模型校準上均優於大型語言模型,且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳,但其預測性能卻有所下降。總體來看,傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這項研究比較 GPT-4o、Llama 3.1 和 Qwen 2.5 在癌症基因變異臨床分類的表現,發現 GPT-4o 準確率最高。LLMs 在有明確證據時表現佳,但遇到證據較弱的變異時一致性較差,且容易過度分類。透過 prompt 設計和檢索增強生成可提升準確度。整體來說,LLMs 有潛力,但臨床應用還需再優化。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI

大型語言模型在腫瘤醫學有潛力協助臨床決策、資料整理及病患溝通,對醫師和病患都有幫助。不過,也有幻覺、泛化和倫理等問題需注意。LLMs應當作為輔助工具,幫助醫師提升癌症照護品質,而非取代醫師角色。 PubMed DOI

這項研究比較四種大型語言模型(LLM)在協助罕見兒童疾病藥物超適應症資訊檢索的表現,發現GPT-4o表現最好,優於Scopus AI。雖然有時LLM給的參考文獻品質甚至比人類還高,但結果會因查詢內容不同而有落差。LLM能加快資訊搜尋,但還是需要專業人員審核,確保正確性。 PubMed DOI