Unlocking the potential of advanced large language models in medication review and reconciliation: A proof-of-concept investigation.
釋放先進大型語言模型在藥物審查和調解中的潛力：一項概念驗證研究。 Explor Res Clin Soc Pharm 2024-09-11

這項研究評估了大型語言模型（LLMs）在藥物審查中的表現，特別是劑量錯誤、藥物相互作用及基因組學建議的能力。研究測試了四個LLM，發現ChatGPT在劑量方案上表現良好，但對simvastatin的問題有例外。所有LLM都能識別warfarin的相互作用，但錯過metoprolol和verapamil的相互作用。Claude-Instant在治療監測上提供適當建議，而Gemini在基因組學上表現不錯。研究指出，LLM在藥物審查中有潛力，但整合進醫療系統對病人安全至關重要。 PubMed DOI

The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Evaluating accuracy and reproducibility of large language model performance on critical care assessments in pharmacy education.
評估大型語言模型在藥學教育中對重症護理評估的準確性和可重複性。 Front Artif Intell 2025-01-24

這項評估針對五種大型語言模型（LLMs）在重症護理藥物治療問題上的表現進行測試，結果顯示ChatGPT-4的準確性最高，達71.6%。LLMs在知識回憶問題上表現較好，但在知識應用問題上則不及藥學博士學生（學生準確性81%）。使用思考鏈提示可提升ChatGPT-4的準確性至77.4%。這顯示LLMs在特定領域仍需進一步訓練，以改善其應用能力，對於全面藥物管理的使用應謹慎。 PubMed DOI

The use of large language models to enhance cancer clinical trial educational materials.
利用大型語言模型增強癌症臨床試驗教育材料的應用。 JNCI Cancer Spectr 2025-02-08

這項研究探討了大型語言模型（LLMs），特別是GPT-4，在製作癌症臨床試驗教育內容的潛力，旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書，生成簡短摘要和多選題，並透過患者調查和眾包註釋來評估其有效性。結果顯示，摘要內容可讀且具資訊性，患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高，但當要求提供未明確列出的資訊時，GPT-4的準確性較低。整體而言，研究顯示GPT-4能有效生成患者友好的教育材料，但仍需人類監督以確保準確性。 PubMed DOI

Large language models are less effective at clinical prediction tasks than locally trained machine learning models.
大型語言模型在臨床預測任務中的效果不如本地訓練的機器學習模型。 J Am Med Inform Assoc 2025-03-08

這項研究比較了大型語言模型（如GPT-3.5和GPT-4）與傳統機器學習方法（如梯度提升樹）在使用電子健康紀錄預測臨床結果的效果。結果顯示，傳統機器學習在預測性能和模型校準上均優於大型語言模型，且在隱私保護下對人口統計信息的泛化能力更強。雖然GPT-4在公平性指標上表現最佳，但其預測性能卻有所下降。總體來看，傳統機器學習在臨床預測任務中仍然更為有效和穩健。 PubMed DOI

Evaluation of Large Language Models in Tailoring Educational Content for Cancer Survivors and Their Caregivers: Quality Analysis.
大型語言模型在為癌症倖存者及其照顧者量身定制教育內容中的評估：質量分析。 JMIR Cancer 2025-04-07

這項研究探討大型語言模型（LLMs）在為癌症倖存者及其照顧者創建教育材料的有效性，特別針對弱勢群體。研究比較了三個模型（GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo）在生成30個癌症護理主題內容的表現，目標是達到六年級的閱讀水平，並提供西班牙語和中文翻譯。主要發現包括：LLMs整體表現良好，74.2%符合字數限制，平均質量分數為8.933，但只有41.1%達到所需閱讀水平。翻譯準確率高，西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo，使用項目符號提示效果更佳。結論指出，LLMs在創建可及的教育資源方面潛力大，但需改善閱讀水平和內容全面性，未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

Benchmarking large language models GPT-4o, llama 3.1, and qwen 2.5 for cancer genetic variant classification.
GPT-4o、llama 3.1 與 qwen 2.5 在癌症基因變異分類的效能評比 NPJ Precis Oncol 2025-05-14

這項研究比較 GPT-4o、Llama 3.1 和 Qwen 2.5 在癌症基因變異臨床分類的表現，發現 GPT-4o 準確率最高。LLMs 在有明確證據時表現佳，但遇到證據較弱的變異時一致性較差，且容易過度分類。透過 prompt 設計和檢索增強生成可提升準確度。整體來說，LLMs 有潛力，但臨床應用還需再優化。 PubMed DOI

Evaluating and leveraging large language models in clinical pharmacology and therapeutics assessment: From exam takers to exam shapers.
在臨床藥理學與治療學評估中評價與應用大型語言模型：從考生到考題設計者 Br J Clin Pharmacol 2025-06-10

最新研究發現，像 ChatGPT-4 Omni 這類大型語言模型，在 CPT 和歐洲處方考試的表現跟醫學生差不多，甚至更厲害，特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方，不只適合當教學工具，也有助於改進考題品質。 PubMed DOI

Large language models in oncology: a review.
腫瘤學中大型語言模型的綜述 BMJ Oncol 2025-06-16

大型語言模型在腫瘤醫學有潛力協助臨床決策、資料整理及病患溝通，對醫師和病患都有幫助。不過，也有幻覺、泛化和倫理等問題需注意。LLMs應當作為輔助工具，幫助醫師提升癌症照護品質，而非取代醫師角色。 PubMed DOI

Paediatric rare diseases: Can large language models assist off-label prescribing?
兒科罕見疾病：大型語言模型能協助非適應症用藥處方嗎？ Br J Clin Pharmacol 2025-07-16

這項研究比較四種大型語言模型（LLM）在協助罕見兒童疾病藥物超適應症資訊檢索的表現，發現GPT-4o表現最好，優於Scopus AI。雖然有時LLM給的參考文獻品質甚至比人類還高，但結果會因查詢內容不同而有落差。LLM能加快資訊搜尋，但還是需要專業人員審核，確保正確性。 PubMed DOI

原始文章

站上相關主題文章列表