The Transformative Potential of Large Language Models in Mining Electronic Health Records Data: Content Analysis.
大型語言模型在挖掘電子健康紀錄數據中的變革潛力：內容分析。 JMIR Med Inform 2025-01-02

這項研究評估了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告，結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生，達到96.8%。雖然醫生在精確度上稍勝一籌，但GPT-4的表現更一致，且能推斷出非明確的共病情況。整體而言，這些模型在提取資訊方面顯示出潛力，可能成為數據挖掘的重要工具。 PubMed DOI

Can Large Language Models Aid Caregivers of Pediatric Cancer Patients in Information Seeking? A Cross-Sectional Investigation.
大型語言模型能否協助兒童癌症患者的照顧者進行資訊搜尋？一項橫斷面研究。 Cancer Med 2025-01-08

這項研究評估了四種大型語言模型（LLM）工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題，五位小兒腫瘤學專家根據多項標準進行評估。結果顯示，ChatGPT整體表現最佳，特別在複雜性上，而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性，未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

A recent evaluation on the performance of LLMs on radiation oncology physics using questions of randomly shuffled options.
最近對大型語言模型在放射腫瘤物理學表現的評估，使用隨機打亂選項的問題。 ArXiv 2025-01-13

這項研究評估了大型語言模型（LLMs）在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題，測試了五個LLM，包括OpenAI o1-preview和GPT-4o等。結果顯示，所有模型的表現達到專家水準，o1-preview在某些情況下甚至超越醫學物理學家。不過，當正確答案被移除時，模型表現明顯下降，顯示需改進。透過解釋優先和逐步提示的方式，LLaMA 3.1等模型的推理能力有所增強，顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

The use of large language models to enhance cancer clinical trial educational materials.
利用大型語言模型增強癌症臨床試驗教育材料的應用。 JNCI Cancer Spectr 2025-02-08

這項研究探討了大型語言模型（LLMs），特別是GPT-4，在製作癌症臨床試驗教育內容的潛力，旨在提升患者的理解。研究從ClinicalTrials.gov獲取知情同意書，生成簡短摘要和多選題，並透過患者調查和眾包註釋來評估其有效性。結果顯示，摘要內容可讀且具資訊性，患者認為有助於理解臨床試驗並提高參與意願。雖然多選題的準確性高，但當要求提供未明確列出的資訊時，GPT-4的準確性較低。整體而言，研究顯示GPT-4能有效生成患者友好的教育材料，但仍需人類監督以確保準確性。 PubMed DOI

MedBot vs RealDoc: efficacy of large language modeling in physician-patient communication for rare diseases.
MedBot 與 RealDoc：大型語言模型在罕見疾病的醫生-病人溝通中的效能。 J Am Med Inform Assoc 2025-02-25

這項研究評估了GPT-4和BioMistral 7B兩個大型語言模型在回答罕見疾病病人詢問的表現，並與醫生的回應進行比較。結果顯示，GPT-4的表現優於醫生和BioMistral 7B，回應被認為正確且具同理心。BioMistral 7B的回應則部分正確，而醫生的表現介於兩者之間。專家指出，雖然LLMs能減輕醫生負擔，但仍需嚴格驗證其可靠性。GPT-4在溝通上表現佳，但需注意回應的變異性和準確性。 PubMed DOI

Evaluation of Large Language Models in Tailoring Educational Content for Cancer Survivors and Their Caregivers: Quality Analysis.
大型語言模型在為癌症倖存者及其照顧者量身定制教育內容中的評估：質量分析。 JMIR Cancer 2025-04-07

這項研究探討大型語言模型（LLMs）在為癌症倖存者及其照顧者創建教育材料的有效性，特別針對弱勢群體。研究比較了三個模型（GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo）在生成30個癌症護理主題內容的表現，目標是達到六年級的閱讀水平，並提供西班牙語和中文翻譯。主要發現包括：LLMs整體表現良好，74.2%符合字數限制，平均質量分數為8.933，但只有41.1%達到所需閱讀水平。翻譯準確率高，西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo，使用項目符號提示效果更佳。結論指出，LLMs在創建可及的教育資源方面潛力大，但需改善閱讀水平和內容全面性，未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

Assessing the Quality and Reliability of ChatGPT's Responses to Radiotherapy-Related Patient Queries: Comparative Study With GPT-3.5 and GPT-4.
ChatGPT 回應放射治療相關病患問題的品質與可靠性評估：與 GPT-3.5 及 GPT-4 的比較研究 JMIR Cancer 2025-04-16

這項研究發現，GPT-4在回答放射治療常見問題時，比GPT-3.5表現更好，但兩者的回答對一般人來說還是太難懂，也有可能出現錯誤資訊。建議在正式用於病人前，還需要加強內容的易讀性和正確性。 PubMed DOI

A Comparative Analysis of GPT-4o and ERNIE Bot in a Chinese Radiation Oncology Exam.
GPT-4o 與 ERNIE Bot 在中國放射腫瘤學考試中的比較分析 J Cancer Educ 2025-05-26

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現，兩者都達及格分，GPT-4o得分79.3%，ERNIE Bot為76.9%，差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定，答題一致時正確率更高（84.5%）。結果顯示，這兩款AI有助於中文醫學教育，對非英語醫學訓練很有潛力。 PubMed DOI

Evaluating large language models as an educational tool for meningioma patients: patient and clinician perspectives.
作為腦膜瘤患者教育工具的大型語言模型評估：患者與臨床醫師的觀點 Radiat Oncol 2025-06-14

這項研究發現，ChatGPT能幫助腦膜瘤患者了解診斷和治療，特別是在放射線治療後的衛教上。大多數患者覺得ChatGPT的回答清楚又正確，六成願意未來再用。醫師也認同內容大致正確，但提醒部分細節、尤其副作用說明還不夠完整。整體來說，ChatGPT適合當作衛教輔助工具，但還是需要醫師把關。 PubMed DOI

原始文章

站上相關主題文章列表