The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

Patient- and clinician-based evaluation of large language models for patient education in prostate cancer radiotherapy.
以病人和臨床醫師為基礎的評估大型語言模型在前列腺癌放射治療中的病人教育效果。 Strahlenther Onkol 2025-01-10

這項研究評估大型語言模型（LLMs）在提供前列腺癌放射治療病人教育的有效性，並納入臨床醫生和病人的反饋。研究中針對六個常見問題，評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示，雖然所有模型的回答被認為相關且正確，但可讀性較差。病人對ChatGPT-4的評價較高，認為其回答易懂且有信心。整體而言，LLMs在病人教育上有潛力，但準確性和可讀性仍需改進，未來需進一步研究以提升其效益。 PubMed DOI

The interaction of structured data using openEHR and large Language models for clinical decision support in prostate cancer.
使用 openEHR 的結構化數據與大型語言模型在前列腺癌臨床決策支持中的互動。 World J Urol 2025-01-13

多學科團隊（MDTs）在癌症護理中非常重要，但需要專家投入大量時間，導致醫療成本上升。最近大型語言模型（LLMs）的進展，可能提升臨床決策的效率，並降低MDT的相關成本。一項針對171名新診斷前列腺癌患者的研究比較了兩個LLMs（chatGPT-4和Claude-3-Opus）與MDT會議的建議。結果顯示，LLMs的遵循率高達93%。不一致的情況主要因為臨床資訊不足。研究顯示，LLMs能生成準確的治療建議，未來有潛力簡化MDT流程，讓專家專注於更複雜的案例，並降低醫療成本。 PubMed DOI

Performance Evaluation of Large Language Models in Cervical Cancer Management Based on a Standardized Questionnaire: Comparative Study.
基於標準化問卷的子宮頸癌管理中大型語言模型的性能評估：比較研究。 J Med Internet Res 2025-02-05

子宮頸癌是全球健康的重要議題，尤其在資源有限的地區。這項研究探討大型語言模型（LLMs）在子宮頸癌管理中的潛力，評估了九個模型的準確性和可解釋性。結果顯示，ChatGPT-4.0 Turbo表現最佳，得分為2.67，顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性，對醫療專業人員建立信任至關重要。雖然專有模型表現良好，但醫學專用模型的表現未如預期，未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

Large Language Models as Decision-Making Tools in Oncology: Comparing Artificial Intelligence Suggestions and Expert Recommendations.
大型語言模型作為腫瘤學中的決策工具：比較人工智慧建議與專家推薦。 JCO Clin Cancer Inform 2025-03-20

這項研究評估大型語言模型（LLMs）在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄，測試了三個AI模型：Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示，Claude3-Opus準確率86.6%，GPT4-Turbo為85.7%，LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好，但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

Diagnostic performance of advanced large language models in cystoscopy: evidence from a retrospective study and clinical cases.
先進大型語言模型在膀胱鏡檢查中的診斷表現：來自回顧性研究和臨床案例的證據。 BMC Urol 2025-03-29

這項研究評估了大型語言模型（LLMs）在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像，結果顯示整體診斷準確率為89.2%。其中，ChatGPT-4 V的準確率為82.8%，Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤，ChatGPT-4 V達92.2%；膀胱炎檢測則高達94.5%。然而，對良性前列腺增生的準確率較低，分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具，但需進一步提升其診斷準確性。 PubMed DOI

Large language model evaluation in autoimmune disease clinical questions comparing ChatGPT 4o, Claude 3.5 Sonnet and Gemini 1.5 pro.
自體免疫疾病臨床問題中大型語言模型的評估：比較 ChatGPT 4o、Claude 3.5 Sonnet 與 Gemini 1.5 pro Sci Rep 2025-05-21

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現，特別是Claude 3.5 Sonnet，在正確性和完整性等方面都勝過醫師，顯示AI有潛力協助臨床照護。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

原始文章

站上相關主題文章列表