The In-depth Comparative Analysis of Four Large Language AI Models for Risk Assessment and Information Retrieval from Multi-Modality Prostate Cancer Work-up Reports.
四種大型語言AI模型在多模態前列腺癌檢查報告中的風險評估和信息檢索的深入比較分析。 World J Mens Health 2025-01-01

這項研究評估了四個大型語言模型（LLMs）在前列腺癌治療相關的資訊檢索和風險評估任務中的表現，特別針對第四期患者。研究使用350份模擬報告，並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示，所有模型在資訊檢索任務中表現良好，但在風險評估上差異明顯，ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞，研究仍提醒可能的誤解會影響臨床決策，並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

The potential of GPT-4 advanced data analysis for radiomics-based machine learning models.
基於放射組學的機器學習模型中 GPT-4 進階數據分析的潛力。 Neurooncol Adv 2025-01-09

這項研究探討了GPT-4的進階數據分析（ADA）套件在自動創建機器學習模型方面的表現，目的是預測膠質瘤的分子類型。研究使用了615名新診斷患者的MRI掃描數據，並比較了GPT-4與傳統手工模型的準確性。結果顯示，GPT-4在某些數據集上表現優異，但在不同膠質瘤類型的預測上仍面臨挑戰，特別是在IDH突變類型的準確性上。整體而言，GPT-4展現了自動開發機器學習模型的潛力，但也顯示出處理不平衡數據集的困難。 PubMed DOI

Evaluating ChatGPT's diagnostic potential for pathology images.
評估 ChatGPT 在病理影像診斷中的潛力。 Front Med (Lausanne) 2025-02-07

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64，結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好，準確率達0.88，對腺癌檢測的敏感性也很高。整體來看，GPT-4的表現與病理住院醫師相當，顯示其作為輔助工具的潛力。 PubMed DOI

Using Generative AI to Extract Structured Information from Free Text Pathology Reports.
使用生成式人工智慧從自由文本病理報告中提取結構化資訊。 J Med Syst 2025-03-13

這項研究顯示生成式人工智慧在自動化將非結構化病理報告轉為結構化格式方面的有效性，特別針對台北醫學大學醫院的乳腺癌報告。研究人員使用ChatGPT大型語言模型，透過Streamlit網頁應用程式達到99.61%的準確率，並顯著縮短處理時間，優於傳統方法。雖然目前僅限於單一機構及乳腺癌報告，但未來計畫將擴展至其他癌症類型並進行外部驗證，以確保系統的穩健性。總體而言，這顯示人工智慧能有效提升病理報告處理效率，促進生物醫學研究的進步。 PubMed DOI

Comparative Performance of Anthropic Claude and OpenAI GPT Models in Basic Radiological Imaging Tasks.
Anthropic Claude 與 OpenAI GPT 模型在基本放射影像任務中的比較表現。 J Med Imaging Radiat Oncol 2025-04-08

這項研究評估了幾個公開的視覺語言模型（VLMs），特別是Anthropic的Claude和OpenAI的GPT，在解讀放射影像的能力。研究使用ROCOv2和MURAv1.1數據集，測試六個VLM在識別影像模式、解剖結構及檢測X光片骨折的表現。結果顯示，某些模型在模式識別上達到高準確率，但解剖識別的準確率僅在61%到85%之間。雖然Claude-3.5-Sonnet和GPT-4o在特定任務上表現不錯，但整體準確性仍不足以支持臨床應用，需進一步開發和標準化測試。 PubMed DOI

Multimodal Generative AI for Anatomic Pathology-A Review of Current Applications to Envisage the Future Direction.
解剖病理學中的多模態生成式人工智慧——現有應用之回顧與未來發展方向展望 Adv Anat Pathol 2025-04-29

這篇綜述介紹多模態生成式AI在解剖病理學的應用，包括影像分析、診斷輔助、教育和分子特徵偵測等。雖然模型表現不錯，但多數只在小型資料集上訓練，還需更多驗證。作者建議多中心合作和利用合成資料，以提升臨床可靠性。整體來說，多模態Gen-AI未來發展潛力大。 PubMed DOI

Evaluating the reference accuracy of large language models in radiology: a comparative study across subspecialties.
放射科大型語言模型參考文獻準確性的評估：跨次專科的比較研究 Diagn Interv Radiol 2025-05-12

這項研究發現，Claude 3.5 Sonnet 在產生放射科參考文獻時最準確，正確率高達 80.8%，捏造比例僅 3.1%，明顯勝過其他模型。相較之下，ChatGPT 和 Google Gemini 1.5 Pro 的正確率較低，捏造比例甚至高達 60.6%。不同放射科次專科的正確率也有差異。整體來說，Claude 3.5 Sonnet 學術可靠度高，其他模型則有誤導風險，引用功能還需加強。 PubMed DOI

Evaluation of large language models in generating pulmonary nodule follow-up recommendations.
大型語言模型在產生肺結節追蹤建議之評估 Eur J Radiol Open 2025-05-20

這篇研究發現，GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時，準確率都超過九成，表現和專業醫師差不多，錯誤建議也很少。雖然這些AI有潛力協助放射科決策，但實際應用前還是要嚴格驗證和監督，確保病人安全。 PubMed DOI

Evaluation of generative AI assistance in clinical nephrology: Assessing GPT-4, GPT-4o, Gemini 1.0 Ultra, and PaLM 2 in patient interaction and renal biopsy interpretation.
臨床腎臟科中生成式 AI 協助的評估：評估 GPT-4、GPT-4o、Gemini 1.0 Ultra 與 PaLM 2 在病患互動與腎臟切片判讀的表現 Digit Health 2025-06-05

最新研究比較四種AI模型在腎臟科問題上的表現，發現GPT-4o最準確且穩定，GPT-4同理心最佳，PaLM 2和Gemini 1.0 Ultra則在部分任務表現突出。結果顯示，生成式AI有助於提升腎臟科病患的溝通與衛教，不同模型可依臨床需求選用。 PubMed DOI

Clinical Application of Large Language Models in Generating Pathologic Images.
大型語言模型於產生病理影像的臨床應用 JCO Clin Cancer Inform 2025-07-02

這項研究發現，DALL·E 3 能生成高品質的前列腺癌病理影像，特別是 Gleason 5 分級，對教學有幫助。雖然細胞核細節還不夠精細，但整體表現不錯。不過，AI 影像有被濫用的風險，技術人員和醫師必須密切合作並加強監督。 PubMed DOI

原始文章

站上相關主題文章列表