Multimodal large language models address clinical queries in laryngeal cancer surgery: a comparative evaluation of image interpretation across different models.
多模態大型語言模型在喉癌手術中解決臨床問題：不同模型之間影像解讀的比較評估。 Int J Surg 2025-01-27

這項研究探討六種多模態大型語言模型（MLLMs）在解讀喉癌手術影像的有效性。研究分析了50位病人的169張影像，提出1084個臨床問題來評估模型表現，並由兩位醫師獨立評估。結果顯示，Claude 3.5 Sonnet的準確率最高，達79.43%。不同影像類型及商業模型與開源模型之間的表現差異明顯，最佳商業模型的表現比其他模型高出19個百分點。研究指出，雖然MLLMs在手術決策支持上有潛力，但仍需針對特定需求進行開發，並整合進臨床流程。未來應著重於利用多中心數據集來創建專門針對喉癌的MLLMs。 PubMed DOI

Appropriateness of Thyroid Nodule Cancer Risk Assessment and Management Recommendations Provided by Large Language Models.
大型語言模型提供的甲狀腺結節癌風險評估與管理建議的適當性。 J Imaging Inform Med 2025-03-03

這項研究評估了大型語言模型（LLMs）如ChatGPT、Gemini和Claude在甲狀腺結節癌症風險評估中的有效性，並與美國甲狀腺協會（ATA）及全國綜合癌症網絡（NCCN）的指導方針進行比較。322名放射科醫生參與評估，結果顯示Claude得分最高，其次是ChatGPT和Gemini。雖然不當回應比率相似，但ChatGPT在準確性上表現最佳。質性反饋指出，ChatGPT清晰且結構良好，Gemini則可及性高但內容淺薄，Claude組織性佳但偶爾偏離主題。總體而言，這些模型在輔助風險評估上有潛力，但仍需臨床監督以確保可靠性。 PubMed DOI

Performance of large language models for CAD-RADS 2.0 classification derived from cardiac CT reports.
大型語言模型在心臟CT報告中對CAD-RADS 2.0分類的表現。 J Cardiovasc Comput Tomogr 2025-04-10

這項研究評估大型語言模型（LLMs）自動生成CAD-RADS 2.0分數的能力，對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告，使用了多種先進的LLMs，包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示，GPT-4o和Llama3 70b的準確率最高，分別為93%和92.5%。這些發現顯示，增強上下文學習的模型能有效生成CAD-RADS 2.0分數，提高心臟CT報告的效率與一致性，且開源模型在數據安全上也具優勢。 PubMed DOI

Multimodal large language models as assistance for evaluation of thyroid-associated ophthalmopathy.
多模態大型語言模型作為評估甲狀腺相關眼病（thyroid-associated ophthalmopathy）的輔助工具 Comput Biol Med 2025-05-02

這項研究發現，ChatGPT-4o 能準確用 CAS 評估甲狀腺相關眼病變的活動度，不論是看文字還是照片都行，表現比傳統 CNN 模型和 Gemini Advanced 更好，ROC-AUC 分數超高（0.974、0.990）。它還能自動做出簡單的網頁版 CAS 計算器，完全不用寫程式。不過，樣本數偏少，還沒在臨床實際驗證，未來還需要更多研究確認。 PubMed DOI

Large Language Models for Diagnosing Focal Liver Lesions From CT/MRI Reports: A Comparative Study With Radiologists.
利用大型語言模型從CT/MRI報告診斷肝臟局灶性病變：與放射科醫師的比較研究 Liver Int 2025-05-10

這項研究發現，ChatGPT-4o在診斷肝臟局部病灶時，表現大致和資淺放射科醫師差不多，但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程，也沒明顯提升醫師的診斷表現。總結來說，目前大型語言模型對診斷這類疾病的幫助有限，準確度還有待加強。 PubMed DOI

Evaluation of large language models in generating pulmonary nodule follow-up recommendations.
大型語言模型在產生肺結節追蹤建議之評估 Eur J Radiol Open 2025-05-20

這篇研究發現，GPT-4o-mini和ERNIE-4.0-Turbo-8K在根據放射科報告給肺結節追蹤建議時，準確率都超過九成，表現和專業醫師差不多，錯誤建議也很少。雖然這些AI有潛力協助放射科決策，但實際應用前還是要嚴格驗證和監督，確保病人安全。 PubMed DOI

Large language models for dermatological image interpretation - a comparative study.
皮膚科影像判讀之大型語言模型比較研究 Diagnosis (Berl) 2025-05-27

這項研究比較七款主流多模態大型語言模型在診斷皮膚病的表現，GPT-4o準確率最高達67.8%。不同疾病和圖片的診斷準確度差異大，有些圖片所有模型都誤判。部分模型遇到敏感圖片會拒絕診斷。整體來說，這些模型在皮膚科影像判讀有潛力，但目前還有不少限制，未來需結合臨床資料才能更可靠。 PubMed DOI

Performance analysis of large language models in multi-disease detection from chest computed tomography reports: a comparative study: Experimental Research.
大型語言模型於胸部電腦斷層報告多重疾病偵測之表現分析：比較性研究 Int J Surg 2025-06-11

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力，發現GPT-4表現最佳，尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說，選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示，優化後的AI模型有助於提升胸部CT解讀，對外科手術規劃很有幫助。 PubMed DOI

Using a Large Language Model for Breast Imaging Reporting and Data System Classification and Malignancy Prediction to Enhance Breast Ultrasound Diagnosis: Retrospective Study.
運用大型語言模型於乳房影像報告與資料系統（BI-RADS）分級及惡性預測以提升乳房超音波診斷：回溯性研究 JMIR Med Inform 2025-06-11

這項回溯性研究發現，ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時，表現比資淺放射科醫師更好，和資深醫師差不多。它預測惡性腫瘤的準確度高（AUC 0.82，準確率80.63%，敏感度90.56%，特異度73.51%）。若把ChatGPT-4納入影像判讀流程，能進一步提升醫師診斷準確率，減少不同醫師間的判讀差異。 PubMed DOI

Leveraging large language models for accurate classification of liver lesions from MRI reports.
運用大型語言模型精確分類MRI報告中的肝臟病灶 Comput Struct Biotechnol J 2025-06-12

這項研究用88份真實MRI肝臟病灶報告，測試多款大型語言模型的分類能力。結果發現，Claude 3.5 Sonnet準確率最高，勝過GPT-4o等其他模型。雖然LLM有潛力協助醫療診斷，但臨床應用前還需更多驗證，嚴謹測試也很重要。 PubMed DOI

原始文章

站上相關主題文章列表