Large Language Models for Simplified Interventional Radiology Reports: A Comparative Analysis.
簡化介入放射學報告的大型語言模型：比較分析。 Acad Radiol 2024-10-01

這項研究評估了多種大型語言模型（LLMs）在簡化介入放射學（IR）報告的表現，重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳，錯誤率最低，特別是在內容和信任方面。量性評估顯示，GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性，並指出所有模型仍需改進以減少錯誤。 PubMed DOI

Evaluating the Adherence of Large Language Models to Surgical Guidelines: A Comparative Analysis of Chatbot Recommendations and North American Spine Society (NASS) Coverage Criteria.
評估大型語言模型對外科指導方針的遵循性：Chatbot 建議與北美脊柱學會 (NASS) 覆蓋標準的比較分析。 Cureus 2024-10-04

這項研究調查了四個大型語言模型（LLMs）—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會（NASS）頸椎融合指導方針的表現。結果顯示，這些模型的遵循率不高，ChatGPT-4和Bing Chat表現較佳，僅達60%。在特定情況下，所有模型都未能符合NASS建議，顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求，並指出在臨床決策中考慮病人特徵的重要性，顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

Precision Structuring of Free-Text Surgical Record for Enhanced Stroke Management: A Comparative Evaluation of Large Language Models.
精確結構化自由文本手術記錄以增強中風管理：大型語言模型的比較評估。 J Multidiscip Healthc 2024-11-19

這項研究評估了大型語言模型（LLMs）在急性缺血性中風（AIS）患者的手術記錄中提取數據的有效性。分析了382份手術記錄，重點在30份，以指導LLMs提取關鍵特徵。六種LLMs的表現良好，平均準確率達95.09%，整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出，準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師，顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

Large language models in neurosurgery: a systematic review and meta-analysis.
神經外科中的大型語言模型：系統性回顧與統合分析。 Acta Neurochir (Wien) 2024-11-23

大型語言模型（LLMs）在神經外科領域逐漸受到重視，顯示出提升各種任務的潛力。然而，針對其在不同應用中的表現進行系統性檢視的研究仍然不足。本研究識別了關鍵的LLMs，並建立可重複性的報告指導方針，強調其在神經外科的進展。我們在PubMed和Google Scholar搜尋相關文獻，找到51篇符合標準的文章，主要應用於臨床文本生成、標準化考試問題回答及支持臨床決策。主要使用的LLMs包括GPT-3.5、GPT-4、Bard和Bing。研究顯示，雖然LLMs在複雜任務中表現優異，但大多數研究仍集中於基本應用，未充分解決性能提升或可重複性問題。推進此領域需標準化報告實踐及採用更複雜的驗證方法。 PubMed DOI

Large language models can accurately populate Vascular Quality Initiative procedural databases using narrative operative reports.
大型語言模型可以準確地使用敘述性手術報告填充血管質量倡議程序數據庫。 J Vasc Surg 2024-12-18

這項研究評估了大型語言模型（LLMs），特別是ChatGPT，在填寫血管質量倡議（VQI）程序數據庫的有效性。研究針對三種手術進行，結果顯示LLMs的準確率相當高，CEA為84.0%、EVAR為92.2%、LEB為84.3%。排除少見指標後，準確率更提升至CEA的95.5%、EVAR的94.8%和LEB的93.2%。兩個模型（gpt-35-turbo和gpt-4）之間性能差異不大，且分析成本低。整體而言，LLMs能有效協助填寫VQI數據庫，建議進一步研究以提升準確性。 PubMed DOI

A comparison of large language model-generated and published perioperative neurocognitive disorder recommendations: a cross-sectional web-based analysis.
大型語言模型生成的與已發表的圍手術期神經認知障礙建議的比較：一項橫斷面網路分析。 Br J Anaesth 2025-02-08

圍手術期神經認知障礙（PNDs）是手術後常見的併發症，特別在老年人中，會增加健康風險和醫療成本。研究評估了ChatGPT-4和Gemini在PND管理建議的有效性，並與現有指導方針比較。這項2024年6月的研究使用「圍手術期神經認知障礙的護理方案表」生成AI建議，並由來自五國的評審進行評估。結果顯示，兩者的建議與指導方針相似，但仍需進一步驗證和臨床醫師的反饋，才能應用於臨床。 PubMed DOI

From RAGs to riches: Utilizing large language models to write documents for clinical trials.
從 RAGs 到財富：利用大型語言模型撰寫臨床試驗文件。 Clin Trials 2025-02-27

這項研究評估大型語言模型（LLMs）在生成臨床試驗計畫書的有效性。研究人員使用LLM生成不同疾病和試驗階段的計畫書，並根據臨床思維、透明度、醫學術語和內容相關性四個標準進行評估。結果顯示，LLM在內容相關性和術語方面表現良好，但在臨床思維和透明度上則較差。為提升表現，研究人員採用檢索增強生成（RAG）方法，顯著改善了內容質量，提升了臨床思維和透明度的分數。這表明RAG方法能有效提升LLM在臨床試驗文件撰寫的可用性，並可能改變藥物開發過程。 PubMed DOI

Accuracy of Large Language Models for Literature Screening in Thoracic Surgery: Diagnostic Study.
大型語言模型在胸外科文獻篩選中的準確性：診斷研究。 J Med Internet Res 2025-03-11

這篇論文探討大型語言模型（LLMs）在系統性文獻回顧中的篩選效果，並與傳統手動篩選及機器學習工具進行比較。研究使用ChatGPT-4o和Claude-3.5進行篩選，結果顯示LLMs在全文篩選中敏感度達0.87、特異度0.96，AUC為0.96；標題和摘要篩選的敏感度為0.73，經修正後提升至0.98，特異度保持高達0.99。相比之下，ASReview和Abstrackr的表現較差。結果顯示LLMs能有效提升文獻篩選的準確性與效率，減輕工作負擔。 PubMed DOI

GPT for RCTs? Using AI to determine adherence to clinical trial reporting guidelines.
RCTs 的 GPT？使用 AI 確定臨床試驗報告指導方針的遵循情況。 BMJ Open 2025-03-19

這項研究評估了OpenAI的GPT-4和Meta的Llama 2兩個大型語言模型在運動醫學臨床試驗報告遵循指導方針的有效性。分析了113篇論文，並針對遵循情況向模型提問。結果顯示，GPT-4 Turbo的F1分數達0.89，準確率90%；Llama 2經微調後，F1分數提升至0.84，準確率83%。此外，GPT-4 Vision能準確識別參與者流動圖，但在細節檢測上有困難。整體而言，這兩個模型在評估報告遵循方面顯示出潛力，未來開發高效的開源AI-LLM可能會進一步提升準確性。 PubMed DOI

Development and Performance of a Large Language Model for the Quality Evaluation of Multi-Language Medical Imaging Guidelines and Consensus.
多語言醫學影像指導原則與共識的質量評估大型語言模型的開發與性能。 J Evid Based Med 2025-04-04

這項研究開發了一個自動化系統，利用大型語言模型來評估多語言醫學影像指導方針的質量，目的是提高效率並減少人工負擔。研究團隊創造了QPC-HASE-GuidelineEval演算法，結合四象限問題分類和混合搜索技術，並在45份指導方針上測試。結果顯示，平均準確率為77%，但在複雜任務上較低。評估時間縮短至每份約8分30秒，成本約0.5美元，顯示出相對於傳統方法的優勢。不過，對於複雜任務仍需進一步改進。 PubMed DOI

原始文章

站上相關主題文章列表