Data Extraction from Free-Text Reports on Mechanical Thrombectomy in Acute Ischemic Stroke Using ChatGPT: A Retrospective Analysis.
使用 ChatGPT 進行急性缺血性中風患者機械溶栓手術自由文本報告的資料提取：一項回顧性分析。 Radiology 2024-04-16

研究比較了GPT-4和GPT-3.5在提取神經放射學報告中缺血性中風患者機械溶栓術數據的表現。結果發現，GPT-4比GPT-3.5更準確，處理所有報告且無需進一步處理即可正確提取94.0％的數據項目，而GPT-3.5僅有63.9％的準確率。總結來說，GPT-4在提取正確程序數據方面更有效。 PubMed DOI

Evaluating the Efficacy of Large Language Models in CPT Coding for Craniofacial Surgery: A Comparative Analysis.
評估大型語言模型在顱面外科 CPT 編碼中的效能：比較分析。 J Craniofac Surg 2024-09-02

這項研究分析了五種大型語言模型（LLMs）在識別顱面外科手術的CPT代碼的有效性，包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時，尤其在專業編碼人員短缺的情況下，研究旨在評估這些AI模型的效率和準確性。結果顯示，雖然整體準確性差異不大，但ChatGPT 4.0在複雜代碼上表現較佳，而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔，並提升CPT編碼的資源效率，支持將其整合進臨床流程。 PubMed DOI

Large language models can help with biostatistics and coding needed in radiology research.
大型語言模型可以協助放射學研究中所需的生物統計學和編碼。 Acad Radiol 2024-10-15

這項研究探討了大型語言模型（LLMs），如ChatGPT-4o、ChatGPT-3.5和Google Gemini，在輔助放射學研究中的效能。進行了兩個實驗： 1. **生物統計學與數據視覺化**：測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳，正確回答7個問題，且生成的程式碼錯誤較少。 2. **深度學習**：評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼，並透過互動修正錯誤。總體而言，LLMs對放射學研究有幫助，但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

A Comparative Evaluation of Large Language Model Utility in Neuroimaging Clinical Decision Support.
大型語言模型在神經影像臨床決策支持中的效用比較評估。 J Imaging Inform Med 2024-11-07

這項研究評估了八種公開的大型語言模型（LLMs）在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示，GPT-4表現最佳，提供23個最佳建議，其次是ChatGPT有20個，而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力，並探討了評估其表現的挑戰，具有重要意義。 PubMed DOI

Precision Structuring of Free-Text Surgical Record for Enhanced Stroke Management: A Comparative Evaluation of Large Language Models.
精確結構化自由文本手術記錄以增強中風管理：大型語言模型的比較評估。 J Multidiscip Healthc 2024-11-19

這項研究評估了大型語言模型（LLMs）在急性缺血性中風（AIS）患者的手術記錄中提取數據的有效性。分析了382份手術記錄，重點在30份，以指導LLMs提取關鍵特徵。六種LLMs的表現良好，平均準確率達95.09%，整體準確率為78.05%。GLM4和GPT-4在進階特徵提取上表現突出，準確率分別為84.03%和82.20%。LLMs的數據處理速度也顯著快於醫師，顯示出在AIS治療中改善臨床數據管理的潛力。 PubMed DOI

Benchmarking Large Language Models for Extraction of International Classification of Diseases Codes from Clinical Documentation.
從臨床文檔中提取國際疾病分類代碼的大型語言模型基準測試。 medRxiv 2024-11-28

這項研究評估大型語言模型（LLMs）在從非結構化住院病歷中提取ICD-10-CM代碼的效果，並與人類編碼員進行比較。測試的模型包括GPT-3.5、GPT-4等，共分析50份去識別化的病歷。人類編碼員識別出165個獨特代碼，平均每份病歷4個。雖然LLMs的中位數代碼數量較高，GPT-4表現最佳，但與人類編碼員的符合率仍然較低，顯示目前LLMs在準確提取ICD-10-CM代碼上仍有挑戰。 PubMed DOI

Large language models can accurately populate Vascular Quality Initiative procedural databases using narrative operative reports.
大型語言模型可以準確地使用敘述性手術報告填充血管質量倡議程序數據庫。 J Vasc Surg 2024-12-18

這項研究評估了大型語言模型（LLMs），特別是ChatGPT，在填寫血管質量倡議（VQI）程序數據庫的有效性。研究針對三種手術進行，結果顯示LLMs的準確率相當高，CEA為84.0%、EVAR為92.2%、LEB為84.3%。排除少見指標後，準確率更提升至CEA的95.5%、EVAR的94.8%和LEB的93.2%。兩個模型（gpt-35-turbo和gpt-4）之間性能差異不大，且分析成本低。整體而言，LLMs能有效協助填寫VQI數據庫，建議進一步研究以提升準確性。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Evaluation of the Performance of Three Large Language Models in Clinical Decision Support: A Comparative Study Based on Actual Cases.
三種大型語言模型在臨床決策支持中的表現評估：基於實際案例的比較研究。 J Med Syst 2025-02-13

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-4、Gemini 和 Med-Go—在134個醫學領域的臨床決策表現。結果顯示，Med-Go 的中位數得分為37.5，優於其他模型，而 Gemini 得分最低，為33.0，差異顯著（p < 0.001）。所有模型在鑑別診斷上表現較弱，但治療建議則較強。研究建議將專業醫學知識納入 LLM 訓練，以提升效能，並需進一步改善其在臨床環境中的精確性與安全性。 PubMed DOI

Assessing AI Accuracy in Generating CPT Codes From Surgical Operative Notes.
評估人工智慧在從外科手術記錄中生成 CPT 代碼的準確性。 J Craniofac Surg 2025-03-24

這項研究探討大型語言模型（LLMs），特別是ChatGPT和Gemini，在根據手術記錄生成當前程序術語（CPT）代碼的有效性。分析了10個案例，將AI生成的代碼與專家手動編碼進行比較。結果顯示兩者表現相似，準確性無顯著差異。Gemini的正確回應率稍高（30%對20%），而ChatGPT則有更多部分正確的回應（50%對40%）。研究指出，AI有潛力提升編碼準確性並減少醫療帳單的行政負擔，未來將探討其在其他外科領域的應用。 PubMed DOI

原始文章

站上相關主題文章列表