Assessing ChatGPT4 with and without retrieval-augmented generation in anticoagulation management for gastrointestinal procedures.
評估 ChatGPT4 在抗凝管理中對於胃腸道程序的檢索增強生成有無影響。 Ann Gastroenterol 2024-09-06

這項研究評估了ChatGPT-4在抗凝治療管理方面的準確性，特別針對接受胃腸道手術的患者，並與ChatGPT-3.5及增強檢索生成模型（ChatGPT4-RAG）比較。結果顯示，ChatGPT-4的完全準確率為30.5%，而ChatGPT4-RAG則達到75%。儘管如此，研究指出75%的準確率仍不足以獨立做臨床決策，AI應視為醫生的輔助工具，並需持續評估以保障病人隱私及醫病關係。 PubMed DOI

Fine-Tuned Bidirectional Encoder Representations From Transformers Versus ChatGPT for Text-Based Outpatient Department Recommendation: Comparative Study.
基於變壓器的微調雙向編碼器表示法與 ChatGPT 在文本基礎的門診推薦中的比較研究。 JMIR Form Res 2024-10-18

這項研究評估了ChatGPT在根據病人症狀推薦醫療專科的效果，使用了31,482個標記有27個專科的醫療問題。結果顯示，ChatGPT的準確率為0.939，F1分數為0.134，雖然不及經過微調的韓國醫療BERT（KM-BERT）的準確率0.977和F1分數0.587，但它能提供有價值的解釋，幫助病人理解潛在的醫療狀況。雖然在專科推薦上不如KM-BERT，ChatGPT的對話能力仍可能改善病人獲取資訊的過程。 PubMed DOI

Assessing Retrieval-Augmented Large Language Model Performance in Emergency Department ICD-10-CM Coding Compared to Human Coders.
評估檢索增強大型語言模型在急診部門 ICD-10-CM 編碼中的表現，與人類編碼員相比。 medRxiv 2024-11-01

這項研究探討增強檢索生成（RAG）的大型語言模型（LLMs）在急診科臨床紀錄中生成ICD-10-CM代碼的有效性，並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據，發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者，且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B，經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

Exploration of the optimal deep learning model for english-Japanese machine translation of medical device adverse event terminology.
醫療器材不良事件術語的英日機器翻譯最佳深度學習模型探索。 BMC Med Inform Decis Mak 2025-02-08

在日本，醫療器材的故障和健康問題需報告，JFMDA正努力標準化術語。國際上，IMDRF也有自己的術語標準。為促進國際協調，JFMDA與IMDRF的術語對應至關重要，但目前英日翻譯過程繁瑣且易出錯。本研究旨在找出最佳機器翻譯模型，將IMDRF術語翻譯成日語。研究顯示，GPT-4在各項評估中表現最佳，顯示其能顯著提升醫療術語對應系統的效率。 PubMed DOI

Is ChatGPT a Reliable Tool for Explaining Medical Terms?
ChatGPT 是否是一個可靠的工具來解釋醫學術語？ Cureus 2025-02-11

這項研究探討了ChatGPT-4在將醫學術語翻譯成病人易懂語言的效果，並與不同醫師群體進行比較。研究評估了105個醫學術語，結果顯示ChatGPT-4的準確率達到100%，超過專科醫師（98.1%）、住院醫師（93.3%）和一般醫師（84.8%）。這些差異具有統計學意義，顯示ChatGPT-4在病人教育上是個可靠工具。不過，研究也強調醫療專業人員在臨床決策中的重要性仍不可或缺。 PubMed DOI

Biomedical Text Normalization through Generative Modeling.
生物醫學文本標準化透過生成模型。 medRxiv 2025-03-17

這項研究探討了電子健康紀錄（EHRs）中非結構化醫療文本的標準化挑戰，因為這些文本格式不一致。約80%的EHR數據是非結構化的，作者使用大型語言模型（LLMs）來標準化這些文本，開發了四種策略，包括RAGnorm。研究評估了這些策略在三個SNOMED映射的病症術語數據集上的表現，結果顯示RAGnorm在所有數據集中的表現最佳，且在TAC2017任務中獲得88.01的微F1分數，顯示其在標準化生物醫學文本方面的潛力。 PubMed DOI

Large language models for intelligent RDF knowledge graph construction: results from medical ontology mapping.
用於智慧型 RDF 知識圖譜建構的大型語言模型：醫學本體映射的研究結果 Front Artif Intell 2025-05-12

這篇論文提出用大型語言模型（像 GPT-4o）自動化醫療術語對應 SNOMED CT 等本體，建立 RDF 知識圖譜。研究比較六種系統，發現 GPT-4o 等現代 LLMs 在準確度和語意理解上都比傳統方法好很多，能大幅提升醫療知識圖譜的準確性和資料整合效率。 PubMed DOI

Biomedical text normalization through generative modeling.
透過生成式建模進行生物醫學文本正規化 J Biomed Inform 2025-05-17

這項研究比較了多種大型語言模型（LLM）方法，把電子病歷的非結構化醫療文本標準化成臨床術語。結果發現，檢索增強生成（RAGnorm）方法表現最穩定、準確度最高，即使沒訓練資料也很有效。這類檢索型LLM在生醫文本標準化上很有潛力，值得持續發展與應用。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

原始文章

站上相關主題文章列表