Evaluation of Multi-Lingual Simplifications of IR Procedural Reports Using GPT-4.
使用 GPT-4 評估多語言簡化的 IR 程序報告。 J Vasc Interv Radiol 2025-01-10

這項研究評估了GPT-4在總結介入放射學報告的效果，旨在幫助外行人理解並翻譯醫學文本。研究總結了200份報告，並用Flesch-Kincaid閱讀水平和Flesch閱讀容易度分數來評估可讀性。結果顯示，總結後的可讀性明顯改善，外行人的理解分數也從2.5提升至4.3。雖然翻譯成其他語言後誤資訊略有增加，但關鍵錯誤資訊並未顯著上升。整體而言，GPT-4在提升報告可讀性和病人溝通方面展現了潛力。 PubMed DOI

Performance Evaluation and Implications of Large Language Models in Radiology Board Exams: Prospective Comparative Analysis.
大型語言模型在放射科考試中的表現評估及其影響：前瞻性比較分析。 JMIR Med Educ 2025-01-17

這項研究評估了多種大型語言模型在回答放射科考試問題的表現，特別是GPT-4。分析了150道選擇題，結果顯示GPT-4的準確率達83.3%，明顯優於其他模型，如Claude（62%）、Bard（54.7%）、Tongyi Qianwen（70.7%）和Gemini Pro（55.3%）。研究指出，模型表現因問題類型和醫學專科而異，GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力，但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

Factors Associated With the Accuracy of Large Language Models in Basic Medical Science Examinations: Cross-Sectional Study.
與大型語言模型在基礎醫學科學考試準確性相關的因素：橫斷面研究。 JMIR Med Educ 2025-01-23

這項研究評估了幾種大型語言模型（LLMs）的準確性，包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing，針對基本醫學科學考試的多選題。結果顯示，GPT-4的準確率最高，達89.07%，明顯優於其他模型。Microsoft Bing以83.69%緊隨其後，GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出，問題的難度與模型表現有關，GPT-4的關聯性最強。整體來看，GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具，特別是對於簡單問題。 PubMed DOI

ChatGPT (GPT-4V) Performance on the Healthcare Information Technologist Examination in Japan.
ChatGPT (GPT-4V) 在日本醫療資訊技術人員考試中的表現。 Cureus 2025-02-03

本研究評估了ChatGPT（GPT-4V）在日本醫療資訊技術人員（HCIT）認證考試中的表現。經過三年，分析了476道考題，結果顯示ChatGPT的正確回答率達84%，成功通過考試。簡單選擇題的表現優於多選題，且帶圖片的問題和需要計算的題目正確率較低。總體而言，ChatGPT具備HCIT認證所需的基本知識和技能，顯示其在醫療資訊領域的潛力。 PubMed DOI

An Evaluation of the Performance of OpenAI-o1 and GPT-4o in the Japanese National Examination for Physical Therapists.
對於 OpenAI-o1 和 GPT-4o 在日本物理治療師國家考試中的表現評估。 Cureus 2025-02-06

最近大型語言模型（LLMs）在醫療領域的應用逐漸增加，特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示，OpenAI-o1的正確率達97.0%，解釋準確率為86.4%；而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性，未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

Is ChatGPT a Reliable Tool for Explaining Medical Terms?
ChatGPT 是否是一個可靠的工具來解釋醫學術語？ Cureus 2025-02-11

這項研究探討了ChatGPT-4在將醫學術語翻譯成病人易懂語言的效果，並與不同醫師群體進行比較。研究評估了105個醫學術語，結果顯示ChatGPT-4的準確率達到100%，超過專科醫師（98.1%）、住院醫師（93.3%）和一般醫師（84.8%）。這些差異具有統計學意義，顯示ChatGPT-4在病人教育上是個可靠工具。不過，研究也強調醫療專業人員在臨床決策中的重要性仍不可或缺。 PubMed DOI

Can interactive artificial intelligence be used for patient explanations of nuclear medicine examinations in Japanese?
互動式人工智慧能否用於向日本病患說明核醫檢查？ Ann Nucl Med 2025-04-15

這項研究比較了ChatGPT-3.5和4在產生日文核醫檢查說明的表現，由19位技術師評分。結果顯示，ChatGPT-4表現明顯較佳，大多數說明被評為中上或優秀。不過，專家監督仍不可少，未來還需進一步研究風險與安全性。 PubMed DOI

Comparative Analysis of ChatGPT-4 for Automated Mapping of Local Medical Terminologies to SNOMED CT.
ChatGPT-4 用於自動對應在地醫學術語至 SNOMED CT 的比較分析 Stud Health Technol Inform 2025-05-17

這項研究比較四種GPT-4方法，把韓國醫院的診斷用語自動對應到SNOMED CT。結果顯示，RAG模型表現最好，有96.2%能成功對應，完全吻合率也最高。RAG的結構性錯誤率最低，但在細節準確度上還有進步空間。整體來說，AI輔助有助於醫療資料標準化，但臨床驗證還需加強。 PubMed DOI

Comparative evaluation of six large language models in transfusion medicine: Addressing language and domain-specific challenges.
六種大型語言模型於輸血醫學中的比較評估：應對語言及領域特有挑戰 Vox Sang 2025-05-23

這項研究發現，GPT-4 和 GPT-4o 在韓國輸血醫學執照考試（無論韓文或英文題目）表現穩定且優於標準，其他模型則較不穩定，特別是遇到韓文題目時。所有模型在法律與倫理題目上表現較差。總結來說，GPT-4/4o 在專業內容上可靠，但臨床應用前仍需針對在地法規和多語言進行微調。 PubMed DOI

Evaluation of the accuracy and safety of machine translation of patient-specific discharge instructions: a comparative analysis.
病人專屬出院指示之機器翻譯準確性與安全性評估：比較性分析 BMJ Qual Saf 2025-07-09

ChatGPT-4 和 Google 翻譯能準確把急診指示從英文翻成西班牙文和中文（準確率超過九成），但翻成俄文就不太可靠。兩者出現有害錯誤的機率都很低。ChatGPT-4 翻中文和俄文比 Google 翻譯更準。這些工具適合低風險醫療溝通，但高風險情境或其他語言還是要專業人員把關，未來也需要更多研究。 PubMed DOI

原始文章

站上相關主題文章列表