原始文章

這項研究探討了多種大型語言模型(LLMs)在生成退化性頸椎MRI報告的放射學印象的效果。比較了OpenAI的ChatGPT-3.5、GPT-4、Anthropic的Claude 2、Google的Bard和Meta的Llama 2,使用50份合成MRI報告進行評估。結果顯示,Claude 2在大多數情況下表現最佳,穩定性高,而GPT-4則需重新訓練以改善表現。研究指出,LLMs,特別是Claude 2,對自動生成放射學印象有潛力,但仍需進一步研究以優化性能和實際應用效果。 PubMed DOI


站上相關主題文章列表

結構化報告可以增進放射學工作流程,並促進醫師間的溝通。人工智慧在醫學領域的應用越來越普遍,大型語言模型(LLMs)被用於放射學的結構化報告。四個LLM模型被比較其知識和模板提議能力。LLMs在放射學中生成結構化報告方面顯示出潛力,但需要進一步的正式驗證。 PubMed DOI

大型語言模型(LLM)是強大的人工智慧工具,可促進類似人類的溝通並提供有價值的資訊。研究發現,ChatGPT在回答脊椎外科醫師有關急性腰椎間盤突出(LDH)問題時表現良好,清晰度高且特定。儘管未涵蓋所有知情同意書內容,但提供額外見解。然而,回答中有些許不準確。LLM如ChatGPT有助於患者教育,但需謹慎監控風險與機會。 PubMed DOI

研究比較四個大型語言模型在簡化放射學報告以提高患者閱讀易懂性的表現。結果顯示,所有模型都成功簡化報告,但在提供背景資料後效果更好。這顯示這些模型在幫助患者理解放射學報告方面有潛力。 PubMed DOI

這項研究探討了利用自然語言處理(NLP)技術,特別是ChatGPT,來提升放射科報告的產出效率。研究人員分析了1,000條來自MIMIC胸部X光數據庫的記錄,並使用Claude.ai提取關鍵字,再透過ChatGPT生成報告。結果顯示,Bart和XLM模型的報告與醫生撰寫的相似度高達99.3%,而其他模型表現較差。研究強調選擇合適的NLP模型對於提升放射科報告的效率和準確性至關重要。 PubMed DOI

這項研究評估了GPT-4在初級和急診護理中對脊椎問題的分診和診斷效果。研究設計了十五個臨床情境,要求GPT-4提供診斷、影像學建議及轉診需求。結果顯示,GPT-4能準確識別診斷並給出符合標準的臨床建議。雖然它有過度轉診的傾向,但這並不顯著。整體表現與主治醫師和住院醫師相當,顯示其在脊椎問題初步分診中的潛力。不過,GPT-4並非專為醫療用途設計,需注意其限制。隨著進一步訓練,這類AI可能在分診中變得更重要。 PubMed DOI

這項研究調查了四個大型語言模型(LLMs)—Bard、BingAI、ChatGPT-3.5 和 ChatGPT-4—在遵循2023年北美脊椎學會(NASS)頸椎融合指導方針的表現。結果顯示,這些模型的遵循率不高,ChatGPT-4和Bing Chat表現較佳,僅達60%。在特定情況下,所有模型都未能符合NASS建議,顯示出明顯差異。研究強調了對LLMs進行更好訓練的需求,並指出在臨床決策中考慮病人特徵的重要性,顯示出人工智慧在醫療中的潛力與挑戰。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5和GPT-4)在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例,結果顯示GPT-4的準確性較高,正確診斷比例為66.1%,而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳,但兩者在重複性上仍有問題。總體來看,ChatGPT在醫學上可作為有用工具,但使用時需謹慎以避免不準確性。 PubMed DOI

這項研究探討了大型語言模型(LLMs),如ChatGPT-4o、ChatGPT-3.5和Google Gemini,在輔助放射學研究中的效能。進行了兩個實驗: 1. **生物統計學與數據視覺化**:測試LLMs在建議生物統計檢定和生成R程式碼的能力。ChatGPT-4o表現最佳,正確回答7個問題,且生成的程式碼錯誤較少。 2. **深度學習**:評估這些模型在生成影像分類模型的Python程式碼的能力。ChatGPT-4o和Gemini都能生成初始程式碼,並透過互動修正錯誤。 總體而言,LLMs對放射學研究有幫助,但使用者需驗證生成的程式碼以避免錯誤。 PubMed DOI

大型語言模型如ChatGPT在醫療領域,特別是放射學報告分析上,受到廣泛關注。研究顯示,ChatGPT能協助放射科醫生進行診斷、生成報告、提取數據等任務,但也面臨幻覺、偏見及複雜情境的挑戰。此外,數據隱私和法律問題也需考量。為了充分發揮ChatGPT的潛力,必須對其輸出進行仔細規劃和驗證,放射科醫生的專業知識在此過程中至關重要。本文概述了ChatGPT在放射報告中的優勢與限制。 PubMed DOI

這項研究評估了八種公開的大型語言模型(LLMs)在24個神經放射學臨床情境中提供影像建議的表現。評估模型包括GPT-4、ChatGPT、Bard、Bing Chat、Llama 2等。結果顯示,GPT-4表現最佳,提供23個最佳建議,其次是ChatGPT有20個,而Llama 2僅有5個最佳建議。這項研究強調了大型語言模型在臨床影像利用上的潛力,並探討了評估其表現的挑戰,具有重要意義。 PubMed DOI