原始文章

這項研究探討了增強檢索生成(RAG)的GPT-4模型在診斷和分類創傷性傷害的效果。研究人員開發了名為TraumaCB的工具,利用專家知識來提升準確性。結果顯示,TraumaCB在診斷上達到100%準確率,分類96%,明顯優於一般的GPT-4。這項研究強調了傷害分類的挑戰,並指出結合RAG的GPT-4能提升創傷放射學的診斷能力,對急診部門的效率有正面影響。 PubMed DOI


站上相關主題文章列表

研究比較了GPT模型和放射科醫師生成放射學報告的表現,結果顯示GPT-4在準確性上優於GPT-2和GPT-3.5,但仍不及醫師。醫師在印象和鑑別診斷方面表現較佳。GPT-3.5和GPT-4生成的報告可讀性高,但準確性仍需醫師驗證。 PubMed DOI

研究使用GPT-4智能對話機器人,結合腸胃影像知識,能準確診斷腹部病變。相較一般對話機器人,它在診斷和解釋上更優秀,並可查閱來源文件。整合特定背景資料到AI模型可支持臨床決策,為可靠的AI輔助決策系統鋪平道路。 PubMed DOI

研究目的是評估使用RAG和LLMs(如GPT模型)來改善急診分流流程,提升護理一致性。通過模擬情境測試,發現搭配RAG的GPT-3.5模型在分流準確性上表現優異,可達70%正確率,並將低分流率降至8%。整合這兩者可提高急診評估的精確性和一致性,但仍需在實際醫療環境中驗證。 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

這項研究評估了GPT-4(特別是ChatGPT)在解讀腦腫瘤MRI報告的診斷能力。研究分析了150份術前病患的報告,結果顯示GPT-4的診斷準確率為73%,而神經放射科醫師則為80%。在鑑別診斷方面,GPT-4的準確率高達94%,放射科醫師則介於73%到89%之間。研究結果表明,GPT-4可作為神經放射科醫師的有用第二意見,並能成為一般放射科醫師和住院醫師的指導工具,顯示其在臨床診斷中的潛力。 PubMed DOI

這項研究探討了一個上下文感知的聊天機器人,旨在根據美國放射學會的標準提供個性化影像建議。透過從GPT-3.5-Turbo升級到GPT-4,並運用最新技術,這個聊天機器人在建議的準確性和一致性上顯著優於舊版及一般放射科醫生。研究結果顯示,該機器人在「通常適當」的建議中達到78%一致性,並在「通常或可能適當」中達到94%。這強調了上下文感知和透明度在增強信任方面的重要性,對臨床決策支持有正面影響。 PubMed DOI

這項研究評估了ChatGPT(GPT-3.5和GPT-4)在根據放射學轉錄生成鑑別診斷的表現。分析了339個案例,結果顯示GPT-4的準確性較高,正確診斷比例為66.1%,而GPT-3.5為53.7%。雖然GPT-4在準確性和虛構參考文獻方面表現較佳,但兩者在重複性上仍有問題。總體來看,ChatGPT在醫學上可作為有用工具,但使用時需謹慎以避免不準確性。 PubMed DOI

這篇文章探討了一項研究,分析檢索增強生成(RAG)如何提升大型語言模型(LLMs)在放射學的表現。RAG 讓 LLMs 能夠即時訪問更新的知識庫,無需微調即可生成準確答案。研究中使用了來自 *RadioGraphics* 的 3,689 篇文章作為數據庫,並評估了五種 LLMs 在192道放射學考題中的表現。結果顯示,RAG 顯著提升了 GPT-4 和 Command R+ 的得分,特別是在與 *RadioGraphics* 相關的問題上,成功檢索並引用了相關資料。整體而言,RAG 在放射學任務中展現了提升 LLM 能力的潛力。 PubMed DOI

這項研究評估了一個基於檢索增強生成(RAG)技術的病人資訊助手(PIA)聊天機器人在提供CT前資訊的可行性與有效性,並與傳統醫生諮詢比較。研究對象為86名預定接受CT的病人,隨機分為PIA組和對照組。 主要發現包括:兩組在資訊清晰度和理解度上相似,但對照組在減輕病人擔憂方面更有效。PIA組的諮詢時間顯著較短。放射科醫生對PIA的評價也很高。總結來說,PIA有效提供CT前資訊並縮短諮詢時間,但醫生在解決病人擔憂方面表現更佳。 PubMed DOI

這項研究探討檢索增強生成(RAG)對大型語言模型(LLMs)在醫學領域的影響,特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫,評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示,GPT-3.5 Turbo使用RAG後準確率未見提升,仍為28%;而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出,GPT-3.5 Turbo在利用檢索數據上表現不佳,顯示其推理能力不足。總體而言,RAG顯著提升了GPT-4o和o1-preview的表現,特別是o1-preview達到臨床實踐的水準。 PubMed DOI