原始文章

這項研究評估了GPT-4o在回答有關軟組織肉瘤的問題時的有效性,並比較了有無使用檢索增強生成(RAG)的方法。研究使用20個臨床情境問題,兩位肉瘤專家評估回答的準確性和安全性。結果顯示,使用RAG的GPT-4o錯誤率從40%降到10%,且90%的相關資訊被正確引用。儘管如此,模型在某些複雜案例中仍有錯誤,顯示在臨床應用中需謹慎,特別是對於罕見疾病,並強調人類專業知識的重要性。 PubMed DOI


站上相關主題文章列表

這項研究指出,使用大型語言模型如GPT-4能有效提升公眾對口腔癌預防和早期檢測的認識。研究人員評估了GPT-4對60個口腔癌相關問題的回答能力,結果顯示標準版和自訂版的表現都不錯,大部分回答獲得高分。雖然兩者的中位數分數略有差異,但統計分析顯示表現無顯著差異。研究強調,GPT-4能提供有用的資訊,但仍無法取代醫療專業人士的專業知識,應作為輔助資源使用。 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

這項研究探討了檢索增強生成(RAG)技術如何提升大型語言模型(LLMs)在乳腺癌護理中的效能。研究比較了兩組:一組使用GPT-4模型,另一組則結合RAG技術。結果顯示,RAG-GPT組在整體滿意度(8.4對5.4)和回答準確性(8.6對5.6)上明顯優於對照組,且差異具統計意義(p < 0.01)。不過,兩組在同理心得分上無顯著差異(8.4對7.8,p > 0.05)。結論指出,RAG技術能有效提升LLMs在臨床護理中的表現,顯示其在護理實踐和教育上的潛力。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在回答成人軟組織肉瘤相關臨床問題的表現,問題依據德國S3指引制定。兩位肉瘤專家對80個問題的回答進行評分。結果顯示,ChatGPT-4的表現優於ChatGPT-3.5,準確性和充分性中位數分數分別為5.5對5.0和5.0對4.0。雖然兩者在某些主題上相似,但ChatGPT-4在一般治療及四肢/軀幹肉瘤方面更佳。不過,兩者偶爾也會提供誤導性和潛在危險的信息,強調臨床應用需謹慎及人類監督的重要性。 PubMed DOI

這項研究強調大型語言模型(LLMs)在醫療領域的潛力,特別是透過檢索增強生成(RAG)來提升數據透明度和準確性。研究團隊開發了GuideGPT,一個能理解上下文的聊天機器人,整合了449篇科學文獻的知識,提供有關藥物相關性顳骨壞死(MRONJ)的資訊。與通用的PureGPT相比,GuideGPT在內容、科學解釋和一致性上表現更佳,顯示RAG能有效提升LLM的回應質量,成為臨床實踐中的重要工具。 PubMed DOI

這項研究評估了GPT-3.5和GPT-4在小兒放射治療患者及其家長教育上的有效性。研究發現,GPT-4和放射腫瘤科醫生的回答質量最高,但GPT-4的回答有時過於冗長。微調過的GPT-3.5表現優於基本版本,但常常提供過於簡化的答案。整體來看,GPT-4可作為小兒放射腫瘤學患者及家庭的有用教育資源,雖然使用GPT-3.5時需謹慎,因為它可能產生不足的回答。 PubMed DOI

這項研究探討了增強檢索生成(RAG)的GPT-4模型在診斷和分類創傷性傷害的效果。研究人員開發了名為TraumaCB的工具,利用專家知識來提升準確性。結果顯示,TraumaCB在診斷上達到100%準確率,分類96%,明顯優於一般的GPT-4。這項研究強調了傷害分類的挑戰,並指出結合RAG的GPT-4能提升創傷放射學的診斷能力,對急診部門的效率有正面影響。 PubMed DOI

這項研究評估了GPT-4在回答疼痛管理相關的臨床藥理學問題上的表現。醫療專業人員提出了有關藥物相互作用、劑量和禁忌症的問題,GPT-4的回應在清晰度、詳細程度和醫學準確性上獲得了高評價。結果顯示,99%的參與者認為回應易懂,84%認為信息詳細,93%表示滿意,96%認為醫學準確。不過,只有63%認為信息完整,顯示在藥物動力學和相互作用方面仍有不足。研究建議開發專門的AI工具,結合即時藥理數據庫,以提升臨床決策的準確性。 PubMed DOI

這項研究探討檢索增強生成(RAG)對大型語言模型(LLMs)在醫學領域的影響,特別針對2024年日本骨科專家考試。研究團隊建立了專門資料庫,評估了GPT-3.5 Turbo、GPT-4o和o1-preview的表現。結果顯示,GPT-3.5 Turbo使用RAG後準確率未見提升,仍為28%;而GPT-4o和o1-preview的準確率分別從62%和67%提升至72%和84%。分析指出,GPT-3.5 Turbo在利用檢索數據上表現不佳,顯示其推理能力不足。總體而言,RAG顯著提升了GPT-4o和o1-preview的表現,特別是o1-preview達到臨床實踐的水準。 PubMed DOI

這項研究探討了基於GPT-4的檢索增強生成(RAG)模型在術前評估中的有效性。研究測試了十個大型語言模型,生成超過3,200個回應,並與近450個人類答案進行比較。結果顯示,使用國際指導的GPT-4 LLM-RAG模型準確率達96.4%,明顯高於人類的86.6%,且反應時間更快、不一致情況較少。這顯示LLM-RAG模型在醫療環境中提升術前評估的潛力。 PubMed DOI