原始文章

這項研究探討了基於檢索增強生成(RAG)的大型語言模型(LLMs)在提供前交叉韌帶(ACL)損傷資訊的準確性。研究人員編輯了100個問題和答案,並測試了不同模型的表現。結果顯示,未整合RAG的模型準確率低於60%,但整合後平均提升39.7%。Meta的Llama 3 70b達到94%準確率,而結合RAG與AI代理的GPT-4則達95%。研究結果顯示RAG和代理增強能有效提升醫療資訊的準確性,對醫學領域的LLMs應用提供了支持。 PubMed DOI


站上相關主題文章列表

研究使用大型語言模型探討骨科領域,專注於ACL手術。結果顯示ChatGPT在回答患者和醫生問題時相當準確,但仍需專業醫師確認。雖有潛力作為知識補充,但無法取代專業醫師。 PubMed DOI

研究比較四個大型語言模型在眼科、骨科和皮膚科領域生成醫學內容的表現,發現不同模型在治療建議的質量、準確性和安全性上有差異。GPT-3.5-Turbo最安全,Bloomz質量較差。研究強調需持續改進人工智慧工具,確保醫學建議可靠。建議引入GPT-4的自動評估機制,擴展評估範疇。 PubMed DOI

在醫療領域,使用大型語言模型(LLMs)是重要進步,有助於改善病患護理、研究和教育。雖然LLMs有不完美之處,但透過提示工程和檢索增強生成(RAG)等策略,可以提高準確性和相關性。尤其在臨床決策等需要全面資訊的任務中,RAG是相當有幫助的。一個以KDIGO 2023慢性腎臟病指南為基礎的ChatGPT模型整合了RAG,展現了提供準確醫療建議的潛力。 PubMed DOI

研究發現大型語言模型(LLMs)像Anthropic的Claude 2在手術前回應病人問題時表現優異,比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI

這項研究評估了幾個商業可用的大型語言模型(LLMs)在提供治療建議時,與美國骨科醫學會(AAOS)針對肩袖撕裂和前交叉韌帶(ACL)損傷的臨床指導方針(CPGs)的符合度。分析了48項CPGs,結果顯示70.3%的回應與指導方針一致,ChatGPT-4的符合率最高(79.2%),而Mistral-7B最低(58.3%)。研究指出,雖然LLMs能提供一致建議,但缺乏透明的資料來源,限制了其作為臨床支持工具的可靠性,未來應擴大評估範圍以減少偏見。 PubMed DOI

這項研究評估了ChatGPT-4和Gemini在根據2022年美國骨科醫學會的前交叉韌帶重建指導方針生成回應的表現。七位專科醫生使用問卷評估這些回應,結果顯示兩者表現都不錯,平均分數超過4。Gemini在整體清晰度及康復與預防的完整性上優於ChatGPT-4,顯示出顯著的優勢。這項研究強調了大型語言模型在醫療領域的潛力,對醫療專業人員和病人皆有價值。 PubMed DOI

這項研究評估了優化與未優化的大型語言模型(LLMs)在骨科領域的表現。研究團隊建立了一個專門的知識庫,並針對三十個骨科問題,向不同版本的GPT-4、ChatGLM和Spark LLM提問,結果由三位骨科醫生評估。結果顯示,優化版的表現明顯優於未優化版,GPT-4的質量、準確性和全面性分別提高了15.3%、12.5%和12.8%;ChatGLM則提高了24.8%、16.1%和19.6%;Spark LLM的提升幅度也相當可觀。這顯示優化知識庫能有效提升LLMs在特定領域的表現。 PubMed DOI

現成的大型語言模型(LLMs)在準確性上常反映互聯網上的不準確資訊,對於常見的肌肉骨骼疾病,治療建議的錯誤率高達30%。這顯示出諮詢專家的必要性。定制的LLMs則能整合各醫學領域的專業知識,方法包括: 1. **提示工程**:設計特定提示以獲得更佳回應。 2. **檢索增強生成(RAG)**:從目標數據集中檢索相關資訊。 3. **微調**:調整模型以理解醫療術語。 4. **代理增強**:利用軟體協調多個LLMs,優化輸出並引入人類監督。 這些定制的LLMs幫助醫生在數位環境中重新掌握權威,確保醫療專業知識的準確性。 PubMed DOI

這項研究探討增強檢索生成(RAG)的大型語言模型(LLMs)在急診科臨床紀錄中生成ICD-10-CM代碼的有效性,並與醫療提供者進行比較。研究基於Mount Sinai Health System的500次急診就診數據,發現RAG增強的LLMs在準確性和特異性上均優於醫療提供者,且GPT-4的表現尤為突出。即使是較小的模型如Llama-3.1-70B,經過RAG後也顯示出顯著提升。這顯示生成式人工智慧在改善醫療編碼準確性及減少行政負擔方面的潛力。 PubMed DOI