原始文章

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值,但專家驗證仍然至關重要,以避免不準確或資訊不完整的情況。 PubMed DOI

研究使用GPT-4等大型語言模型回答病人的實驗室檢驗問題,結果顯示GPT-4回答通常更準確、相關、有幫助且安全。但在醫學背景下解釋不足及偶爾不準確。提升回答方法包括提示工程、擴充、檢索增強生成和評估。 PubMed DOI

在醫療領域,使用大型語言模型(LLMs)是重要進步,有助於改善病患護理、研究和教育。雖然LLMs有不完美之處,但透過提示工程和檢索增強生成(RAG)等策略,可以提高準確性和相關性。尤其在臨床決策等需要全面資訊的任務中,RAG是相當有幫助的。一個以KDIGO 2023慢性腎臟病指南為基礎的ChatGPT模型整合了RAG,展現了提供準確醫療建議的潛力。 PubMed DOI

病患常覺得實驗室檢驗報告難懂,常上網求助。研究發現,使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

RISE框架的開發目的是提升大型語言模型(LLMs)在回答糖尿病相關問題的準確性和全面性。研究評估了RISE的有效性,包含重寫查詢、資訊檢索、摘要和執行四個步驟。研究結果顯示,應用RISE後,三個基礎LLM(GPT-4、Claude 2和Google Bard)的回答準確性平均提高12%。具體來說,GPT-4提高7%,Claude 2提高19%,Google Bard提高9%。此外,回答的全面性和可理解性也有所增強,顯示RISE對於患者教育和慢性疾病自我管理的重要性,有助於改善公共健康。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究探討如何透過檢索增強生成(RAG)來提升從PubMed資料庫獲取醫療資訊的效果。研究將RAG與大型語言模型結合,旨在提高醫療專業人員獲得資訊的準確性和相關性。使用1,000個查詢的標記數據集進行評估,結果顯示在答案的相關性上有不錯的表現,但也指出在基礎性和上下文相關性方面仍需改進。 PubMed DOI

現代的生成式人工智慧技術,如檢索增強生成(RAG),能顯著提升癌症治療的討論效果。專家通常需花費大量時間審查文獻以尋找證據和建議,但透過RAG流程,這個過程變得更簡單。該流程從可信來源(如OncoKB)檢索相關文本,並提供給大型語言模型(LLM),無需微調。研究顯示,透過向Llama 2模型提出簡單問題,能重現超過80%的治療關係,顯示出減少文獻審查勞動量的潛力,並提升討論效率。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI