Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 medRxiv 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值，但專家驗證仍然至關重要，以避免不準確或資訊不完整的情況。 PubMed DOI

Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕患者對於解釋普通患者的檢驗結果的回答品質：評估研究。 ArXiv 2024-03-30

研究使用GPT-4等大型語言模型回答病人的實驗室檢驗問題，結果顯示GPT-4回答通常更準確、相關、有幫助且安全。但在醫學背景下解釋不足及偶爾不準確。提升回答方法包括提示工程、擴充、檢索增強生成和評估。 PubMed DOI

Integrating Retrieval-Augmented Generation with Large Language Models in Nephrology: Advancing Practical Applications.
在腎臟學中整合檢索增強生成與大型語言模型：推進實際應用。 Medicina (Kaunas) 2024-03-30

在醫療領域，使用大型語言模型（LLMs）是重要進步，有助於改善病患護理、研究和教育。雖然LLMs有不完美之處，但透過提示工程和檢索增強生成（RAG）等策略，可以提高準確性和相關性。尤其在臨床決策等需要全面資訊的任務中，RAG是相當有幫助的。一個以KDIGO 2023慢性腎臟病指南為基礎的ChatGPT模型整合了RAG，展現了提供準確醫療建議的潛力。 PubMed DOI

Quality of Answers of Generative Large Language Models Versus Peer Users for Interpreting Laboratory Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕用戶對於解釋普通患者的實驗室檢驗結果的答案品質：評估研究。 J Med Internet Res 2024-04-17

病患常覺得實驗室檢驗報告難懂，常上網求助。研究發現，使用GPT-4等大型語言模型回答問題更準確、有幫助、相關且安全。但仍需改進處理不準確和缺乏個人化的問題。改進策略包括即時調整、擴充、檢索和評估回應品質。 PubMed DOI

Enhancement of Large Language Models' Performance in Diabetes Education: Retrieval-Augmented Generation Approach.
提升大型語言模型在糖尿病教育中的表現：檢索增強生成方法。 J Med Internet Res 2024-07-24

RISE框架的開發目的是提升大型語言模型（LLMs）在回答糖尿病相關問題的準確性和全面性。研究評估了RISE的有效性，包含重寫查詢、資訊檢索、摘要和執行四個步驟。研究結果顯示，應用RISE後，三個基礎LLM（GPT-4、Claude 2和Google Bard）的回答準確性平均提高12%。具體來說，GPT-4提高7%，Claude 2提高19%，Google Bard提高9%。此外，回答的全面性和可理解性也有所增強，顯示RISE對於患者教育和慢性疾病自我管理的重要性，有助於改善公共健康。 PubMed DOI

Comparative Evaluation of LLMs in Clinical Oncology.
臨床腫瘤學中大型語言模型的比較評估。 NEJM AI 2024-08-12

隨著人工智慧工具的普及，患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型（LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4）在2044個腫瘤學相關問題上的表現。結果顯示，GPT-4在與人類基準比較中表現最佳，達到第50百分位以上。雖然GPT-4的準確率高達81.1%，但所有模型仍存在顯著錯誤率，顯示出持續評估這些AI工具的重要性，以確保其安全應用於臨床實踐。 PubMed DOI

How do large language models answer breast cancer quiz questions? A comparative study of GPT-3.5, GPT-4 and Google Gemini.
大型語言模型如何回答乳腺癌測驗問題？GPT-3.5、GPT-4 和 Google Gemini 的比較研究。 Radiol Med 2024-08-14

這項研究評估了三個大型語言模型（LLMs）—GPT-3.5、GPT-4 和 Google Gemini（Bard）在回答60道乳腺癌護理相關的多選題的表現。結果顯示，GPT-4的準確率最高，正確回答了95%的問題，接著是GPT-3.5的90%和Google Gemini的80%。研究還發現，來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異，顯示LLMs在乳腺癌護理方面有良好的應用潛力，但仍需進一步訓練以提升表現。 PubMed DOI

PubMed Retrieval with RAG Techniques.
使用 RAG 技術進行 PubMed 檢索。 Stud Health Technol Inform 2024-08-23

這項研究探討如何透過檢索增強生成（RAG）來提升從PubMed資料庫獲取醫療資訊的效果。研究將RAG與大型語言模型結合，旨在提高醫療專業人員獲得資訊的準確性和相關性。使用1,000個查詢的標記數據集進行評估，結果顯示在答案的相關性上有不錯的表現，但也指出在基礎性和上下文相關性方面仍需改進。 PubMed DOI

Using Retrieval-Augmented Generation to Capture Molecularly-Driven Treatment Relationships for Precision Oncology.
使用檢索增強生成技術捕捉分子驅動的精準腫瘤治療關係。 Stud Health Technol Inform 2024-08-23

現代的生成式人工智慧技術，如檢索增強生成（RAG），能顯著提升癌症治療的討論效果。專家通常需花費大量時間審查文獻以尋找證據和建議，但透過RAG流程，這個過程變得更簡單。該流程從可信來源（如OncoKB）檢索相關文本，並提供給大型語言模型（LLM），無需微調。研究顯示，透過向Llama 2模型提出簡單問題，能重現超過80%的治療關係，顯示出減少文獻審查勞動量的潛力，並提升討論效率。 PubMed DOI

Performance of Publicly Available Large Language Models on Internal Medicine Board-style Questions.
公開可用的大型語言模型在內科醫學考試風格問題上的表現。 PLOS Digit Health 2024-09-17

持續的研究正在評估大型語言模型（LLMs）在內科考試中的表現，特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現，並使用檢索增強生成的方法進行測試。結果顯示，GPT-4.0的得分介於77.5%到80.7%之間，優於其他模型及人類受試者，尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性，顯示這種方法在醫學領域的潛力。 PubMed DOI

原始文章

站上相關主題文章列表