Evaluating the Capabilities of Generative AI Tools in Understanding Medical Papers: Qualitative Study.
評估生成式 AI 工具在理解醫學論文中的能力:質性研究。
JMIR Med Inform 2024-09-04
Systematic analysis of ChatGPT, Google search and Llama 2 for clinical decision support tasks.
ChatGPT、Google 搜尋和 Llama 2 在臨床決策支援任務中的系統性分析。
Nat Commun 2024-03-09
Quality of Answers of Generative Large Language Models vs Peer Patients for Interpreting Lab Test Results for Lay Patients: Evaluation Study.
生成式大型語言模型與同儕患者對於解釋普通患者的檢驗結果的回答品質:評估研究。
ArXiv 2024-03-30
Assessing GPT-4's Performance in Delivering Medical Advice: Comparative Analysis With Human Experts.
評估 GPT-4 在提供醫療建議方面的表現:與人類專家的比較分析。
JMIR Med Educ 2024-07-11
Evaluating AI Proficiency in Nuclear Cardiology: Large Language Models take on the Board Preparation Exam.
評估人工智慧在核心臟學的能力:大型語言模型挑戰考試準備考試。
medRxiv 2024-07-29
Evaluation of Generative Language Models in Personalizing Medical Information: Instrument Validation Study.
生成語言模型在個性化醫療資訊中的評估:工具驗證研究。
JMIR AI 2024-08-13
How do large language models answer breast cancer quiz questions? A comparative study of GPT-3.5, GPT-4 and Google Gemini.
大型語言模型如何回答乳腺癌測驗問題?GPT-3.5、GPT-4 和 Google Gemini 的比較研究。
Radiol Med 2024-08-14
這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。
PubMedDOI
Comparing Vision-Capable Models, GPT-4 and Gemini, With GPT-3.5 on Taiwan's Pulmonologist Exam.
比較具視覺能力的模型 GPT-4 和 Gemini 與 GPT-3.5 在台灣肺科醫師考試中的表現。
Cureus 2024-08-26