MathOdyssey: Benchmarking Mathematical Problem-Solving Skills in Large Language Models Using Odyssey Math Data.
MathOdyssey:使用 Odyssey Math Data 基準測試大型語言模型的數學問題解決能力
Sci Data 2025-08-08
Pediatric surgical trainees and artificial intelligence: a comparative analysis of DeepSeek, Copilot, Google Bard and pediatric surgeons' performance on the European Pediatric Surgical In-Training Examinations (EPSITE).
小兒外科住院醫師與人工智慧:DeepSeek、Copilot、Google Bard 與小兒外科醫師在歐洲小兒外科住院醫師考試(EPSITE)表現的比較分析
Pediatr Surg Int 2025-08-08
這項研究比較三款大型語言模型在小兒外科考試的表現,結果 DeepSeek(2025年版)正確率高達85%,明顯勝過 Copilot(55.4%)、Bard(48%)和人類受訓醫師(60.1%)。顯示新一代 AI 進步很快,但臨床應用前還是要持續評估安全性與可靠性。
相關文章PubMedDOI推理
Structured Report Generation for Breast Cancer Imaging Based on Large Language Modeling: A Comparative Analysis of GPT-4 and DeepSeek.
基於大型語言模型的乳癌影像結構化報告生成:GPT-4 與 DeepSeek 的比較分析
Acad Radiol 2025-08-08
ChatGPT Responses to Questions About Clinical Decision Making: A Preliminary Analysis of Accuracy and Completeness.
ChatGPT 回答臨床決策相關問題的準確性與完整性之初步分析
Am J Speech Lang Pathol 2025-08-08
Development and Reliability Assessment of an Artificial Intelligence-Driven Urticaria Support Chatbot, AIDUS.
人工智慧驅動蕁麻疹支援聊天機器人 AIDUS 的開發與可靠性評估
J Allergy Clin Immunol Pract 2025-08-08
Artificial intelligence as author: Can scientific reviewers recognize GPT-4o-generated manuscripts?
人工智慧作為作者:科學審稿人能辨識由 GPT-4o 生成的論文手稿嗎?
Am J Emerg Med 2025-08-08
這項研究發現,多數有經驗的審稿人無法分辨出由 ChatGPT-4o 完全撰寫的科學論文,顯示 AI 生成的學術寫作很容易被忽略。結果提醒學界需加強辨識 AI 文章的意識與工具,以避免錯誤資訊或學術不端。
相關文章PubMedDOI推理
Exploring ChatGPT-4o-generated reflections: Alignment with professional standards in diagnostic radiography - A pilot experiment.
探討 ChatGPT-4o 生成的反思內容:與診斷放射學專業標準的一致性-初步實驗
J Med Imaging Radiat Sci 2025-08-08
Health Care Professionals' Experiences and Opinions About Generative AI and Ambient Scribes in Clinical Documentation: Protocol for a Scoping Review.
醫療專業人員對於生成式 AI 與環境書記在臨床紀錄中的經驗與看法:範疇性回顧的研究計畫
JMIR Res Protoc 2025-08-08
Addressing educational overload with generative AI through dual coding and cognitive load theories.
以生成式 AI 結合雙重編碼與認知負荷理論,解決教育過載問題
Med Teach 2025-08-08
醫學知識爆炸,傳統純文字教學已經讓學生吃不消。認知科學建議結合文字和圖像(雙重編碼)能提升學習效果,但現有教材很少這樣做。現在有像 ChatGPT、Gemini 等 AI 工具,能輕鬆製作圖像、音訊、互動地圖和影片,讓學習更有趣又有效,對 Gen Z 特別有幫助。這些工具操作簡單,但還是需要學校支持和訓練。只要善用 AI 多模態內容,就能有效解決醫學教育的資訊爆炸問題。
相關文章PubMedDOI推理