原始文章

這項研究評估了兩個人工智慧模型,ChatGPT-4 和 Gemini,在回答病毒學多選題的表現,涵蓋英語和阿拉伯語。研究使用 CLEAR 工具分析了 40 道題目的回答正確性,結果顯示 ChatGPT-4 在兩種語言中均優於 Gemini,英語正確率分別為 80% 和 62.5%,阿拉伯語則為 65% 和 55%。兩者在較低認知領域表現較佳,結果顯示人工智慧在醫療教育中的潛力,並強調了提升多語言有效性的必要性。 PubMed DOI


站上相關主題文章列表

ChatGPT是一個受歡迎的工具,可提供有條理的回應。研究評估了它在醫學教育中的表現,測試了基礎醫學和臨床醫學的MCQs。結果顯示,在基礎醫學方面得分為74%,臨床醫學方面為70%,總體得分為72%。顯示ChatGPT對醫學生和教職員有幫助。 PubMed DOI

研究比較了ChatGPT 3.5和Gemini回答200個微生物學問題的表現,兩者準確率約70%。Gemini在微生物學和免疫學表現較佳,ChatGPT 3.5則在應用微生物學方面表現突出。研究指出,這些人工智慧平台在微生物學和醫學教育上有潛力,但仍需進一步改進以提升表現。 PubMed DOI

研究比較三個AI聊天機器人在預測義大利醫學入學考試答案的表現,發現ChatGPT-4和Microsoft Copilot比Google Gemini好,尤其在邏輯推理方面。研究建議,儘管AI聊天機器人在教育上有潛力,但應謹慎使用,當作輔助學習工具。 PubMed DOI

人工智慧(AI)工具逐漸融入醫學和教育領域,ChatGPT作為大型語言模型(LLM)引起了關注。本研究分析了2023年全國研究生入學考試(NEET-PG)中的200個問題,並使用GPT-4進行回答。結果顯示,ChatGPT-4正確回答了129個問題,主要涉及內科、婦產科、一般外科和病理學。研究顯示,ChatGPT在醫學教育和臨床實踐中具潛力,未來需進一步探討其應用與有效性。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了AI模型在回應英語和阿拉伯語的傳染病問題上的表現,強調多語言環境中獲得準確資訊的公平性。研究比較了ChatGPT-3.5、ChatGPT-4、Bing和Bard在15個與HIV/AIDS、結核病等疾病相關問題上的表現。結果顯示,AI在英語的表現明顯優於阿拉伯語,Bard得分最高。雖然阿拉伯語表現較低,但未達統計顯著性。研究指出,AI在英語的完整性和準確性優於阿拉伯語,建議開發者應改善阿拉伯語使用者的健康資訊獲取。 PubMed DOI

這項分析評估了AI文本生成器的表現,特別是ChatGPT和Google Gemini在回答臨床問題時的表現。結果顯示,ChatGPT提供的文獻資訊相對準確,但在臨床內容上有不一致的情況。相比之下,Google Gemini則產生了完全虛構的引用和摘要。雖然這兩個工具的回應看起來可信,但實際上存在不準確性,這讓它們作為臨床資訊來源的可靠性受到質疑。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI

這項研究探討了先進的人工智慧模型,特別是ChatGPT和Google的Gemini AI,在眼科領域的應用潛力。研究比較了這些模型與眼科住院醫師的表現,使用了600道來自以色列住院醫師考試的問題。結果顯示,Gemini Advanced的準確率最高,達66%,其次是ChatGPT-4的62%。這項研究強調了AI在醫學教育中的輔助角色,並指出需要進一步改進,以提升其在不同子專科的有效性,對改善病人護理具有潛力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI