原始文章

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5和GPT-4在日本醫師執照考試(JMLE)中的表現,結果顯示GPT-4比GPT-3.5更準確,尤其在各種問題上表現更好。GPT-4在困難和特定疾病問題上也表現出色,符合JMLE的及格標準。這顯示GPT-4可能成為非英語國家醫學教育和臨床支援的實用工具。 PubMed DOI

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現,結果發現GPT-4得分最高,達100%,Claude次之,接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力,呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

隨著人工智慧工具的普及,患者和醫療專業人員越來越依賴這些工具提供的醫療資訊。本研究評估了五個大型語言模型(LLaMA 1、PaLM 2、Claude-v1、GPT-3.5和GPT-4)在2044個腫瘤學相關問題上的表現。結果顯示,GPT-4在與人類基準比較中表現最佳,達到第50百分位以上。雖然GPT-4的準確率高達81.1%,但所有模型仍存在顯著錯誤率,顯示出持續評估這些AI工具的重要性,以確保其安全應用於臨床實踐。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現,使用了台灣內科醫學會的考題。測試了三個AI模型:GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示,GPT-4o在2022年達到最高分86.25,Claude_3.5 Sonnet在精神科和腎臟科表現優異,最高分88.13,而Gemini Advanced的平均分較低。所有模型在文字題上表現較好,顯示AI在醫學教育中有潛力,但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現,重點在於準確性和醫學知識解析能力。問題依難度和類型分類,包括一般和臨床部分,以及單選和多選題。GPT-4.0的正確回答率達80.4%,顯示出合格的表現,但不同問題的準確性有顯著差異。研究結果顯示,雖然GPT-4.0在醫學教育和研究中有價值,但仍需大量醫學數據來提升準確性,整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了五種多模態大型語言模型(LLMs)在日本診斷放射學委員會考試中的表現,涵蓋2021至2023年的考題。測試模型包括GPT-4o、Claude 3 Opus等,準確率介於30.21%到45.00%之間,GPT-4o表現最佳。雖然Claude 3 Opus在無圖像問題中表現較好,但添加圖像並未顯著提升準確性,甚至有模型表現下降。所有模型均未達到60%的及格標準,顯示目前LLMs在放射學的應用仍需進一步發展。 PubMed DOI