原始文章

這項研究評估了生成式人工智慧模型在正式醫學考試中的表現,使用了台灣內科醫學會的考題。測試了三個AI模型:GPT-4o、Claude_3.5 Sonnet和Gemini Advanced。結果顯示,GPT-4o在2022年達到最高分86.25,Claude_3.5 Sonnet在精神科和腎臟科表現優異,最高分88.13,而Gemini Advanced的平均分較低。所有模型在文字題上表現較好,顯示AI在醫學教育中有潛力,但不同專科和問題類型的熟練程度仍有差異。 PubMed DOI


站上相關主題文章列表

使用像GPT-4這樣的AI演算法為醫學生出題有好處,但需由專科醫師仔細檢查。在2023年3至4月的研究中,GPT-4出了210題考試,只有1題錯誤。專科醫師發現了術語、年齡、性別、地理敏感性相關錯誤和方法論缺陷。AI可協助出題,但人類監督至關重要。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI

這項研究評估了先進大型語言模型(LLMs)在醫學考試中的視覺能力,特別是GPT-4和Google的Gemini。研究比較了它們在台灣專科醫師考試(肺部與重症醫學)的表現,並以僅處理文本的GPT-3.5為基準。結果顯示,GPT-4的表現持續優於Gemini和GPT-3.5,經常超過60的及格門檻,接近人類考生的水準。相對而言,Gemini的表現較低,而GPT-3.5得分最低,顯示出新模型在解讀複雜醫療資訊方面的優勢。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究探討了ChatGPT-4在美國家庭醫學委員會(ABFM)認證考試中的表現,目的是評估其是否能達到及格標準。研究中,ChatGPT-4在模擬考試環境下,使用300道練習題進行測試,結果顯示其正確回答率為88.67%(自訂版本)和87.33%(常規版本),兩者差異不大。這顯示ChatGPT-4在處理醫學問題上具備高效能,並強調了AI在醫學教育中的潛力及持續改進的必要性。 PubMed DOI

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現,重點在於準確性和醫學知識解析能力。問題依難度和類型分類,包括一般和臨床部分,以及單選和多選題。GPT-4.0的正確回答率達80.4%,顯示出合格的表現,但不同問題的準確性有顯著差異。研究結果顯示,雖然GPT-4.0在醫學教育和研究中有價值,但仍需大量醫學數據來提升準確性,整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

本研究評估了ChatGPT在回答中國超聲醫學中級專業技術資格考試問題的有效性,並探討其在超聲醫學教育中的應用潛力。共選取100道題目,包含70道單選題和30道多選題,涵蓋基礎知識、臨床知識、專業知識及實踐。 測試結果顯示,ChatGPT 3.5版本在單選題準確率為35.7%,多選題30.0%;而4.0版本則提升至61.4%和50.0%。雖然4.0版本有明顯進步,但仍未達及格標準,且在專業實踐方面表現不佳。儘管如此,ChatGPT在基礎醫學知識上的表現顯示其作為醫學教育輔助工具的潛力。 PubMed DOI