原始文章

**重點整理:** OpenAI-o1 具備更優秀的推理能力,在 15 題日本醫師執照考試題目中表現優於 GPT-4(正確率 100% 對 80%;辨識禁忌選項的正確率 87% 對 73%),但由於樣本數較少,這些結果僅供初步參考。 PubMed DOI


站上相關主題文章列表

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

最近大型語言模型(LLMs)在醫療領域的應用逐漸增加,特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示,OpenAI-o1的正確率達97.0%,解釋準確率為86.4%;而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性,未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

這項研究發現,GPT-4o在中國醫師執照考試的表現最好,正確率明顯高於GPT-4和GPT-3.5,尤其在消化系統和複雜題型上更突出。這顯示GPT-4o在中文醫學考試的理解和解題能力很強,未來在醫學教育和臨床應用上很有發展空間。 PubMed DOI

這項研究發現,OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好,但運算成本和處理速度都比較高。雖然正確率提升不少,但要考慮到費用和時間的增加。 PubMed DOI

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現,兩者都達及格分,GPT-4o得分79.3%,ERNIE Bot為76.9%,差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定,答題一致時正確率更高(84.5%)。結果顯示,這兩款AI有助於中文醫學教育,對非英語醫學訓練很有潛力。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,GPT-4和GPT-4o在台灣SPTEMD醫學考題(不含圖片題)上的正確率都超過95%,明顯優於GPT-3.5的66%。兩者在中英文題目表現都很穩定,且已達醫學考試標準。未來建議進一步探討AI在醫學教育和考試上的應用方式。 PubMed DOI

這項研究發現,最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準,甚至有模型超越醫學物理師。不過,當答案設計成「以上皆非」時,模型表現明顯下滑,顯示推理還有待加強。用「先解釋再作答」等提示,部分模型推理能力會提升。整體來說,這些模型已具備專業領域的專家能力。 PubMed DOI

這項研究發現,多款主流大型語言模型在以色列基層醫療執照考試中表現不錯,尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%,解釋也多半正確有邏輯,但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力,但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI