原始文章

這項研究讓四款大型語言模型參加泰國醫師執照模擬考,發現它們分數都超過及格線,GPT-4表現最好,正確率高達88.9%。雖然大多數醫學主題都答得不錯,但在遺傳學和心血管題目上較弱。圖片題有進步空間,純文字題表現較佳。整體來說,LLMs對泰國醫學生準備考試很有幫助,但還需加強某些主題和圖片題的能力。 PubMed DOI


站上相關主題文章列表

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究介紹了MedExamLLM,一個評估大型語言模型(LLMs)在全球醫學考試表現的平台。它彙整了193篇相關文章,涵蓋16個LLM及來自28國、15種語言的198個醫學考試,時間範圍從2009到2023年。結果顯示,美國考試數量最多,主要語言為英語,GPT系列,特別是GPT-4,表現最佳。該平台強調LLM能力在地理和語言上有顯著差異,並且是開源的,旨在促進人工智慧在醫學教育中的應用。未來研究應解決潛在偏見及非英語研究的排除問題。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

研究比較四款大型語言模型在2021年土耳其醫學專科考試的表現,ChatGPT 4正確率最高(88.75%),Llama 3 70B(79.17%)、Gemini 1.5 Pro(78.13%)次之,Command R+僅50%。ChatGPT 4在基礎和臨床醫學題目都很強,顯示它和Llama 3 70B有潛力協助土耳其語醫學教育與臨床應用,其他兩款則還需加強。 PubMed DOI

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI

這項研究發現,多款主流大型語言模型在以色列基層醫療執照考試中表現不錯,尤其用結構化和範例提示時更明顯。最佳模型分數高達 85.5%,解釋也多半正確有邏輯,但偶爾還是會出現捏造資訊。雖然 LLM 在家庭醫學考試很有潛力,但還無法取代臨床技能或與病人互動。未來應加強減少幻覺、檢查偏誤及提升實務應用。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI