原始文章

這項研究發現,GPT-4o 和 o1-preview 這兩款大型語言模型在放射科專科考試的表現比人類還要好,特別是在難題和鑑別度高的題目上,推理方式也很接近人類。結果顯示,這些先進模型未來有機會協助醫學考題的設計和標準化。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs),包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考題進行測試。結果顯示,GPT-4o 的正確回答中位數為 63.1%,表現最佳,其次是 GPT-4 Turbo(60.7%)、GPT-4(56.8%)和 Gemini(40.5%)。雖然 GPT-4o 在文字題上表現優異,但在醫學影像解讀方面仍需改進。研究建議這些模型可在臨床環境中協助醫生,特別是處理文字相關問題時。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在回答放射腫瘤物理問題的表現。研究人員使用100道由專家設計的選擇題,測試了五個LLM,包括OpenAI o1-preview和GPT-4o等。結果顯示,所有模型的表現達到專家水準,o1-preview在某些情況下甚至超越醫學物理學家。不過,當正確答案被移除時,模型表現明顯下降,顯示需改進。透過解釋優先和逐步提示的方式,LLaMA 3.1等模型的推理能力有所增強,顯示這些LLM在放射腫瘤物理教育上有潛力。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—OpenAI的GPT-4、GPT-3.5和Google Bard—在2022年骨科住院醫師訓練考試(OITE)中的表現。結果顯示,GPT-4的表現超過及格門檻,與高年級住院醫師相當,明顯優於GPT-3.5和Bard。GPT-3.5和Bard則未達及格,且在影像相關問題上,GPT-3.5表現顯著下降。整體來看,GPT-4在各類問題上展現出強大的能力,超越了考試的最低要求。 PubMed DOI

這項研究探討大型語言模型(LLMs)在評估和修訂一年級住院醫師撰寫的放射科報告的效果,並與專業放射科醫師進行比較。分析了100份報告,根據六個準確性和完整性標準進行評估。結果顯示,GPT-4o 與人類醫師的意見一致性最高,住院醫師的報告技能在第一年內有顯著進步,尤其在前三個標準上。研究建議LLMs能有效協助住院醫師識別弱點並追蹤進展,減輕導師的工作負擔。 PubMed DOI

這項研究比較多款大型語言模型(LLM)在核子醫學題目的表現,發現結合檢索增強生成(RAG)的 GPT-4o 準確率最高。RAG 整體有助提升答題表現。雖然 LLM 在教育和臨床輔助有潛力,但對複雜指引和影像題還不夠理想,未來還需再優化才能安心用於醫療領域。 PubMed DOI

這項研究發現,OpenAI 的推理型語言模型在日本放射科專科考題上表現比基礎模型好,但運算成本和處理速度都比較高。雖然正確率提升不少,但要考慮到費用和時間的增加。 PubMed DOI

這項研究發現,最新的五款大型語言模型在放射腫瘤物理學選擇題上表現都達到專家水準,甚至有模型超越醫學物理師。不過,當答案設計成「以上皆非」時,模型表現明顯下滑,顯示推理還有待加強。用「先解釋再作答」等提示,部分模型推理能力會提升。整體來說,這些模型已具備專業領域的專家能力。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI