原始文章

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI


站上相關主題文章列表

大型語言模型(LLMs)如GPT-3.5、GPT-4和Bard在教育領域有重要應用。研究指出,GPT-4在NEET-2023考試問題回答上表現優異,準確率高於GPT-3.5和Bard。透過交叉檢查回答可提升準確性,GPT-4是可靠選擇。這研究凸顯LLMs在教育中的潛力,為其在高風險考試中的應用設下新標竿。 PubMed DOI

研究比較了GPT-4、GPT-3.5、Bard和Claude在NBME臨床科目考試樣本問題上的表現,結果發現GPT-4得分最高,達100%,Claude次之,接著是GPT-3.5和Bard。GPT-4在醫學、兒科、家庭醫學和門診護理等科目表現優異。研究指出GPT-4在醫學教育和實務上有潛力,呼籲持續評估和改進LLMs在醫學領域的重要性。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在多項醫學執照考試中的表現,包括美國、英國、香港及國家醫學執照考試。結果顯示,GPT-4o在所有測試中表現最佳,USMLE Step 1準確率達91.5%,Step 2 CK為94.2%,Step 3為92.7%。相比之下,GPT-4的準確率稍低,而GPT-3.5和Google Bard則明顯較低。在其他考試中,GPT-4o同樣領先,顯示出各模型之間的準確率差異,特別是在NMLE中仍需改進。 PubMed DOI

這項研究評估了多種大型語言模型在回答放射科考試問題的表現,特別是GPT-4。分析了150道選擇題,結果顯示GPT-4的準確率達83.3%,明顯優於其他模型,如Claude(62%)、Bard(54.7%)、Tongyi Qianwen(70.7%)和Gemini Pro(55.3%)。研究指出,模型表現因問題類型和醫學專科而異,GPT-4在簡單及複雜問題上均表現良好。雖然GPT-4和Tongyi Qianwen在醫學教育上有潛力,但仍需專門訓練數據以提升在放射科的有效性。 PubMed DOI

這項研究評估了五個大型語言模型(LLMs)在重症醫學中的表現,針對1181道選擇題進行測試。結果顯示,GPT-4o的準確率最高,達93.3%,其次是Llama 3.1 70B(87.5%)和Mistral Large 2407(87.9%)。所有模型的表現都超過隨機猜測和人類醫師,但GPT-3.5-turbo未顯著優於醫師。儘管準確性高,模型仍有錯誤,需謹慎評估。GPT-4o成本高昂,對能源消耗引發關注。總體而言,LLMs在重症醫學中展現潛力,但需持續評估以確保負責任的使用。 PubMed DOI