原始文章

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI


站上相關主題文章列表

ChatGPT在醫學教育有潛力,研究指出在醫學考試表現良好。研究評估了ChatGPT在神經學和神經科學專業培訓中的表現,使用了神經學考試的問題。ChatGPT-4的表現優於之前版本,準確率達64%,超過及格閾值。顯示像ChatGPT-4這樣的人工智慧模型在專業醫學教育有潛力,但AI開發者和醫學專家持續合作對其在醫學領域的可靠性至關重要。 PubMed DOI

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

2022年德國醫學州考試研究指出,GPT-4在630題中表現最佳,超越學生和其他模型。Bing在排除媒體問題後也表現優異。然而,秋季考試時GPT-4和Bing表現下滑,或許是因為媒體問題增加。研究建議LLMs,特別是GPT-4和Bing,在醫學教育和考試準備領域有潛力,值得進一步研發並應用於教育和臨床實務。 PubMed DOI

LLMs(大型語言模型)如ChatGPT展現了理解和生成人類文本的潛力。研究評估了ChatGPT在英國醫學執照考試中的表現,結果顯示在某些專業領域表現不錯,但在其他領域表現較差。ChatGPT在67.5%的問題中提供了正確答案,顯示其在醫學教育中有潛力成為輔助學習工具,但需要適當監督。 PubMed DOI

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。 PubMed DOI

研究發現在醫學教育中使用大型語言模型(LLMs)回答多重選擇問題,Bing Chat效果最好,甚至超越人類。Llama 2表現較差,Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力,特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說,這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

人工智慧語言模型被研究應用在教育、學術和臨床領域,顯示可解答醫學問題,對醫學教育有幫助。研究發現ChatGPT在回答問題上表現準確,但在生成文章時有錯誤。雖然在醫療上有潛力,但仍需監督因應潛在錯誤和能力限制。 PubMed DOI

這項研究回顧了ChatGPT在醫學執照考試的表現,分析了2022年1月到2024年3月間的45項研究。結果顯示,GPT-4的準確率達81%,優於GPT-3.5的58%。GPT-4在29項考試中通過26項,並在17個案例中超越醫學生。雖然翻譯問題提升了GPT-3.5的表現,但對GPT-4無影響。兩者在問題類型上表現不同,GPT-3.5在短文本問題上較佳,而開放式問題則都面臨挑戰。研究強調了GPT-4在醫學教育的潛力,但也指出準確性不一致及各國知識差異的挑戰,旨在提供教育者和政策制定者相關資訊。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

持續的研究正在評估大型語言模型(LLMs)在內科考試中的表現,特別是針對美國內科醫學會的240道考題。研究比較了GPT-3.5、GPT-4.0、LaMDA和Llama 2等模型的表現,並使用檢索增強生成的方法進行測試。結果顯示,GPT-4.0的得分介於77.5%到80.7%之間,優於其他模型及人類受試者,尤其在傳染病和風濕病方面表現突出。使用特定領域資訊能顯著提高準確性,顯示這種方法在醫學領域的潛力。 PubMed DOI