原始文章

這項研究發現,ChatGPT-4 和 Copilot 在日本護理師國考題目上表現及格,ChatGPT-3.5 則沒過關。三款模型在涉及日本特有法律和社會保障制度的題目上表現最差,顯示需要在地知識時,LLMs 容易出錯。整體來說,較新版本的 LLMs 準確度較高。 PubMed DOI


站上相關主題文章列表

這項系統性回顧評估了ChatGPT(特別是GPT-3.5、4和4V)在日本醫療和健康執照考試中的有效性。研究分析了2022年1月到2024年4月間的22篇文章,結果顯示GPT-4雖能通過文字考試,但表現不如實際考生。此外,最新的GPT-4V在圖像識別上表現不佳,對視覺問題的回應也不夠充分。這些結果顯示,為了提升評估結果,仍需在精確度上進行改進。 PubMed DOI

這項研究評估了ChatGPT 4.0在日本物理治療師國考中的表現,針對其回答複雜問題的能力進行分析。研究涵蓋了1,000道題目,結果顯示整體正確率為73.4%,符合及格標準。一般性問題的正確率較高,達80.1%,但實務問題僅46.6%。文字問題表現良好(80.5%),但涉及圖片和表格的問題則較差(35.4%)。這顯示ChatGPT在文字問題上有優勢,但在實務及視覺數據問題上仍需改進,未來在臨床復健和教育方面有潛力,但需進一步提升。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT、Bard和Bing Chat,在牙科教育中的有效性,分析了它們在2023年日本國家牙科衛生師考試的73道問題表現。結果顯示,GPT-4的準確率最高,達75.3%,其次是Bing(68.5%)、Bard(66.7%)和GPT-3.5(63.0%)。雖然模型間差異不顯著,但在「疾病機制與促進恢復過程」類別中,所有模型均達100%準確率。整體來看,GPT-4在多選題上表現優異,顯示其在牙科衛生學習中的潛力。研究強調了LLMs在教育中的演進能力。 PubMed DOI

這項研究評估了GPT-4.0在2021至2023年日本醫學執照考試的表現,重點在於準確性和醫學知識解析能力。問題依難度和類型分類,包括一般和臨床部分,以及單選和多選題。GPT-4.0的正確回答率達80.4%,顯示出合格的表現,但不同問題的準確性有顯著差異。研究結果顯示,雖然GPT-4.0在醫學教育和研究中有價值,但仍需大量醫學數據來提升準確性,整合ChatGPT進醫學領域可能帶來新機會。 PubMed DOI

這項研究評估了先進語言模型(LLMs)在醫學知識的準確性,特別針對GPT-4o、GPT-4、Gemini 1.5 Pro和Claude 3 Opus,並使用日本國家醫學考試作為評估工具。研究發現,GPT-4o在整體準確率上達到89.2%,在簡單問題上更是高達95.0%。所有模型在非影像問題上表現優於影像問題,且在「消化內科與肝臟病學」的表現最差。研究顯示,出版數量與模型表現正相關,強調了GPT-4o在醫學教育中的潛力及面臨的挑戰。 PubMed DOI

這項研究評估了ChatGPT,特別是GPT-4 Omni版本,在第118屆日本醫學執照考試中的表現,分析了文字和影像兩種問題。整體來看,這個模型的準確率相當高,且在兩種問題類型之間沒有明顯差異。不過,它在臨床判斷和優先順序上出現了一些常見錯誤,顯示出在醫學教育和實踐中,持續改進AI的使用是很有必要的。 PubMed DOI

最近大型語言模型(LLMs)在醫療領域的應用逐漸增加,特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示,OpenAI-o1的正確率達97.0%,解釋準確率為86.4%;而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性,未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

本研究探討大型語言模型(LLMs)在生成日本物理治療師國家執照考試多選題的應用,特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目,生成的題目在準確率上達到100%。評估結果顯示,題目的清晰度、臨床相關性及難度等方面表現良好,平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源,對教育工作者有幫助,並為未來的應用奠定基礎。 PubMed DOI

這項研究發現,ChatGPT(GPT-4o)在日本生物醫學工程一級認證考試的答對率約為58%到68%,只有一年有及格。主要錯誤來自知識不足、理解錯誤或亂編答案。雖然有一定表現,但目前還不夠穩定,無法完全信賴。 PubMed DOI

這項研究讓四款大型語言模型參加泰國醫師執照模擬考,發現它們分數都超過及格線,GPT-4表現最好,正確率高達88.9%。雖然大多數醫學主題都答得不錯,但在遺傳學和心血管題目上較弱。圖片題有進步空間,純文字題表現較佳。整體來說,LLMs對泰國醫學生準備考試很有幫助,但還需加強某些主題和圖片題的能力。 PubMed DOI