原始文章

本研究探討大型語言模型(LLMs)在生成日本物理治療師國家執照考試多選題的應用,特別是定制的ChatGPT模型「Physio Exam GPT」。研究利用第57和58屆考試的340道題目,生成的題目在準確率上達到100%。評估結果顯示,題目的清晰度、臨床相關性及難度等方面表現良好,平均分數在7.0到9.8之間。研究顯示LLMs在非英語環境中能有效生成高品質教育資源,對教育工作者有幫助,並為未來的應用奠定基礎。 PubMed DOI


站上相關主題文章列表

這項研究評估了幾種大型語言模型(LLMs)的準確性,包括GPT-3.5、GPT-4、Google Bard和Microsoft Bing,針對基本醫學科學考試的多選題。結果顯示,GPT-4的準確率最高,達89.07%,明顯優於其他模型。Microsoft Bing以83.69%緊隨其後,GPT-3.5和Google Bard則分別為67.02%和63.83%。研究指出,問題的難度與模型表現有關,GPT-4的關聯性最強。整體來看,GPT-4和Microsoft Bing可能成為學習醫學科學的有效工具,特別是對於簡單問題。 PubMed DOI

本研究評估了ChatGPT(GPT-4V)在日本醫療資訊技術人員(HCIT)認證考試中的表現。經過三年,分析了476道考題,結果顯示ChatGPT的正確回答率達84%,成功通過考試。簡單選擇題的表現優於多選題,且帶圖片的問題和需要計算的題目正確率較低。總體而言,ChatGPT具備HCIT認證所需的基本知識和技能,顯示其在醫療資訊領域的潛力。 PubMed DOI

最近大型語言模型(LLMs)在醫療領域的應用逐漸增加,特別是OpenAI-o1在日本醫師國家考試中表現優異。本研究評估了OpenAI-o1和GPT-4o在2024年日本物理治療師國家考試的表現。結果顯示,OpenAI-o1的正確率達97.0%,解釋準確率為86.4%;而GPT-4o的正確率僅56.5%。這顯示OpenAI-o1在物理治療內容上具備高適應性,未來在醫學教育和遠程健康照護中有潛在應用價值。GPT-4o則需進一步優化以提升影像推理能力。 PubMed DOI

這項研究評估了大型語言模型(LLM),特別是ChatGPT 4o,生成的國家牙科考試風格問題的質量,並與人類專家設計的問題進行比較。研究於2024年6月進行,30名高年級牙科學生參與,從教科書中生成44個問題,最終選出20個LLM組問題,另一組則由兩位專家設計。分析重點在難度、區分指數和干擾項效率。結果顯示,LLM組的問題在難度和區分指數上表現優於人類組,但差異不顯著。總體來看,LLM生成的問題質量與人類專家相當。 PubMed DOI

這項研究比較GPT-3.5和GPT-4o在744題復健醫學問題上的表現,GPT-3.5正確率約56%,GPT-4o則達84%,明顯較佳。雖然大型語言模型在臨床、教學和病患資訊上有潛力,但目前仍有限制,醫師使用時要特別小心。 PubMed DOI

這篇研究發現,大型語言模型在製作日本放射技術師國考教材時,對文字題表現不錯,但計算題和影像判讀較弱。建議搭配程式工具解計算題,影像題則用關鍵字輔助。老師要主動監督和驗證內容。隨著LLM進步,教學方法也要跟著調整,才能確保非英語環境下的教學品質。 PubMed DOI

這項研究讓四款大型語言模型參加泰國醫師執照模擬考,發現它們分數都超過及格線,GPT-4表現最好,正確率高達88.9%。雖然大多數醫學主題都答得不錯,但在遺傳學和心血管題目上較弱。圖片題有進步空間,純文字題表現較佳。整體來說,LLMs對泰國醫學生準備考試很有幫助,但還需加強某些主題和圖片題的能力。 PubMed DOI

這項研究發現,ChatGPT-4 和 Copilot 在日本護理師國考題目上表現及格,ChatGPT-3.5 則沒過關。三款模型在涉及日本特有法律和社會保障制度的題目上表現最差,顯示需要在地知識時,LLMs 容易出錯。整體來說,較新版本的 LLMs 準確度較高。 PubMed DOI

最新研究發現,像 ChatGPT-4 Omni 這類大型語言模型,在 CPT 和歐洲處方考試的表現跟醫學生差不多,甚至更厲害,特別是在知識和開藥技巧上。這些 AI 還能揪出題目寫不清楚的地方,不只適合當教學工具,也有助於改進考題品質。 PubMed DOI

這篇研究發現,用GPT-4o等大型語言模型產生的子宮頸癌選擇題,品質和臨床醫師出的差不多,難易度也相近,臨床醫師不太能分辨題目來源。不過,醫師出的題目在高層次思考上還是比較強,專家也比較能分辨AI題目。總結來說,AI能有效輔助出題,但複雜題目還是需要專業醫師把關。 PubMed DOI