原始文章

這項研究探討如何利用大型語言模型(LLMs)生成內容為基礎的反饋,以提升Progress Test Medizin考試的反饋效果,超越單純的數字分數。研究比較了兩個受歡迎的LLM在生成相關見解上的表現,並調查醫療從業人員和教育工作者對LLM能力及其反饋實用性的看法。結果顯示兩者表現相似,其中一個付費的稍優,另一個則免費。參與者認為反饋相關,並願意未來使用LLM。研究結論指出,雖然LLM生成的反饋不完美,但仍可作為傳統數字反饋的有價值補充。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。 PubMed DOI

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

這篇評論討論了使用大型語言模型(LLMs)製作醫學多重選擇題考試的議題。研究指出LLMs在產生問題上有效,但需注意部分問題不適合醫學考試,需修改。未來研究應解決這些限制,LLMs可作為撰寫醫學多重選擇題的工具,但應謹慎使用。 PubMed DOI

使用大型語言模型(LLMs)在醫學教育可能有革新效果,解決資訊過載和時間不足等問題。研究指出LLMs對醫學生學習有正面影響,但也提到準確性和倫理挑戰。負責任地應用LLMs可增進學習體驗,但需注意準確性、技能培養和道德標準。持續評估和合作是整合LLMs在醫學教育中的關鍵。 PubMed DOI

一項研究評估了大型語言模型(LLMs)在回答醫學腫瘤學考試問題時的準確性和安全性。最佳的LLM以高準確度回答問題,但錯誤引起了安全疑慮,這表明有必要開發和評估LLMs,以改善臨床醫學腫瘤學等高風險臨床環境中醫護人員的經驗和病人護理。 PubMed DOI

使用Llama 2和GPT-4創建放射學教育的多重選擇題,供放射科醫師評估。GPT-4在清晰度、相關性、難度、干擾項質量和答案準確性方面表現優異。這些先進的語言模型有助於提升放射學考試準備資料,擴大問題庫。 PubMed DOI

這項研究探討大型語言模型(LLMs)在醫學教育中自動短答案評分的應用,使用GPT-4和Gemini 1.0 Pro對2288名學生的答案進行評分。主要發現包括:GPT-4的分數低於人類評估者,但假陽性率較低;Gemini 1.0 Pro的評分與教師相似。兩者與人類評分有中等一致性,且高品質答案的評分行為一致。學生答案的長度與評分關聯性弱,LLM可能存在偏見風險,仍需人類監督。整體而言,LLM在醫學教育評估中具潛力,但人類參與仍不可或缺。 PubMed DOI

這項研究探討了訓練大型語言模型(LLMs)來根據美國住院醫師教育認證委員會(ACGME)的標準分類受訓者的反饋。研究發現,雖然複雜的模型未必能提高分類準確率,但較小的模型如BERT-mini在性能上與FastText相當,且在個人設備上部署時更具優勢,能提升速度和數據隱私。這項研究有助於理解如何有效整合LLMs於醫學教育中。 PubMed DOI

這項研究透過電話訪談,調查印度醫學生對大型語言模型(LLMs)在醫學教育中的看法。25名學生的回應經過分析後,整理出三個主要主題:使用情境、增強學習和LLMs的限制。學生們表示,LLMs幫助他們澄清複雜主題、尋找客製化答案、解決選擇題、創建簡化筆記及簡化作業。他們欣賞這些工具的易用性和省時優勢,但也擔心不準確性、可靠性和隱私問題。學生強調需要培訓,以有效整合LLMs進醫學教育。總體而言,LLMs有潛力提升醫學教育,但需解決挑戰以發揮其優勢。 PubMed DOI

這項研究分析了大型語言模型(LLMs),特別是OpenAI的GPT-3.5和GPT-4,在醫學生放射學考試中的表現。使用151道選擇題,結果顯示GPT-3.5的正確率為67.6%,而GPT-4則達到88.1%(p<0.001),表現明顯優於前者。GPT-4在各類問題上都表現良好,顯示其在醫學教育中的潛力。不過,研究也提醒使用者要警惕LLMs可能提供錯誤答案的風險。總體來看,LLMs在放射學教育上有提升的可能性。 PubMed DOI