原始文章

這項研究評估了兩個大型語言模型(LLMs),ChatGPT 和 Bard,在中級生命支持相關的多選題(MCQs)上的表現。結果顯示,Bard 的整體得分稍高於 ChatGPT,但差異不顯著。兩者在子問題的表現也無明顯差異。雖然有些回答不正確,但它們的解釋仍提供了有用資訊。評分者對解釋的評價一致性高,顯示回答質量穩定。總體來看,這兩個模型表現相似,但在醫學教育的準確性上仍需改進。 PubMed DOI


站上相關主題文章列表

研究發現三款大型語言模型在醫療決策上的表現,ChatGPT最優,其次是Google的Bard和Bing的AI。結果顯示ChatGPT提供更易懂且符合指引的醫療建議,對初級醫生學習和臨床決策有潛力,但還需更多整合到教育中。 PubMed DOI

研究發現在醫學教育中使用大型語言模型(LLMs)回答多重選擇問題,Bing Chat效果最好,甚至超越人類。Llama 2表現較差,Google Bard和ChatGPT-3.5則接近人類水準。建議免費提供的LLMs在醫學考試中有潛力,特別是Bing Chat。研究也提到透過訓練可提升LLMs在醫學領域的應用。總結來說,這研究對LLMs在醫學教育和評估中的應用提供了有價值的見解。 PubMed DOI

研究比較了ChatGPT和Bard兩個大型語言模型在為接受美容乳房整形手術的患者提供術後醫療支援的表現。結果顯示,ChatGPT在診斷、醫療建議和危險症狀辨識方面表現較佳,提問更全面且準確度較高。研究指出,ChatGPT適合用於AI驅動的術後醫療支援聊天機器人,但仍有改進空間。 PubMed DOI

研究比較了不同大型語言模型在回答韓文急診醫學委員會考試問題時的表現,發現ChatGPT-4和Bing Chat的正確率較高,尤其在難度高的問題上表現優秀。ChatGPT-4和Bing Chat的解釋也比較清楚易懂。總結來說,ChatGPT-4和Bing Chat在回答問題方面表現較好。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT和Bard在病理學的表現,並與病理學實習生的回答進行比較。研究使用了150道選擇題,結果顯示ChatGPT的平均得分為82.2%,明顯優於Bard的49.5%和實習生的45.1%。在困難問題上,ChatGPT表現特別突出,而在簡單問題上,ChatGPT和實習生的表現相近。分析顯示,ChatGPT的一致性率高達80%-85%,而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力,但仍需持續發展和人類監督。 PubMed DOI

這項研究評估了大型語言模型ChatGPT在解決基層醫療問題的表現,透過30道相關選擇題進行測試。結果顯示,ChatGPT正確回答了28題,準確率達93.33%。此外,專業人士對其答案的解釋給予高分4.58(滿分5分),顯示其回答有理有據。評估者之間的一致性也很高,內部一致性相關係數為0.94。這些結果顯示,ChatGPT可能成為解決基層醫療挑戰的有力資源,特別是在偏遠地區,並能協助醫學生自主學習。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI