原始文章

這項研究評估了大型語言模型(LLMs),特別是ChatGPT和Bard在病理學的表現,並與病理學實習生的回答進行比較。研究使用了150道選擇題,結果顯示ChatGPT的平均得分為82.2%,明顯優於Bard的49.5%和實習生的45.1%。在困難問題上,ChatGPT表現特別突出,而在簡單問題上,ChatGPT和實習生的表現相近。分析顯示,ChatGPT的一致性率高達80%-85%,而Bard僅54%-61%。這顯示ChatGPT在病理學教育中有潛力,但仍需持續發展和人類監督。 PubMed DOI


站上相關主題文章列表

這項研究探討了大型語言模型(LLMs)如ChatGPT和Google Bard在從臨床摘要中預測神經病理診斷方面的應用。這些LLMs在某些案例中準確識別了主要診斷並提供了其預測的理由。研究結果表明,像ChatGPT這樣的人工智慧工具可能有助於增強神經病理學的臨床病理會議中的討論。 PubMed DOI

研究指出,ChatGPT 4.0協助病理學家和實驗室主任回答問題時,準確性高、完整性佳,還能節省時間。專家評分結果顯示,大部分回答不需額外工作。這個工具被視為安全且省時,特別適合回答醫療提供者的問題。在各病理學領域中表現一致,ChatGPT 4.0可能成為病理學家重要的資源。 PubMed DOI

研究比較了三個大型語言模型(LLMs)- ChatGPT、Google Bard和Microsoft Bing- 在回答生理學案例簡介時的表現。結果發現ChatGPT表現最優,Bard和Bing次之。ChatGPT在回答案例時表現較佳,顯示其在生理學教育有潛力。未來可進一步探討LLMs在醫學教育和臨床決策支援上的應用價值。 PubMed DOI

研究比較了ChatGPT-3.5、Google Bard和Microsoft Bing在回答血液學問題的表現,結果發現ChatGPT表現最好,Google Bard和Microsoft Bing次之。雖然ChatGPT在醫學領域有潛力,但仍需要更多研究和改進。這些模型無法完全正確回答所有問題,但或許對醫療保健和醫學教育有所助益。 PubMed DOI

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀,回答更有深度。兩者一致性高,對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識,但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確,在醫療領域有重要價值需受到監督。 PubMed DOI

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示,ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值,但專家驗證仍然至關重要,以避免不準確或資訊不完整的情況。 PubMed DOI

研究比較了ChatGPT和Bard在回答病理學問題和影像解讀的表現。結果顯示,在臨床情境下,ChatGPT-4的表現優異,準確率達100%,比Bard更優。然而,在無上下文情況下,ChatGPT-4的表現也不盡理想,準確率為52.3%,Bard為38.4%。總體而言,ChatGPT-4在系統病理學和基礎問題上持續優於Bard。研究強調了臨床背景對於準確解讀的重要性,提醒整合人工智慧時需謹慎。 PubMed DOI

人工智慧和大型語言模型(LLMs)在醫療保健領域有應用,像是進階燒傷急救(ABLS)計畫。研究比較了三種LLMs(ChatGPT-3.5、ChatGPT-4、Google Bard)在ABLS考試中的表現,結果顯示ChatGPT-4表現最好,得分90%,比Bard好很多。LLMs在急診護理中有潛力,但應該輔助人類判斷。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)在家庭醫學住院醫師訓練考試中的表現,使用了2022年的193道選擇題。結果顯示,ChatGPT 4.0 獲得167分(86.5%),標準化分數730,顯示出100%通過專科考試的機會。相比之下,ChatGPT 3.5 和 Google Bard 的得分較低,分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示,ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

這項研究評估了六個生成式人工智慧大型語言模型(LLMs)在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示,ChatGPT-4的準確率最高,達60.5%,其次是Copilot(42.0%)和ChatGPT-3.5(41.0%)。雖然這些模型尚未能完全取代解剖學教育者,但它們在醫學教育中仍具備實用價值。 PubMed DOI