原始文章

這項研究評估了ChatGPT-3.5在回答病理形態學問題的有效性,特別針對國家專業考試(PES)。研究中,ChatGPT-3.5對119道考題的得分僅為45.38%,遠低於及格標準。它在需要理解和批判性思考的問題上表現較佳,但在記憶性問題上則較弱。結果顯示,雖然ChatGPT-3.5可作為教育工具,但在病理形態學的準確性上仍無法與人類專家相比,顯示出進一步提升AI模型的必要性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在病理學領域有潛力,能解決高階推理問題,回答100問題平均45.31秒,專家評分4.08分,80%準確。結果顯示ChatGPT可成為病理學學者和學生有用工具,但仍需進一步研究提升準確性。 PubMed DOI

研究比較了ChatGPT-3.5和ChatGPT-4在皮膚科知識和臨床決策上的表現,結果顯示ChatGPT-4表現更好,準確率超過80%,尤其在回答臨床圖片問題時表現優異。研究建議雖然人工智慧有助於皮膚科知識,但不應取代醫生決策,應支持AI發展以提升醫療水準。 PubMed DOI

這篇文章探討了在波蘭預測放射學和影像診斷考試通過率時使用的先進語言模型ChatGPT。ChatGPT在120個考題上進行了測試,並評估了其對答案的信心程度。儘管未達到通過率閾值,但在某些問題類別中顯示出潛力。需要進一步研究以確定其在這個特定考試中的有效性。 PubMed DOI

ChatGPT是OpenAI開發的AI聊天機器人,最近在醫學領域有新應用。研究使用ASCP住院醫師問題庫2022年版來測試ChatGPT的病理學知識,得分為56.98%,稍低於同儕平均62.81%。在臨床病理學方面表現較好(60.42%),但在解剖病理學方面較差(54.94%)。ChatGPT在簡單問題(68.47%)上表現較好,但在中等(52.88%)和困難問題(37.21%)上表現較差。未來可以透過更專業的訓練來提升病理學教育效果,但目前仍需謹慎使用。 PubMed DOI

研究評估了ChatGPT 4在生成消化系統病理學考試的效果,結果顯示內容準確性高,但認知水平和干擾項質量有待改進。病理學住院醫師平均得分57.4%,不同年級表現有差異。考試難度中等,具有效區分度和內部一致性。ChatGPT 4可作為教育工具,但內容質量仍需加強。 PubMed DOI

這項研究評估了ChatGPT在波蘭醫學期末考試問題上的表現,發現它的正確率為53.4%至64.9%,在11次考試中有8次通過。它在精神病學方面表現比人類更好,但整體上仍不及人類畢業生。雖然ChatGPT在各種醫學領域顯示出潛力,但仍存在限制,無法完全取代人類專業知識。 PubMed DOI

這項研究評估了ChatGPT-3.5在肺病學考試中的表現,並與三年級醫學生進行比較。研究分為兩組:244名法語醫學生和ChatGPT,後者以無上下文(V1)和有上下文(V2)兩種格式測試。結果顯示,V1在放射學和胸外科表現佳,但在病理學和藥理學上不理想;V2則在所有類別中表現更準確,並在開放式問題上優於學生。V2通過考試的比例超過62.1%,而V1未能通過。總體而言,ChatGPT的表現與醫學生相似,受問題格式和複雜度影響,尤其在需要臨床判斷的任務上表現不佳。 PubMed DOI

2022年11月,OpenAI推出的ChatGPT引起了醫學界的關注。最近研究顯示,ChatGPT-4.0在腎臟科考試中表現優於ChatGPT-3.5,正確率分別為69.84%和45.70%。研究使用了1,560個問題進行比較,結果顯示ChatGPT-4.0在13次測試中通過了11次,超過60%及格率,甚至超越了人類醫生的平均得分85.73%。雖然ChatGPT-4.0表現強勁,但人類醫生的表現仍然更佳。 PubMed DOI

這項研究調查了ChatGPT-3.5在波蘭醫學期末考試的表現,考試包含200道題目,評估醫學知識。分析980道題目後,發現ChatGPT的平均正確率約60%,顯著低於人類考生(p < 0.001)。不同科目表現差異大,血液學準確率最低(42.1%),內分泌學最高(78.6%)。研究顯示題目難度與正確性有顯著相關(p = 0.04),但題型對準確性影響不大(p = 0.46)。結果顯示ChatGPT-3.5可輔助考試準備,但需謹慎對待,建議與其他AI工具進行驗證。 PubMed DOI

這項研究評估了OpenAI的ChatGPT在波蘭醫學考試中的表現,特別是3.5和4.0版本。分析196道選擇題後,發現3.5版本的正確率為50.51%,而4.0版本提升至77.55%,超過及格線56%。值得注意的是,3.5版本對正確答案的信心較高,而4.0版本則在準確性上表現一致。不同醫學領域的表現差異不大。總體來看,ChatGPT 4.0在醫學教育和評估中展現了潛力,未來版本如5.0預期會有更好表現。 PubMed DOI