原始文章

這項研究評估了ChatGPT(GPT-3.5)在2021年ASPS整形外科在職考試中的表現,使用了不同的提示和檢索增強生成(RAG)技術。結果顯示,當以「住院醫師」身份回應時,準確率最高為54%,而RAG的使用並未顯著改善表現,準確率僅微幅提升至54.3%。整體而言,ChatGPT的表現位於第10百分位,顯示出需要進一步微調及採用更先進的方法,以提升AI在複雜醫療任務中的有效性。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT在整形外科住院醫師教育中的應用,使用2022年PSITE考試問題測試其準確性,結果顯示準確率為54.96%。ChatGPT展現高水準的邏輯推理和資訊整合能力,有潛力提供一般知識、澄清資訊、支持案例學習,促進整形外科循證醫學,增進住院醫師教育。 PubMed DOI

ChatGPT是OpenAI在2022年推出的AI語言模型。研究發現,它在整形外科住院醫師考試中表現良好,但在更高級別的醫師中表現較差。儘管在醫療和教育領域有潛力,仍需進一步研究確認其效用。 PubMed DOI

研究指出,在巴西放射學委員會考試中,使用QAPG和簡單指示風格的ChatGPT表現最好,特別是在放射學和診斷影像考試中。整體而言,GPT-4比GPT-3.5表現更佳,且較不受提示風格變化影響。建議提示不要太複雜,以免影響表現。QAPG提示可能對“A”選項有偏見。 GPT-4通過所有考試,而GPT-3.5在適當提示下通過兩個考試。 PubMed DOI

研究使用ChatGPT自動化內容分析,改善整形外科網頁的可讀性,測試了3.5和4.0版本。使用特定提示的3.5顯著提升可讀性,4.0則無進一步改善。4.0準確性較高但幻覺率也較高。研究顯示ChatGPT提升醫學資訊品質潛力,但準確性仍需改進。 PubMed DOI

最新研究指出,ChatGPT 3.5和GPT-4在放射學診斷上表現優異。研究發現,使用不同提示影響它們對胸部放射學案例的診斷準確性。124個案例顯示,複雜提示顯著提升模型準確性。ChatGPT 3.5使用複雜提示後,準確率從25%提升至56.5%,GPT-4基準準確率為53.2%,使用複雜提示後提升至59.7%。研究強調提示工程對提升模型診斷性能的重要性。 PubMed DOI

AI聊天機器人ChatGPT-4.0在整形外科教育方面表現優異,PSITE考試準確率達79%,但在不同級別的住院醫師中表現有差異。建議在使用其他聊天機器人時要謹慎,因為其他平台的平均分數在48.6%至57.0%之間。這是首次比較多個AI聊天機器人在整形外科教育領域的研究。 PubMed DOI

這項研究評估了不同提示技術對GPT-3.5在回答美國醫學執照考試(USMLE)第一階段考題的影響。研究分析了1000個GPT-4生成的問題和95個真實考題,結果顯示各種提示類型的準確性差異不大,直接提示成功率為61.7%,思考鏈為62.8%,修改版思考鏈為57.4%。所有p值均高於0.05,顯示無顯著差異。結論認為,思考鏈提示並未顯著提升GPT-3.5的醫學問題處理能力,顯示人工智慧工具可有效融入醫學教育中,無需複雜提示策略。 PubMed DOI

這項研究評估了ChatGPT-3.5和ChatGPT-4在台灣整形外科考試的表現,分析了過去八年的1,375道題目。結果顯示,ChatGPT-4的正確回答率為59%,明顯優於ChatGPT-3.5的41%。ChatGPT-4通過了五年的考試,而ChatGPT-3.5則未通過任何一年。具體來說,ChatGPT-4在單選題得分66%,多選題43%;而ChatGPT-3.5的單選題和多選題得分分別為48%和23%。研究建議隨著AI模型的進步,應考慮改革考試方式,並利用AI提升考試準備和評估。 PubMed DOI

這項研究評估了ChatGPT-4在整形外科在職考試中的表現,並與醫學住院醫師及ChatGPT-3.5進行比較。分析了2018至2023年的1,292道考題,ChatGPT-4的正確率為74.4%,在核心外科原則上表現最佳(79.1%),顱顏面外科則最低(69.1%)。它的排名介於第61到第97百分位,明顯超越了ChatGPT-3.5的55.5%正確率和第23百分位。這顯示ChatGPT-4的知識已超越獨立住院醫師,達到第六年綜合住院醫師的水準。 PubMed DOI

這項研究探討如何透過提示工程提升ChatGPT-4在放射學問題上的表現,特別針對2022年美國放射學會的測試題。雖然ChatGPT-4在文字任務上表現優異,但在影像問題上則較弱。研究人員設計了四種角色,使用不同提示來評估其對準確性的影響。結果顯示,鼓勵性提示或責任免責聲明能提高準確性,而威脅法律行動的提示則降低準確性,且未回答問題的比例較高。這強調了提示背景在優化大型語言模型回應中的重要性,並呼籲在醫療環境中負責任地整合人工智慧的進一步研究。 PubMed DOI