原始文章

這項研究強調高品質神經心理學教育的重要性,並指出專業認證的障礙,如時間限制和專業知識不足。研究評估了兩個人工智慧語言模型,GPT-3.5和GPT-4.0,針對美國專業心理學委員會的臨床神經心理學問題。結果顯示,GPT-4.0的準確率達80.0%,明顯優於GPT-3.5的65.7%。在「評估」類別中,GPT-4.0得分73.4%,也高於GPT-3.5的58.6%。分析錯誤問題揭示了知識缺口,特別是在「神經退行性疾病」和「神經心理測試與解釋」方面。 PubMed DOI


站上相關主題文章列表

ChatGPT在醫學教育有潛力,研究指出在醫學考試表現良好。研究評估了ChatGPT在神經學和神經科學專業培訓中的表現,使用了神經學考試的問題。ChatGPT-4的表現優於之前版本,準確率達64%,超過及格閾值。顯示像ChatGPT-4這樣的人工智慧模型在專業醫學教育有潛力,但AI開發者和醫學專家持續合作對其在醫學領域的可靠性至關重要。 PubMed DOI

人工智慧和機器學習對醫療保健產生了巨大影響,特別是在神經外科領域。一項研究發現,GPT-4在神經外科委員會風格問題上表現優異,準確率高於醫學生和住院醫師。這顯示GPT-4在醫學教育和臨床決策上有潛力,能夠超越人類在神經外科專業領域的表現。 PubMed DOI

2023年6月的研究比較了人類、GPT-4.0和GPT-3.5在回答AAO BCSC自我評估計劃的表現。結果顯示,GPT-4.0在1023個問題中得分最高(82.4%),人類次之(75.7%),GPT-3.5最低(65.9%)。然而,GPT-4.0和GPT-3.5在手術相關問題上表現不佳。總體而言,GPT-4.0在測試中有顯著進步,超越了GPT-3.5和人類,但在不同領域表現仍有差異,尤其是在手術方面。 PubMed DOI

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示,GPT-4在十個考試類別中有五個類別的通過率達到80%以上,比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性,以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

研究比較了GPT-3.5和GPT-4在醫學教育考試的表現,結果顯示GPT-4在大多數年份和泌尿學主題中表現優異,得分超過50%。GPT-4的總分為55%,顯著高於GPT-3.5的33%。研究結果指出,像GPT-4這樣的AI語言模型在回答臨床問題上有進步,但在醫學知識和臨床推理方面仍有挑戰。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫,結果顯示 ChatGPT-4 表現最佳,成功率達 74%,其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好,僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力,並指出需對其回答進行仔細監督,以確保病人安全。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)的表現,包括 GPT-4、GPT-4 Turbo、GPT-4omni(GPT-4o)和 Gemini,針對 2023 年美國核心臟病學會的考試問題進行回答。分析了 168 道問題,結果顯示 GPT-4o 的正確回答中位數為 63.1%,優於其他模型。GPT-4、GPT-4 Turbo 和 Gemini 的中位數分別為 56.8%、60.7% 和 40.5%。GPT-4o 在文字問題上表現佳,但在醫學影像解讀方面仍需改進。 PubMed DOI

這項研究探討了不同人工智慧模型在精神醫學診斷的表現,包括GPT-3.5、GPT-4、Aya和Nemotron。由於病人主觀報告的影響,準確診斷常常困難。研究使用20個DSM-5的臨床案例,結果顯示GPT-3.5和GPT-4在準確性和推理上優於其他模型,尤其在診斷精神病和雙相情感障礙方面表現突出,但在某些情況下則不佳。研究建議,人工智慧有潛力改善精神科診斷,但其他模型需進一步改進,未來應擴展數據集以增強診斷能力。 PubMed DOI

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI

這項研究評估了GPT-4在心理健康管理認證測試中的表現,重點在於調整提示是否能提升結果。研究者使用3 × 2的因子設計,測試600道多選題,並比較了簡單提示與調整提示的效果。結果顯示,GPT-4在不同難度級別的得分相近,且兩種提示條件之間沒有顯著差異。雖然調整提示未顯著提升表現,但能減少錯誤並改善輸出組織。該研究已在UMIN-CTR註冊。 PubMed DOI