原始文章

這項研究探討了ChatGPT(GPT-3.5和GPT-4)在評估認知表現的有效性,對象包括正常認知者和中風倖存者。90名參與者接受了記憶、數字處理、語言流暢度和抽象思維的評估。主要發現顯示GPT-3.5在記憶和語言評估上與醫生的評估存在顯著差異,但透過優化方法可改善這些差異。GPT-4的表現更接近醫生評分,顯示其在認知評估中有進一步提升的潛力。整體而言,ChatGPT作為醫療評估的輔助工具顯示出潛力。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在理解中文醫學知識上表現良好,對醫學發展有潛力。測試顯示在中英文醫學數據集上,ChatGPT在準確性、口語流暢度和幻覺減少方面表現優異。GPT-4比GPT-3.5更出色,尤其在出院摘要邏輯和團體學習方面,符合中國臨床醫學研究生課程標準。儘管挑戰重重,ChatGPT有望推動醫學人工智慧的發展。 PubMed DOI

研究評估了ChatGPT在過去5次醫學專業考試中的表現,分析了成功率和排名。ChatGPT回答各種問題,成功率不同,排名從第1787名到第4428名。在短問題和單選多選擇題上表現較佳,但仍落後於人類專家。研究引起對ChatGPT在醫療服務潛力的好奇。 PubMed DOI

研究評估了ChatGPT在使用不同評分系統(如GCS、ICH和H&H)來評估患者的神經檢查能力。結果顯示,ChatGPT在計算分數方面有潛力,但處理複雜或模糊描述時準確性有限。總的來說,在醫學領域中,ChatGPT展現了一定的應用價值。 PubMed DOI

研究評估了ChatGPT在神經外科領域的應用,發現GPT-3.5像資歷較低醫師,GPT-4.0則像資歷高醫師。雖然ChatGPT還不及經驗豐富醫師,但未來改進或許會提升其效能。 PubMed DOI

研究比較了ChatGPT 3和ChatGPT 4在牙科及過敏/臨床免疫學自我評估問題上的表現。結果顯示,ChatGPT 4表現比ChatGPT 3好,尤其在過敏/臨床免疫學領域。使用預設模型明顯提升了ChatGPT 3的表現,並在牙科評估中也提升了ChatGPT 4的表現。這顯示ChatGPT在不同醫學領域的能力差異。在醫療保健等關鍵領域使用大型語言模型時,需謹慎因存在限制和風險。 PubMed DOI

研究使用AI模型ChatGPT來提升神經外科委員會教育,發現ChatGPT在回答問題時表現準確且符合神經外科主題,但與傳統解釋有些許不同。結果顯示像ChatGPT這樣的AI在醫學教育有潛力,但仍需進一步研究以提升整合和表現,以達到更好的學習成效和病人照護品質。 PubMed DOI

人工智慧如ChatGPT正改變醫學與科學。研究比較ChatGPT與神經心理學家對阿茲海默症患者測試數據的解釋,發現ChatGPT準確但缺乏標準化分數,神經心理學家則能確定問題。ChatGPT雖能解釋測試,卻無法精確找出認知障礙性質,尤其在阿茲海默症患者身上。 PubMed DOI

這項研究比較了一個大型語言模型ChatGPT在全國選拔面試中與人類神經外科申請者的表現。ChatGPT的表現不如人類參與者,顯示在醫療整合方面有改進的潛力。儘管目前人工智慧表現有限,但人類與AI系統之間的合作對未來醫療有希望。 PubMed DOI

研究顯示,ChatGPT在英國研究生醫學考試中的表現有明顯差異。ChatGPT-3.5在MRCP Part 1考試中得66.4%,而ChatGPT-4則提升至84.8%,兩者均超過及格標準。不過,ChatGPT-3.5在九場考試中有八場未通過,平均分數低於及格標準5.0%;相對地,ChatGPT-4在十一場考試中通過九場,平均分數高出13.56%。儘管成績進步,但兩者仍有產生錯誤資訊的問題,這對其在醫學教育中的應用造成挑戰。 PubMed DOI

這項研究評估了人工智慧工具ChatGPT-4V在急性中風診斷中的有效性,透過分析530張MRI影像,包括266例中風和264例正常病例。主要發現顯示,ChatGPT-4V在識別中風影像的準確率為88.3%,正常影像為90.1%。在檢測擴散限制方面,準確率為79.5%,但對於受影響半球的識別僅為26.2%。總體而言,該工具的診斷敏感性為79.57%,特異性為84.87%,顯示其在中風診斷中輔助醫療專業人員的潛力。 PubMed DOI