原始文章

一項研究評估了ChatGPT 3.5和連接網路的GPT-4(Microsoft Copilot)在公共醫療系統耳鼻喉科考試中的表現,共發放135道問題。結果顯示,GPT-4的得分為88.5分,明顯優於ChatGPT的60分,且Copilot在108名耳鼻喉科醫生中排名第二,而ChatGPT則排在第83位。整體來看,具網路連接的GPT-4在回答醫學多選題方面表現更佳。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT在回答不同耳鼻喉科專業領域的醫學委員會認證練習問題時的表現。結果顯示,ChatGPT正確率為57%,單選題表現較多選題好。在過敏學問題上表現最佳,但在法律耳鼻喉學方面有困難。建議與專家合作改進ChatGPT,提升其在教育上的準確性和可靠性。 PubMed DOI

研究評估OpenAI開發的ChatGPT在提供耳鼻喉科健康資訊的表現。醫生們認為聊天機器人回答相關性不錯,但深度有待加強,可能受訓練數據影響。儘管有潛力提供正確資訊,仍需改進回應深度和減少偏見。 PubMed DOI

研究比較了ChatGPT與耳鼻喉科醫師回答高級問題的表現。結果顯示,ChatGPT在開放問題上準確率為56.7%,重複問題為73.3%,多重選擇問題為43.3%。在複雜耳鼻喉學問題上,ChatGPT表現不穩定,使用時需謹慎,尤其在臨床情境中。 PubMed DOI

研究比較了ChatGPT和耳鼻喉科顧問回答臨床問題的表現,結果發現顧問在醫學適當性、簡潔性、連貫性和易讀性方面表現較好。雖然顧問通常能正確判斷ChatGPT的答案,但ChatGPT的回答常較冗長。ChatGPT 3和ChatGPT 4在醫學準確性和連貫性有些改善,但簡潔性和易讀性仍待提升。儘管ChatGPT等語言模型在醫學上有潛力,但也可能存在誤導風險,使用時應謹慎。 PubMed DOI

比較了GPT-3.5、GPT-4和Google Bard在回答類似美國睡眠醫學認證委員會考試的問題時的表現。結果顯示,GPT-4在十個考試類別中有五個類別的通過率達到80%以上,比其他兩個模型表現更好。這強調了在耳鼻喉科和睡眠醫學領域持續進行研究的重要性,以確保AI聊天機器人的安全和負責任發展。 PubMed DOI

ChatGPT是一個知名的大型語言模型,以其在標準化考試中的高水準表現而聞名,包括醫學委員會考試。研究發現,它在耳鼻喉頭頸外科(OHNS)委員會考試中表現良好,但在開放式問題上仍有改進空間。儘管有潛力通過OHNS認證考試,但仍需進一步調整以確保安全性和準確性。 PubMed DOI

研究發現ChatGPT-4在耳鼻喉科病例管理中表現良好,對患者提供了許多有用建議,雖然有時會建議額外檢查。在診斷準確率方面有改進空間,但在初步診斷上有潛力成為耳鼻喉科醫師的輔助工具。 PubMed DOI

研究評估了ChatGPT在回答耳鼻喉科患者問題上的表現,結果顯示其回應準確、全面且具同理心,但仍有限制。長回應較具同理心,但與問題長度並非必然相關。有些回應被視為潛在危險,呼籲在使用AI提供醫療建議時需謹慎。整合AI到醫療需謹慎評估性能,並考慮患者安全與道德。 PubMed DOI

研究比較了ChatGPT 3.5和GPT4在耳鼻喉科考試問題上的表現,並與住院醫師做了對比。結果顯示,GPT4在文本和圖像問題上表現優異,而ChatGPT 3.5則在文本問題上稍遜。這顯示了GPT4在耳鼻喉科教育中有潛力,展現了人工智慧未來在這領域的重要性。 PubMed DOI

這項研究評估了三個人工智慧模型—ChatGPT、GPT-4 和 Google Bard—在美國耳鼻喉科考試問題上的表現,分析了1,077道文字題和60道圖片題。結果顯示,GPT-4的表現最佳,得分78.7%,而ChatGPT和Bard分別為55.3%和61.7%(p<0.001)。所有模型在簡單問題上表現較好,GPT-4在各子專科得分也較高,僅過敏科差異不顯著。雖然GPT-4表現良好,但在醫學教育和病人護理中的應用仍需謹慎。 PubMed DOI