原始文章

這項研究評估了AI聊天機器人GPT-4o和Claude-3在面對醫療診斷不確定性時的表現,與320名家庭醫學住院醫師相比。結果顯示,住院醫師的正確率為61.1%至63.3%,而Claude-3和GPT-4o的正確率分別為57.7%和53.3%。Claude-3的回應時間較長,回答字數也較多,而GPT-4o的錯誤多為邏輯性錯誤。整體來看,雖然AI在醫學知識上有潛力,但在診斷不確定性方面仍不及人類醫師。 PubMed DOI


站上相關主題文章列表

研究比較了GPT-3.5、GPT-4和家庭醫學住院醫師在醫學知識測驗的表現,結果發現GPT-4表現優異,甚至超越了最優秀的住院醫師。GPT-4能提供答案的邏輯理由,顯示出先進的推理能力。這顯示GPT-4在醫學教育中可能有價值,可用於製作考試題目和提供醫學知識。 PubMed DOI

研究比較了基於GPT-3.5的AI聊天機器人和神經學醫師在臨床案例中的診斷和決策表現。結果顯示,AI聊天機器人在神經學領域的表現相當不錯,正確率高達85%,並能提供96.1%的案例充分理由。研究指出AI可作為神經學臨床推理的輔助工具,未來應用前景廣闊。 PubMed DOI

研究發現,ChatGPT 4.0 在回答美國醫師執照考試問題及生成臨床鑑別診斷方面比 3.5 更準確。在74.6%案例中準確生成診斷,70.2%正確將診斷排第一。顯示ChatGPT在回答醫學問題上有進步,並展現臨床診斷能力。 PubMed DOI

這項研究評估了由人工智慧驅動的聊天機器人GPT-4在醫學病例報告中從潛在診斷清單中識別最終診斷的能力。GPT-4在識別最終診斷方面與醫師表現出公平至良好的一致性,顯示其有潛力協助臨床決策。需要在真實世界情境和不同臨床環境中進行進一步驗證,以充分了解其在醫學診斷中的實用性。 PubMed DOI

人工智慧技術在病患照護上有很大潛力,尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著,但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧(Chat-GPT 3.5)和臨床醫師對癡呆症相關問題的回答,結果顯示人工智慧在易懂性和深度上表現更佳,平均評分為4.6/5,而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高,但仍需注意錯誤資訊和數據安全等問題。總之,人工智慧在醫療溝通上有潛力,但需謹慎對待其限制。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究比較了ChatGPT與265名醫學住院醫師在診斷準確性上的表現,特別關注臨床推理中的偏見影響。結果顯示,ChatGPT的整體診斷準確性與住院醫師相似,但對不同類型的偏見反應不同。當偏見來自病人病史時,ChatGPT的準確性顯著下降,而住院醫師的下降幅度較小。相對地,當偏見是情境性的,ChatGPT表現穩定,但住院醫師的準確性則下降更多。這顯示提升ChatGPT檢測和減輕偏見的能力,對其在臨床應用中至關重要。 PubMed DOI

這項研究評估了四款熱門聊天機器人(ChatGPT-4、Bard、Perplexity 和 Claude 2)在與認證胸腔外科醫生進行考試的表現。結果顯示,聊天機器人的中位得分為1.06,而外科醫生為1.88,差異顯著(p=0.019)。外科醫生在大多數情境中表現優於聊天機器人,且聊天機器人的重大失誤率較高(0.50對0.19;p=0.016)。總體來看,研究認為聊天機器人的表現顯著不如外科醫生,提醒在臨床決策中應謹慎使用人工智慧。 PubMed DOI

這項研究探討了AI聊天機器人GPT-3.5和GPT-4.0在眼科門診註冊及診斷眼病的有效性。研究分析了208個臨床檔案,結果顯示: 1. **註冊建議**:GPT-3.5(63.5%)、GPT-4.0(77.9%)和住院醫師(69.2%)的準確性相似,無顯著差異。 2. **診斷準確性**:GPT-4.0和住院醫師在有病史及檢查的檔案中表現優於GPT-3.5。 3. **錯誤診斷**:GPT-4.0的錯誤診斷較少,顯示出精確度提升。 4. **整體表現**:GPT-4.0在鑑別診斷上接近住院醫師,顯示其潛在應用價值。 結論認為,AI聊天機器人有助於提升眼科病人註冊,但需進一步驗證其在診斷中的應用。 PubMed DOI