原始文章

這項研究比較了四個人工智慧系統(Copilot、Bard、Luzia 和 ChatGPT)與四位臨床毒理學家在十個毒理學問題上的回答。結果顯示,專家對人工智慧的來源識別率低,僅有少部分被認為是毒理學家的作品。Luzia 和 ChatGPT 在誤導專家方面表現較好,且ChatGPT的文本質量和知識水平最高,分別達到61.3%和8.03分,顯示其在毒理學領域的優勢。 PubMed DOI


站上相關主題文章列表

研究比較了AI語言模型(ChatGPT 3.5和GPT-4)與臨床化學培訓生和教職員對實驗室問題的回答表現。結果顯示,資深教職員的準確率最高達100%,初級教職員、研究員和住院醫師次之。兩個AI模型得分較低,ChatGPT 3.5為60%,GPT-4為71.4%。研究建議,AI無法取代臨床化學專業人員,使用聊天機器人解讀檢驗結果時應謹慎。 PubMed DOI

研究發現ChatGPT在職業健康問題回答上表現不如醫師,但能提供法規專業答案。使用者偏愛人類回答,顯示人類專業知識與AI並重的重要性。 PubMed DOI

根據專家評估其回答,AI聊天機器人如ChatGPT4和Bard在回答麻醉常見問題時表現優於Bing Chat。儘管這些聊天機器人在溝通品質方面表現出色,但在醫學內容品質方面則有所不足。在這個情況下,ChatGPT4和Bard被發現在這方面與Bing Chat相比是可比且優越的。 PubMed DOI

越來越多病患用AI聊天機器人查檢驗結果,因為方便又好用。但研究發現,聊天機器人解釋不夠清楚、常錯誤。雖然有同理心,處理複雜問題時容易出錯,有時還會誤判病情。雖有免責聲明,病患仍可能相信錯誤資訊。必須進一步研究改進,確保病患了解並避免給醫療系統帶來負擔。 PubMed DOI

人工智慧技術在病患照護上有很大潛力,尤其在診斷、精神疾病治療和認知測試解讀等方面。雖然進展顯著,但仍需進一步研究其在醫療中的優缺點。一項研究比較了人工智慧(Chat-GPT 3.5)和臨床醫師對癡呆症相關問題的回答,結果顯示人工智慧在易懂性和深度上表現更佳,平均評分為4.6/5,而臨床醫師則為4.3、4.2和3.9。儘管人工智慧的回答質量高,但仍需注意錯誤資訊和數據安全等問題。總之,人工智慧在醫療溝通上有潛力,但需謹慎對待其限制。 PubMed DOI

這項研究探討了人工智慧聊天機器人ChatGPT在麻醉學領域回應病人問題的效果。研究將ChatGPT的回應與認證麻醉醫師的回應進行比較,使用100個虛構臨床情境的麻醉問題。結果顯示,ChatGPT的整體質量評分與麻醉醫師相似,但同理心評分較高。不過,ChatGPT在科學共識一致性上表現不佳,且潛在傷害的比率較高。研究結論指出,雖然ChatGPT在醫療領域有潛力,但仍需改進以降低風險,並建議進一步研究其在複雜臨床情境中的有效性。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究評估了ChatGPT 3.5在傳染病藥物治療問題上的回應質量,並由專家進行評估。結果顯示,只有41.8%的回應被認為有用,且雖然回應的正確性和安全性較高,但完整性不足。專家對回應的共識一般,對正確性和安全性則相當一致。總體來看,GPT-3.5的回應雖然正確且安全,但無法取代傳染病藥師的專業知識。 PubMed DOI

這項研究評估了ChatGPT在一氧化碳中毒問題上的回答準確性,使用了「醫學考試助手(Yi Kao Bang)」的44道單選題。研究發現,約50%的回答一致,但有三分之一的回答顯著不同。準確率方面,中文為61.1%,英文為57%。這顯示ChatGPT雖然提供了一些有用資訊,但在醫療情境下,特別是針對一氧化碳中毒的可靠性仍不足,因此不應取代醫療專業人員的臨床決策。 PubMed DOI