原始文章

這項研究評估了五款AI聊天機器人對口腔癌問題的回應,包括Bing、GPT-3.5、GPT-4、Google Bard和Claude。經過專家評估,GPT-4獲得最高質量分數(17.3),而Bing最低(14.9)。Bard在可讀性上表現最佳,GPT-4和Bard在同理心及引用準確性方面也表現突出。整體來看,GPT-4提供的回應質量最高,但大多數聊天機器人在同理心和準確引用上仍有待加強。 PubMed DOI


站上相關主題文章列表

研究用DISCERN標準評估AI聊天機器人對常見癌症問題回答的品質,發現ChatGPT比Bing AI表現較好。AI在醫療上有潛力,但仍需改進,尤其在癌症等重要領域,以避免給患者和家人帶來誤解或壓力。 PubMed DOI

研究評估了6個口腔醫學領域的人工智慧聊天機器人,發現GPT-4在口腔放射學和整體表現方面表現最佳。其中23.50%的引用資料是虛假的,建議開發者應加入引用驗證器以確保資訊準確性。 PubMed DOI

研究比較了不同聊天機器人在口腔顎面外科問題上的表現,結果顯示它們的準確性普遍不高,GPT-4在開放式問題上表現較好。這表明聊天機器人在臨床決策中可能不夠可靠。 PubMed DOI

研究發現AI聊天機器人在回答癌症患者問題時表現優異,比腫瘤學家更具同理心且易懂。這顯示機器人有潛力提供良好的回應,但仍需進一步研究其對患者護理的全面影響。 PubMed DOI

這項研究評估了OpenAI的ChatGPT-4和Google的Bard在回答前列腺癌新療法<sup>177</sup>Lu-PSMA-617的準確性、可讀性和簡潔性。結果顯示,ChatGPT-4的回答準確性較高(得分2.95對2.73),但Bard的可讀性更佳(得分2.79對2.94)。兩者在簡潔性上相似。ChatGPT-4的錯誤資訊較少(16.6%),而Bard則有較多誤導性資訊。總體來看,這兩個AI仍需改進,才能成為病人尋求相關資訊的可靠來源。 PubMed DOI

這項研究探討AI聊天機器人對骨肉瘤患者護理的影響,分析其風險與好處。研究者向三個聊天機器人提出與診斷、治療和康復相關的問題,並根據五個指標評估其回答。結果顯示,聊天機器人在相關性和平衡性方面表現良好,但在數據基礎、完整性和事實準確性上得分較低。GPT-4在同理心方面得分最高,但在治療和康復問題的可行性較低。整體而言,雖然AI有潛力,但在準確性和可及性上仍有待改善,影響其臨床應用。 PubMed DOI

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究評估了三款AI聊天機器人—ChatGPT 4.0、Claude 3.0和Gemini Pro—以及Google在回答腎臟移植後常見問題的表現。研究使用5點李克特量表評估回應質量,並透過病人教育材料評估工具(PEMAT)檢視可理解性和可行性。結果顯示,回應質量高(中位分數4),可理解性良好(中位72.7%),但可行性較差(中位20%)。可讀性較難,Claude 3.0提供最可靠的回應,而ChatGPT 4.0則在可理解性上表現突出。Google在各項指標上未能超越這些聊天機器人。 PubMed DOI

這項研究評估了ChatGPT-3.5在回答口腔癌相關問題的準確性,因為早期診斷對患者結果影響重大。研究中提出20個問題,並由醫療專家評估其回答。結果顯示,51.25%的答案被評為非常好,46.25%為好,僅2.5%可接受。專家評分間無顯著差異。雖然ChatGPT提供的資訊可靠,但引用的81篇文獻中,只有13篇是合法的科學文章,10篇為假文獻,其餘則來自各種網站。總體而言,ChatGPT的資訊值得參考,但需謹慎對待其引用來源。 PubMed DOI

這項研究比較了三款AI聊天機器人—ChatGPT-3.5、Gemini 1.5 Pro和Copilot—在回答口腔與顏面放射學常見問題的表現。研究選取了十五個問題,並由三位OMR專家根據科學準確性、易懂性和滿意度進行評估。結果顯示,雖然聊天機器人在科學準確性上無顯著差異,但整體文本較為複雜,需較高的閱讀水平。研究強調,與醫療專業人員驗證AI生成資訊對改善病患護理和安全性的重要性。 PubMed DOI