原始文章

這項研究探討AI聊天機器人在醫療實踐中的可靠性,並引入了參考幻覺評分(RHS)來評估引用的真實性。研究測試了六個聊天機器人,結果顯示Bard未提供任何參考文獻,而ChatGPT 3.5和Bing的RHS得分最高(11),顯示引用質量較佳。相對而言,Elicit和SciSpace得分最低(1),Perplexity則在中間(7)。研究發現61.6%的參考文獻與提示相關性低,顯示幻覺問題明顯,強調需要可靠的參考評估工具以提升AI在醫療研究中的真實性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在生成參考文獻時可能不夠準確,有些缺少DOI或找不到。這顯示ChatGPT在提供可靠參考文獻上有限制。研究強調解決AI幻覺的重要性,以避免對決策產生負面影響,以及潛在的道德和法律問題。使用ChatGPT的研究人員應謹慎並改進訓練數據和模型以提高準確性。 PubMed DOI

ChatGPT-3.5生成的醫學文章中,有許多參考文獻是虛假或不準確的,強調了驗證醫學資訊的可靠來源的重要性。結果顯示,不能完全依賴人工智慧生成的內容,仍需謹慎對待。 PubMed DOI

幹細胞研究對醫學影響深遠,AI模型如ChatGPT可助研究。然而,AI資料準確性極重要,有15.12%虛構、9.30%錯誤。透過監控與多元化訓練可減少錯誤,研究人員需驗證資料並了解AI限制。必須進一步研究提升準確性,但ChatGPT仍有價值,讓人們掌握幹細胞研究最新進展。 PubMed DOI

研究評估了6個口腔醫學領域的人工智慧聊天機器人,發現GPT-4在口腔放射學和整體表現方面表現最佳。其中23.50%的引用資料是虛假的,建議開發者應加入引用驗證器以確保資訊準確性。 PubMed DOI

研究比較三個AI聊天機器人在提供產科文獻參考資料的可靠度,發現Google Bard最準確,而ChatGPT和Chatsonic較不準確。使用AI做科學寫作和文獻搜尋時要小心,但AI與研究人員合作或許有助於進步病患護理。 PubMed DOI

研究比較了ChatGPT、Bard和perplexity對硬腦膜下血腫問題的回答品質、可靠性和易讀性。結果顯示,這些回答有點難懂,但Bard的回答比其他兩個更容易看懂。總的來說,Bard的表現最好,perplexity在某些特定情況下也不錯。這三個聊天機器人的回答都比較高級,適合用來教育患者。 PubMed DOI

研究發現ChatGPT和Bard等大型語言模型在科學寫作參考文獻生成方面表現不佳,容易產生錯誤資訊。建議在進行系統性回顧時謹慎使用這些模型,研究人員應該先驗證資料的正確性。在學術領域使用這些模型前,需要改進它們的訓練和功能。 PubMed DOI

這項研究評估了七個大型語言模型(LLMs)在模擬英國醫學考試問題上的表現,使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示,ChatGPT-4表現最佳,準確率達78.2%,其次是Bing和Claude。研究指出,LLMs在醫學教育中有潛力,但在依賴它們進行訓練前,仍需解決一些限制,並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

這項研究全面評估了多款AI聊天機器人(如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®)生成的醫療資訊的可讀性和質量。結果顯示,Bard®的可讀性最佳,而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平,顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高,但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性,以有效教育病人。 PubMed DOI

這項研究比較了AI聊天機器人(如ChatGPT-4、Bing和Bard)與醫學研究生在臨床化學多選題的表現。結果顯示,ChatGPT-4的平均得分為0.90,超過學生的0.68,其他AI的得分分別為0.77、0.73和0.67。研究指出,AI在記憶和理解的表現較佳,但在應用和分析上則較弱。雖然ChatGPT-4表現優秀,但也引發了對學術誠信及多選題使用的擔憂,值得重新思考其在高等教育中的適用性。 PubMed DOI