Exploring the Boundaries of Reality: Investigating the Phenomenon of Artificial Intelligence Hallucination in Scientific Writing Through ChatGPT References.
探索現實的界限：透過 ChatGPT 參考資料，研究科學寫作中人工智慧幻覺現象。 Cureus 2023-05-16

研究發現ChatGPT在生成參考文獻時可能不夠準確，有些缺少DOI或找不到。這顯示ChatGPT在提供可靠參考文獻上有限制。研究強調解決AI幻覺的重要性，以避免對決策產生負面影響，以及潛在的道德和法律問題。使用ChatGPT的研究人員應謹慎並改進訓練數據和模型以提高準確性。 PubMed DOI

High Rates of Fabricated and Inaccurate References in ChatGPT-Generated Medical Content.
ChatGPT生成的醫學內容中存在大量捏造和不準確的參考文獻。 Cureus 2023-06-21

ChatGPT-3.5生成的醫學文章中，有許多參考文獻是虛假或不準確的，強調了驗證醫學資訊的可靠來源的重要性。結果顯示，不能完全依賴人工智慧生成的內容，仍需謹慎對待。 PubMed DOI

ChatGPT and artificial hallucinations in stem cell research: assessing the accuracy of generated references - a preliminary study.
ChatGPT與幹細胞研究中的人工幻覺：評估生成參考文獻的準確性-初步研究。 Ann Med Surg (Lond) 2023-10-18

幹細胞研究對醫學影響深遠，AI模型如ChatGPT可助研究。然而，AI資料準確性極重要，有15.12%虛構、9.30%錯誤。透過監控與多元化訓練可減少錯誤，研究人員需驗證資料並了解AI限制。必須進一步研究提升準確性，但ChatGPT仍有價值，讓人們掌握幹細胞研究最新進展。 PubMed DOI

Performance of AI chatbots on controversial topics in oral medicine, pathology, and radiology.
人工智慧聊天機器人在口腔醫學、病理學和放射學爭議性議題上的表現。 Oral Surg Oral Med Oral Pathol Oral Radiol 2024-03-29

研究評估了6個口腔醫學領域的人工智慧聊天機器人，發現GPT-4在口腔放射學和整體表現方面表現最佳。其中23.50%的引用資料是虛假的，建議開發者應加入引用驗證器以確保資訊準確性。 PubMed DOI

Exploring the Limits of Artificial Intelligence for Referencing Scientific Articles.
探索人工智慧在科學文章引用方面的極限。 Am J Perinatol 2024-04-23

研究比較三個AI聊天機器人在提供產科文獻參考資料的可靠度，發現Google Bard最準確，而ChatGPT和Chatsonic較不準確。使用AI做科學寫作和文獻搜尋時要小心，但AI與研究人員合作或許有助於進步病患護理。 PubMed DOI

How artificial intelligence can provide information about subdural hematoma: Assessment of readability, reliability, and quality of ChatGPT, BARD, and perplexity responses.
人工智慧如何提供有關硬腦膜下血腫的資訊：對 ChatGPT、BARD 和 perplexity 回應的易讀性、可靠性和品質進行評估。 Medicine (Baltimore) 2024-05-03

研究比較了ChatGPT、Bard和perplexity對硬腦膜下血腫問題的回答品質、可靠性和易讀性。結果顯示，這些回答有點難懂，但Bard的回答比其他兩個更容易看懂。總的來說，Bard的表現最好，perplexity在某些特定情況下也不錯。這三個聊天機器人的回答都比較高級，適合用來教育患者。 PubMed DOI

Hallucination Rates and Reference Accuracy of ChatGPT and Bard for Systematic Reviews: Comparative Analysis.
ChatGPT和Bard用於系統性評論的幻覺率和參考準確性：比較分析。 J Med Internet Res 2024-05-22

研究發現ChatGPT和Bard等大型語言模型在科學寫作參考文獻生成方面表現不佳，容易產生錯誤資訊。建議在進行系統性回顧時謹慎使用這些模型，研究人員應該先驗證資料的正確性。在學術領域使用這些模型前，需要改進它們的訓練和功能。 PubMed DOI

AI chatbots show promise but limitations on UK medical exam questions: a comparative performance study.
AI 聊天機器人在英國醫學考試問題上的潛力與限制：一項比較性能研究。 Sci Rep 2024-08-14

這項研究評估了七個大型語言模型（LLMs）在模擬英國醫學考試問題上的表現，使用了423道考題。測試的模型包括ChatGPT-3.5、ChatGPT-4、Bard等。結果顯示，ChatGPT-4表現最佳，準確率達78.2%，其次是Bing和Claude。研究指出，LLMs在醫學教育中有潛力，但在依賴它們進行訓練前，仍需解決一些限制，並建議進一步研究專科特定的LLMs及其在醫學課程中的應用。 PubMed DOI

Assessment of readability, reliability, and quality of ChatGPT®, BARD®, Gemini®, Copilot®, Perplexity® responses on palliative care.
對於緩和醫療的 ChatGPT®、BARD®、Gemini®、Copilot®、Perplexity® 回應的可讀性、可靠性和質量評估。 Medicine (Baltimore) 2024-08-16

這項研究全面評估了多款AI聊天機器人（如ChatGPT®、Bard®、Gemini®、Copilot®和Perplexity®）生成的醫療資訊的可讀性和質量。結果顯示，Bard®的可讀性最佳，而Gemini®最難閱讀。所有聊天機器人的回應都超過了建議的六年級閱讀水平，顯示病人教育材料的可及性需改進。雖然Perplexity®在質量評估中得分最高，但Gemini®的整體質量得分最佳。這強調了確保AI生成的健康資訊既易讀又高質量的重要性，以有效教育病人。 PubMed DOI

Human versus Artificial Intelligence: ChatGPT-4 Outperforming Bing, Bard, ChatGPT-3.5 and Humans in Clinical Chemistry Multiple-Choice Questions.
人類與人工智慧：ChatGPT-4 在臨床化學多選題中超越 Bing、Bard、ChatGPT-3.5 及人類。 Adv Med Educ Pract 2024-09-25

這項研究比較了AI聊天機器人（如ChatGPT-4、Bing和Bard）與醫學研究生在臨床化學多選題的表現。結果顯示，ChatGPT-4的平均得分為0.90，超過學生的0.68，其他AI的得分分別為0.77、0.73和0.67。研究指出，AI在記憶和理解的表現較佳，但在應用和分析上則較弱。雖然ChatGPT-4表現優秀，但也引發了對學術誠信及多選題使用的擔憂，值得重新思考其在高等教育中的適用性。 PubMed DOI

原始文章

站上相關主題文章列表