Accuracy of Prospective Assessments of 4 Large Language Model Chatbot Responses to Patient Questions About Emergency Care: Experimental Comparative Study.
大型語言模型聊天機器人對患者急救問題的前瞻性評估準確性：實驗比較研究。 J Med Internet Res 2024-11-04

最近調查顯示，48%的消費者使用生成式AI查詢健康資訊，但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現，雖然它們在清晰度和可理解性上表現良好，但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間，且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範，並強調諮詢醫療專業人員的重要性，以避免潛在風險。 PubMed DOI

Evaluating human ability to distinguish between ChatGPT-generated and original scientific abstracts.
評估人類區分 ChatGPT 生成與原創科學摘要的能力。 Updates Surg 2025-01-24

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查，結果顯示只有40%能正確識別原始摘要，而63.4%偏好AI生成的摘要。分析指出，偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰，並且對AI生成的摘要有明顯偏好，突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

Identification of dental related ChatGPT generated abstracts by senior and young academicians versus artificial intelligence detectors and a similarity detector.
年長與年輕學者對於牙科相關 ChatGPT 生成摘要的識別，與人工智慧檢測器及相似性檢測器的比較。 Sci Rep 2025-04-02

這項研究探討了如何區分人類撰寫的摘要與ChatGPT生成的摘要，分析了160篇摘要，並使用了三種AI檢測工具和一個抄襲檢測器。研究發現，所有方法對摘要來源的判斷都有誤，學者的經驗影響檢測準確性，資深學者表現最佳。GPTZero和相似性檢測器在識別來源上特別有效。研究建議人類專家與AI工具合作，能提升識別學術摘要的準確性。 PubMed DOI

Assessing the Capability of Large Language Model Chatbots in Generating Plain Language Summaries.
大型語言模型聊天機器人在產生淺顯易懂摘要之能力評估 Cureus 2025-04-22

這項研究發現，AI聊天機器人產生的科學白話摘要比人類寫的更容易懂，對教育程度較低的人特別有幫助，品質也差不多。研究人員，尤其是非英語母語者，可以用AI來寫PLS，但還是要記得檢查內容有沒有錯。 PubMed DOI

Comparison of performance of artificial intelligence tools in answering emergency medicine question pool: ChatGPT 4.0, Google Gemini and Microsoft Copilot.
人工智慧工具於急診醫學題庫作答表現之比較：ChatGPT 4.0、Google Gemini 與 Microsoft Copilot Pak J Med Sci 2025-04-28

這項研究比較了三款AI聊天機器人在土耳其醫學專科考試急診醫學題目的表現，發現 Copilot 錯誤率最低，Gemini 錯誤率最高。三款AI在創傷、外科、燒燙傷和小兒題目表現較差，遇到機率題時錯誤率也會增加。雖然AI能輔助學習，但不建議當作醫學考試的主要讀書工具。 PubMed DOI

Evaluating Accuracy and Readability of Responses to Midlife Health Questions: A Comparative Analysis of Six Large Language Model Chatbots.
六種大型語言模型聊天機器人對中年健康問題回答之準確性與可讀性評估：比較分析 J Midlife Health 2025-05-07

研究比較六款聊天機器人回答中年健康問題的表現，發現 Meta AI 答案最準確、最有條理，Perplexity 最容易閱讀。整體來說，這些聊天機器人對中年健康教育有幫助，但表現有差異，選擇合適的工具很重要。 PubMed DOI

From Algorithms to Academia: An Endeavor to Benchmark AI-Generated Scientific Papers against Human Standards.
從演算法到學術界：以人類標準評估 AI 生成科學論文的嘗試 Arch Bone Jt Surg 2025-05-07

這項研究比較AI（ChatGPT和scite Assistant）和人類寫的科學論文，評估正確性、可讀性和被接受度。結果顯示，人類寫的論文品質最高，尤其是跟骨骨折主題。AI寫的論文內容大致正確，但引用準確度不一，ChatGPT表現較好。結論是AI能輔助科學寫作，但還是需要嚴格查證，才能確保內容正確。 PubMed DOI

Chatbots' Role in Generating Single Best Answer Questions for Undergraduate Medical Student Assessment: Comparative Analysis.
Chatbots 在產生醫學生單一最佳答案題目中的角色：比較分析 JMIR Med Educ 2025-05-30

這項研究發現，不同AI聊天機器人在幫醫學生出單一最佳答案題目時，品質和一致性都有差異，沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查，無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

Evaluation of AI-Based Chatbots in Liver Cancer Information Dissemination: A Comparative Analysis of GPT, DeepSeek, Copilot, and Gemini.
AI 聊天機器人在肝癌資訊傳播中的評估：GPT、DeepSeek、Copilot 與 Gemini 之比較分析 Oncology 2025-06-10

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現，發現它們雖然能提供大致正確且無偏見的資訊，但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考，但仍需專業醫師把關，不能取代醫療建議。 PubMed DOI

Can AI Tools Reliably and Effectively Detect Plagiarism in Scientific Writing?
AI 工具能否可靠且有效地偵測科學寫作中的抄襲？ Cureus 2025-06-12

這項研究發現，目前免費的AI工具（如ChatGPT、Bard、SmallSEO）在偵測科學論文抄襲上效果有限，尤其對AI重寫過的內容幾乎無法辨識。也就是說，AI不僅難以抓出抄襲，還能幫助抄襲內容規避偵測，現階段並不可靠。 PubMed DOI

原始文章

站上相關主題文章列表