原始文章

這項研究發現,目前主流AI聊天機器人在辨識被劫持的醫學期刊時表現不佳,即使是表現最好的Copilot也會出錯。整體來說,這些AI工具不適合用來判斷期刊真偽,甚至可能誤導使用者,無意間推廣假期刊。 PubMed DOI


站上相關主題文章列表

最近調查顯示,48%的消費者使用生成式AI查詢健康資訊,但對於AI聊天機器人在緊急護理建議的回應質量研究仍然不足。一項針對四款免費AI聊天機器人的研究發現,雖然它們在清晰度和可理解性上表現良好,但準確性和來源可靠性卻相當低。危險信息的出現率在5%到35%之間,且各機器人之間差異不大。研究建議應加強對AI聊天機器人的研究與規範,並強調諮詢醫療專業人員的重要性,以避免潛在風險。 PubMed DOI

這項研究探討人類評審者在辨識ChatGPT生成的科學摘要與原始摘要的準確性。來自不列顛哥倫比亞大學的41名外科實習生和教職員參加了線上調查,結果顯示只有40%能正確識別原始摘要,而63.4%偏好AI生成的摘要。分析指出,偏好原始摘要的受訪者更容易正確識別。這顯示人類在區分AI與人類生成內容上面臨挑戰,並且對AI生成的摘要有明顯偏好,突顯了AI在學術寫作中的影響及其倫理考量。 PubMed DOI

這項研究探討了如何區分人類撰寫的摘要與ChatGPT生成的摘要,分析了160篇摘要,並使用了三種AI檢測工具和一個抄襲檢測器。研究發現,所有方法對摘要來源的判斷都有誤,學者的經驗影響檢測準確性,資深學者表現最佳。GPTZero和相似性檢測器在識別來源上特別有效。研究建議人類專家與AI工具合作,能提升識別學術摘要的準確性。 PubMed DOI

這項研究發現,AI聊天機器人產生的科學白話摘要比人類寫的更容易懂,對教育程度較低的人特別有幫助,品質也差不多。研究人員,尤其是非英語母語者,可以用AI來寫PLS,但還是要記得檢查內容有沒有錯。 PubMed DOI

這項研究比較了三款AI聊天機器人在土耳其醫學專科考試急診醫學題目的表現,發現 Copilot 錯誤率最低,Gemini 錯誤率最高。三款AI在創傷、外科、燒燙傷和小兒題目表現較差,遇到機率題時錯誤率也會增加。雖然AI能輔助學習,但不建議當作醫學考試的主要讀書工具。 PubMed DOI

研究比較六款聊天機器人回答中年健康問題的表現,發現 Meta AI 答案最準確、最有條理,Perplexity 最容易閱讀。整體來說,這些聊天機器人對中年健康教育有幫助,但表現有差異,選擇合適的工具很重要。 PubMed DOI

這項研究比較AI(ChatGPT和scite Assistant)和人類寫的科學論文,評估正確性、可讀性和被接受度。結果顯示,人類寫的論文品質最高,尤其是跟骨骨折主題。AI寫的論文內容大致正確,但引用準確度不一,ChatGPT表現較好。結論是AI能輔助科學寫作,但還是需要嚴格查證,才能確保內容正確。 PubMed DOI

這項研究發現,不同AI聊天機器人在幫醫學生出單一最佳答案題目時,品質和一致性都有差異,沒有哪一個特別突出。所有AI產生的題目都還是需要專家審查,無法完全取代人類。AI出題也對傳統的認知能力分級方式帶來挑戰。 PubMed DOI

這項研究比較四款免費AI聊天機器人回答肝癌相關問題的表現,發現它們雖然能提供大致正確且無偏見的資訊,但在資料來源、治療細節和說明清楚度上有差異。AI回答可作為參考,但仍需專業醫師把關,不能取代醫療建議。 PubMed DOI

這項研究發現,目前免費的AI工具(如ChatGPT、Bard、SmallSEO)在偵測科學論文抄襲上效果有限,尤其對AI重寫過的內容幾乎無法辨識。也就是說,AI不僅難以抓出抄襲,還能幫助抄襲內容規避偵測,現階段並不可靠。 PubMed DOI