Assessing the performance of ChatGPT's responses to questions related to epilepsy: A cross-sectional study on natural language processing and medical information retrieval.
評估 ChatGPT 對有關癲癇問題回答表現的研究：自然語言處理與醫學資訊檢索的橫斷面研究。 Seizure 2024-01-31

研究比較了ChatGPT-4和ChatGPT-3.5在提供癲癇相關資訊的表現，結果顯示ChatGPT-4較佳，回答具教育價值。這模型可提供可靠資訊支援醫護人員，但仍需進一步研究其應用潛力。 PubMed DOI

Evaluating the performance of the language model ChatGPT in responding to common questions of people with epilepsy.
評估語言模型 ChatGPT 在回答癲癇患者常見問題時的表現。 Epilepsy Behav 2024-02-14

研究發現ChatGPT在回答癲癇相關問題和提供情緒支持方面有一定準確性和一致性，但在預後問題上表現較差。雖可提供資訊和情緒支持，但可能給出不正確建議，謹慎使用，不宜當醫療指導。更適合用於患者教育。 PubMed DOI

"Doctor ChatGPT, Can You Help Me?" The Patient's Perspective: Cross-Sectional Study.
「醫生 ChatGPT，您能幫我嗎？」病人的視角：橫斷面研究。 J Med Internet Res 2024-10-01

這項研究比較了AI語言模型ChatGPT與專家醫生在健康建議的有效性和安全性。研究涵蓋100個健康問題，結果顯示： 1. **同理心與實用性**：患者認為ChatGPT在同理心（4.18對2.7）和實用性（4.04對2.98）上表現更佳。 2. **正確性**：ChatGPT的正確性得分（4.51對3.55）也優於專家。 3. **潛在危害**：專家指出AI的有害建議比例較低，但患者對這些風險的認知不足。 4. **性別差異**：女性對同理心的評價高於男性。總體而言，ChatGPT在協助患者解決健康問題上表現出色，但患者需謹慎識別潛在風險。 PubMed DOI

Can people with epilepsy trust AI chatbots for information on physical exercise?
癲癇患者能否信任 AI 聊天機器人提供的運動資訊？ Epilepsy Behav 2024-12-05

這項研究評估了四款AI聊天機器人（ChatGPT-3.5、ChatGPT-4、Google Gemini和Microsoft Copilot）對癲癇和運動問題的回應。研究分析了它們的相似性、可讀性及與科學知識的一致性。共提出十四個問題，並評估回應的詞彙相似性和可讀性。結果顯示，雖然回應在詞彙上有相似性，但對運動的處理方式各有不同。Microsoft Copilot的可讀性最佳，而ChatGPT-3.5最低。整體回應難以閱讀，質量評分從「良好」到「可接受」，ChatGPT-4最受青睞。結論指出，AI需使用更簡單的語言以提升有效性。 PubMed DOI

Evaluating Artificial Intelligence (AI)-Generated Patient Education Guides on Epilepsy: A Cross-Sectional Study of ChatGPT and Google Gemini.
評估人工智慧 (AI) 生成的癲癇患者教育指南：ChatGPT 和 Google Gemini 的橫斷面研究。 Cureus 2024-12-09

本研究比較了兩種人工智慧工具——ChatGPT和Google Gemini，在生成癲癇病人教育指南的有效性。結果顯示，兩者在多項指標上無顯著差異，但Google Gemini在理解難易度上表現較佳，特別是在全身性強直-陣攣發作、肌陣攣發作及癲癇持續狀態的回應中，且其每字音節數也較少。這顯示Google Gemini在病人教育方面更具優勢，未來需進一步提升AI工具的能力，以增進癲癇病人教育的效果。 PubMed DOI

Assessing the accuracy and quality of artificial intelligence (AI) chatbot-generated responses in making patient-specific drug-therapy and healthcare-related decisions.
評估人工智慧 (AI) 聊天機器人生成的回應在制定患者特定藥物療法和醫療相關決策中的準確性和質量。 BMC Med Inform Decis Mak 2024-12-24

這項研究評估了ChatGPT在醫療查詢中的可靠性，透過18個開放式問題來檢視其回應的一致性、品質和準確性。結果顯示，ChatGPT在「什麼」問題上表現較好，但在「為什麼」和「如何」問題上則不理想，出現計算錯誤和不正確的單位等問題，甚至有些引用文獻是虛構的。研究結論認為，ChatGPT目前不適合用於醫療學習者或專業人士，因為其回應不一致且參考資料不可靠，可能影響臨床決策。 PubMed DOI

Artificial intelligence (ChatGPT 4.0) vs. Human expertise for epileptic seizure and epilepsy diagnosis and classification in Adults: An exploratory study.
人工智慧 (ChatGPT 4.0) 與人類專業在成人癲癇發作及癲癇診斷與分類中的比較：一項探索性研究。 Epilepsy Behav 2025-03-13

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性，並與專家進行比較。使用37個臨床案例，結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%，但特異度較低，特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好，但在處理模糊案例時仍有困難。相比之下，人類專家的準確性更高。研究建議未來可將AI與專家結合，以提升癲癇診斷的準確性。 PubMed DOI

Readability, reliability and quality of responses generated by ChatGPT, gemini, and perplexity for the most frequently asked questions about pain.
ChatGPT、Gemini 和 Perplexity 對於最常見的疼痛相關問題所生成的回答的可讀性、可靠性和質量。 Medicine (Baltimore) 2025-03-18

這項研究調查了三款AI聊天機器人—ChatGPT、Gemini和Perplexity—在回答有關疼痛的常見問題時的可讀性、可靠性和回應質量。全球超過30%的人口面臨慢性疼痛，許多人會在就醫前尋找健康資訊。研究發現，這三款聊天機器人的可讀性均超過六年級水平，其中Gemini最佳。質量方面，Gemini得分較高，而Perplexity在可靠性評估中表現較好。總體來說，這些聊天機器人的回應難以閱讀，且可靠性和質量較低，無法取代專業醫療諮詢，建議改善可讀性並加強專家監督。 PubMed DOI

ChatGPT performance on 120 interdisciplinary allergology questions - systematic evaluation with clinical error impact assessment for critical erroneous AI-guided chatbot-advice.
ChatGPT 在 120 個跨學科過敏學問題上的表現 - 針對關鍵錯誤的 AI 指導聊天機器人建議進行系統評估與臨床錯誤影響評估。 J Allergy Clin Immunol Pract 2025-03-29

這項研究評估了ChatGPT在回答過敏學問題的表現，顯示它對於等待專科門診的病患來說是一個方便的資源。研究針對120個問題進行評估，結果顯示ChatGPT的整體準確性不錯（平均4.1分），但在兒科問題的完整性和人性化程度上較低。特別是與兒童食物過敏相關的錯誤，可能會造成生命危險。這強調了ChatGPT在提供過敏學建議上的局限性，並建議諮詢專業醫師的重要性。調整AI工具以適應特定醫療情境，可能會提升其臨床有效性。 PubMed DOI

Ability of ChatGPT to Replace Doctors in Patient Education: Cross-Sectional Comparative Analysis of Inflammatory Bowel Disease.
ChatGPT 在病人教育中取代醫生的能力：炎症性腸病的橫斷面比較分析。 J Med Internet Res 2025-03-31

這項研究評估了ChatGPT在提供慢性疾病患者教育方面的表現，特別針對炎症性腸病（IBD），並與專科醫生的回應進行比較。結果顯示，ChatGPT的整體品質評分與專科醫生相似，且在信息完整性上有明顯優勢。雖然準確性無顯著差異，但在患者和醫生共同回應時，ChatGPT表現較差。研究建議在健康信息創建和評估中，應納入患者的參與，以提升質量和相關性。 PubMed DOI

原始文章

站上相關主題文章列表