Assessing the Accuracy and Reliability of AI-Generated Medical Responses: An Evaluation of the Chat-GPT Model.
評估 AI 生成的醫學回應的準確性和可靠性：對 Chat-GPT 模型的評估。 Res Sq 2023-10-20

醫師評估了ChatGPT生成的醫學問題答案的準確性和完整性，發現準確性表現不錯，但完整性稍有不足。模型在各種難度問題中的表現有所差異，但整體表現仍然不錯。重新評估後，得分較低的問題有改善。雖然ChatGPT提供的資訊大多正確，但仍需進一步研究和模型開發，以確保在醫學領域的驗證。 PubMed DOI

Reliability of Medical Information Provided by ChatGPT: Assessment Against Clinical Guidelines and Patient Information Quality Instrument.
ChatGPT 提供的醫學資訊可靠性：根據臨床指引和患者資訊品質評估。 J Med Internet Res 2023-11-22

ChatGPT-4是新的AI聊天機器人，可以回答複雜問題，或許可應用在醫療保健領域。研究者使用EQIP工具評估了ChatGPT-4提供的5種HPB條件醫學資訊的可靠性，結果顯示與指南建議一致。ChatGPT-4的答案內部一致性與靜態網路資訊相當，顯示大型語言模型像ChatGPT可能成為未來查詢醫學資訊的標準。 PubMed DOI

Doctor Versus Artificial Intelligence: Patient and Physician Evaluation of Large Language Model Responses to Rheumatology Patient Questions in a Cross-Sectional Study.
醫生對抗人工智慧：患者和醫師評估大型語言模型回答風濕病學患者問題的交叉研究。 Arthritis Rheumatol 2024-02-29

研究比較了患者對風濕病問題的大型語言模型（LLM）聊天機器人和醫師回答的評價。結果顯示，患者認為兩者在詳細度和易讀性上沒有太大差異。但風濕病專家卻認為AI回答在詳細度、易讀性和準確性上比醫師回答差。患者和醫師對AI回答的喜好有所不同，患者更難分辨AI生成的答案。總結來說，患者對AI回答的看法與醫師相似，但風濕病專家則認為AI回答表現較差。 PubMed DOI

Accuracy of generative artificial intelligence models in differential diagnoses of familial Mediterranean fever and deficiency of Interleukin-1 receptor antagonist.
生成式人工智慧模型在鑑別診斷家族性地中海熱和白細胞介素-1受體拮抗劑缺乏症中的準確性。 J Transl Autoimmun 2023-11-07

大型語言模型（LLMs）在自然語言處理中廣泛運用，包括在醫學領域進行臨床推理。一項研究比較了不同LLMs在辨識自體炎症性疾病的準確性，結果顯示，GPT-4在某些疾病的辨識上與醫師相當，但在其他方面醫師表現較好。這研究顯示LLMs在診斷自體免疫性疾病上有潛力。 PubMed DOI

Artificial intelligence large language model ChatGPT: is it a trustworthy and reliable source of information for sarcoma patients?
ChatGPT人工智慧大型語言模型：對於肉瘤患者來說，它是一個值得信賴和可靠的資訊來源嗎？ Front Public Health 2024-04-08

AI ChatGPT自2022年11月問世後，在全球大受歡迎。它能提供關於疾病和治療的資訊，包括肉瘤。一項研究比較ChatGPT對肉瘤問題的回答與專家指南，發現回答的質量中位數得分為25分中的18.3分。研究指出，在尋求醫學資訊時要謹慎，尤其是對於罕見疾病如肉瘤。 PubMed DOI

Assessing GPT-4's Performance in Delivering Medical Advice: Comparative Analysis With Human Experts.
評估 GPT-4 在提供醫療建議方面的表現：與人類專家的比較分析。 JMIR Med Educ 2024-07-11

研究比較了OpenAI的GPT-4與人類專家在心臟病學建議的醫學準確性。結果發現，GPT-4和人類專家在醫學準確性上差不多，人類專家在高準確性回答上表現較好，但也有更多低準確性回答。GPT-4回答較長，用詞較少多樣，可能有助於一般人理解。然而，人類專家在藥物資訊和初步診斷等特定問題上表現更好，顯示GPT-4在臨床判斷上有限。雖然GPT-4在自動醫學諮詢有潛力，但需改進整合臨床推理，確保安全使用。進一步研究探索大型語言模型在醫學領域的潛力是必要的。 PubMed DOI

Comparative performance of artificial ıntelligence models in physical medicine and rehabilitation board-level questions.
人工智慧模型在物理醫學與復健專業考試問題中的比較表現。 Rev Assoc Med Bras (1992) 2024-07-24

這項研究評估了三個人工智慧模型—ChatGPT-3.5、ChatGPT-4 和 Google Bard—在物理醫學與復健考試題目的表現。使用美國物理醫學與復健委員會的 PMR100 題庫，結果顯示 ChatGPT-4 表現最佳，成功率達 74%，其次是 Google Bard 的 66% 和 ChatGPT-3.5 的 63.8%。Bard 在回答一致性方面表現良好，僅有 1% 的回答改變。研究強調了人工智慧在醫學教育和臨床應用中的潛力，並指出需對其回答進行仔細監督，以確保病人安全。 PubMed DOI

Comparison of the Usability and Reliability of Answers to Clinical Questions: AI-Generated ChatGPT versus a Human-Authored Resource.
臨床問題答案的可用性和可靠性比較：AI 生成的 ChatGPT 與人類撰寫的資源。 South Med J 2024-08-02

這項研究評估了ChatGPT對臨床問題的回答，與人類撰寫的網站Pearls4Peers.com進行比較，重點在可用性和可靠性。研究發現，ChatGPT的回答質量有顯著差異，約14%的回答被認為不實用，13%不準確。與人類來源相比，ChatGPT在可用性和可靠性方面的表現均不佳，超過30%的情況下表現不如人類。總體來看，這顯示在臨床決策中使用ChatGPT需謹慎。 PubMed DOI

Assessing the Quality and Reliability of AI-Generated Responses to Common Hypertension Queries.
評估 AI 生成的常見高血壓問題回答的質量和可靠性。 Cureus 2024-09-03

這篇文章探討了人工智慧語言模型，特別是ChatGPT和ChatSonic在醫療領域的應用，針對病人高血壓問題進行比較。研究使用全球質量評估標準和修訂版DISCERN量表，於2023年10月進行，持續一個月，向兩個AI模型提出十個高血壓相關問題，並由兩位內科醫師評估其回應。結果顯示回應質量和可靠性有差異，評估者之間共識程度低，強調在醫療環境中持續監控和驗證AI資訊的重要性。 PubMed DOI

Generative artificial intelligence in primary care: an online survey of UK general practitioners.
初級醫療中的生成式人工智慧：對英國全科醫生的在線調查。 BMJ Health Care Inform 2024-09-17

2022年11月推出的ChatGPT引起了對大型語言模型在臨床環境中應用的關注。最近一項針對英國全科醫生的調查顯示，20%的醫生已在臨床實踐中使用生成式人工智慧工具。使用者中，29%用於生成就診後文檔，28%用於建議鑑別診斷。儘管醫生認為這些工具在行政和臨床推理上有價值，但缺乏明確的指導和政策，醫療界面臨著教育專業人員和患者的挑戰。 PubMed DOI

原始文章

站上相關主題文章列表