The performance of OpenAI ChatGPT-4 and Google Gemini in virology multiple-choice questions: a comparative analysis of English and Arabic responses.
OpenAI ChatGPT-4 與 Google Gemini 在病毒學多選題的表現:英語與阿拉伯語回應的比較分析。
BMC Res Notes 2024-09-03
Assessing dimensions of thought disorder with large language models: The tradeoff of accuracy and consistency.
使用大型語言模型評估思維障礙的維度:準確性與一致性的權衡。
Psychiatry Res 2024-09-03
Enhancing Precision in Detecting Severe Immune-Related Adverse Events: Comparative Analysis of Large Language Models and International Classification of Disease Codes in Patient Records.
提升檢測嚴重免疫相關不良事件的精確性:大型語言模型與國際疾病分類代碼在病歷中的比較分析。
J Clin Oncol 2024-09-03
Exploring the role of Large Language Models in haematology: A focused review of applications, benefits and limitations.
探討大型語言模型在血液學中的角色:應用、優勢與限制的專題回顧。
Br J Haematol 2024-09-03
這項研究探討大型語言模型(LLMs),如ChatGPT,如何應用於血液學實務,並指出其優缺點。透過系統性回顧2022年12月後的研究,分析了10項來自PubMed、Web of Science和Scopus的研究,並使用QUADAS-2工具評估偏差。結果顯示,LLMs在血紅蛋白病的診斷準確率可達76%,顯示其在診斷和教育上的潛力。然而,表現不一致引發對其可靠性的擔憂,且研究範圍和數據集的限制可能影響結果的普遍性。因此,LLMs在臨床應用中仍需進一步測試和監測,以確保準確性和適應性。
相關文章PubMedDOI
Conceptual review of outcome metrics and measures used in clinical evaluation of artificial intelligence in radiology.
人工智慧在放射學臨床評估中使用的結果指標和測量的概念性回顧。
Radiol Med 2024-09-03
Performance of GPT-4 with Vision on Text- and Image-based ACR Diagnostic Radiology In-Training Examination Questions.
GPT-4 with Vision 在基於文本和圖像的 ACR 診斷放射學訓練考試問題中的表現。
Radiology 2024-09-03
Reviewer Experience Detecting and Judging Human Versus Artificial Intelligence Content: The <i>Stroke</i> Journal Essay Contest.
人類與人工智慧內容的檢測與評估經驗:<i>Stroke</i> 期刊論文比賽。
Stroke 2024-09-03
The doc versus the bot: A pilot study to assess the quality and accuracy of physician and chatbot responses to clinical questions in gynecologic oncology.
醫生與聊天機器人:一項評估醫生與聊天機器人對婦科腫瘤學臨床問題的回答質量與準確性的初步研究。
Gynecol Oncol Rep 2024-09-03