A Comparative Analysis of AI Models in Complex Medical Decision-Making Scenarios: Evaluating ChatGPT, Claude AI, Bard, and Perplexity.
複雜醫學決策情境中 AI 模型的比較分析：評估 ChatGPT、Claude AI、Bard 和 Perplexity。 Cureus 2024-02-20

研究比較了四個AI語言模型，發現Claude AI在完整性和相關性表現最好，ChatGPT表現穩定，Google Bard則回應不清晰。這些結果對於提升醫學AI模型有啟發意義。 PubMed DOI

Evaluation of large language models in breast cancer clinical scenarios: a comparative analysis based on ChatGPT-3.5, ChatGPT-4.0, and Claude2.
大型語言模型在乳癌臨床情境中的評估：基於ChatGPT-3.5、ChatGPT-4.0和Claude2的比較分析。 Int J Surg 2024-04-26

研究比較三款大型語言模型在乳癌臨床上的表現，結果指出GPT-4.0在反饋質量、相關性和應用性方面表現最佳，勝過GPT-3.5和Claude2。GPT-4.0提供更詳盡的反饋，在各臨床領域表現優異，尤其在心理社會支持和治療決策方面。研究強調LLMs的潛力，特別是GPT-4.0，在乳癌臨床應用上的重要性，並呼籲在醫療環境中持續優化和評估準確性。 PubMed DOI

Clinical Accuracy, Relevance, Clarity, and Emotional Sensitivity of Large Language Models to Surgical Patient Questions: Cross-Sectional Study.
大型語言模型對外科患者問題的臨床準確性、相關性、清晰度和情感敏感度：橫斷面研究。 JMIR Form Res 2024-06-07

研究發現大型語言模型（LLMs）像Anthropic的Claude 2在手術前回應病人問題時表現優異，比起其他模型如OpenAI的ChatGPT和Google的Bard更準確、相關、清晰且情感敏感。這顯示LLMs可能有助於改善手術前病人溝通和教育。 PubMed DOI

The performance of large language model powered chatbots compared to oncology physicians on colorectal cancer queries.
大型語言模型驅動的聊天機器人在大腸直腸癌查詢上與腫瘤學醫師的表現比較。 Int J Surg 2024-06-27

研究比較了以大型語言模型為基礎的聊天機器人和腫瘤學醫師在處理大腸癌查詢時的表現。結果顯示，名為Claude 2.1的聊天機器人準確性最高，勝過住院醫師和住院醫生。Doctor GPT表現也不錯，超越了醫師和醫生。總括而言，這研究顯示，在這情況下，以大型語言模型為基礎的聊天機器人能提供比腫瘤學醫師更準確的醫療資訊。 PubMed DOI

A pilot feasibility study comparing large language models in extracting key information from ICU patient text records from an Irish population.
一項針對愛爾蘭人群 ICU 患者文本記錄中提取關鍵信息的大型語言模型比較的初步可行性研究。 Intensive Care Med Exp 2024-08-15

這項研究探討大型語言模型（LLMs）在生成重症監護病房（ICU）病人出院摘要的表現，分析了匿名臨床筆記。三個模型中，GPT-4 API的表現最佳，準確識別41.5%的關鍵臨床事件，ChatGPT和Llama 2則分別為19.2%和16.5%。雖然GPT-4在資訊組織和清晰度上表現優異，但仍有小錯誤，且所有模型在敘事連貫性和重要數據的捕捉上存在挑戰。總體來看，這些LLM在生成出院摘要上有潛力，但仍需改進。 PubMed DOI

Evaluating the Efficacy of Large Language Models in CPT Coding for Craniofacial Surgery: A Comparative Analysis.
評估大型語言模型在顱面外科 CPT 編碼中的效能：比較分析。 J Craniofac Surg 2024-09-02

這項研究分析了五種大型語言模型（LLMs）在識別顱面外科手術的CPT代碼的有效性，包括Perplexity.AI、Bard、BingAI、ChatGPT 3.5和ChatGPT 4.0。由於CPT編碼複雜且耗時，尤其在專業編碼人員短缺的情況下，研究旨在評估這些AI模型的效率和準確性。結果顯示，雖然整體準確性差異不大，但ChatGPT 4.0在複雜代碼上表現較佳，而Perplexity.AI和Bard在簡單代碼上更可靠。研究建議這些AI可減輕手動編碼負擔，並提升CPT編碼的資源效率，支持將其整合進臨床流程。 PubMed DOI

Large Language Models for Simplified Interventional Radiology Reports: A Comparative Analysis.
簡化介入放射學報告的大型語言模型：比較分析。 Acad Radiol 2024-10-01

這項研究評估了多種大型語言模型（LLMs）在簡化介入放射學（IR）報告的表現，重點在質性和量性指標。GPT-4和Claude-3-Opus在質性評估中表現最佳，錯誤率最低，特別是在內容和信任方面。量性評估顯示，GPT-4在可讀性指標上也優於其他模型。研究強調簡化IR報告對病人理解和臨床決策的重要性，並指出所有模型仍需改進以減少錯誤。 PubMed DOI

From open-ended to multiple-choice: evaluating diagnostic performance and consistency of ChatGPT, Google Gemini and Claude AI.
從開放式問題到選擇題：評估 ChatGPT、Google Gemini 和 Claude AI 的診斷表現與一致性。 Wiad Lek 2024-12-11

這項研究評估了四種大型語言模型（LLMs）在根據臨床案例診斷疾病的表現，包括ChatGPT 3.5、ChatGPT 4o、Google Gemini和Claude AI 3.5 Sonnet。研究分為兩個階段，第一階段僅使用案例描述，第二階段則加入答案選項。結果顯示，Claude AI 3.5 Sonnet和ChatGPT模型在診斷上表現良好，但Google Gemini的效能較低，需謹慎使用於臨床環境。所有模型在一致性方面表現優異。 PubMed DOI

Comparative Performance of the Leading Large Language Models in Answering Complex Rhinoplasty Consultation Questions.
大型語言模型在回答複雜鼻整形諮詢問題中的比較表現。 Facial Plast Surg Aesthet Med 2025-01-15

這項研究評估了四個大型語言模型（LLMs）在回答鼻整形手術諮詢問題的表現。結果顯示，Claude在七個問題中表現最佳，總分224分，ChatGPT緊隨其後，得200分。Meta和Gemini的表現較差，各得138分。整形外科醫生的評價顯示，Claude提供了最全面的答案，而ChatGPT的表現也優於Meta和Gemini。研究建議持續比較這些模型，因為它們仍在不斷進步。 PubMed DOI

Large language models vs human for classifying clinical documents.
大型語言模型與人類在臨床文件分類中的比較。 Int J Med Inform 2025-01-23

這項研究探討了使用先進的大型語言模型，如ChatGPT 3.5和ChatGPT 4，來提升醫療紀錄中ICD-10代碼的分類準確性，特別是針對現有方法識別為假陰性的紀錄。研究在MIMIC IV數據集的802份出院摘要上進行，結果顯示ChatGPT 4的匹配率為86%到89%，明顯優於ChatGPT 3.5的57%到67%。雖然經驗豐富的人類編碼員表現更佳，但ChatGPT 4的準確性已達到人類編碼員的中位數。這顯示將這類模型整合進臨床編碼中，能提升醫療文檔的準確性，特別在複雜案例中。 PubMed DOI

原始文章

站上相關主題文章列表