Evaluating the performance of large language models: ChatGPT and Google Bard in generating differential diagnoses in clinicopathological conferences of neurodegenerative disorders.
評估大型語言模型 ChatGPT 和 Google Bard 在生成神經退行性疾病臨床病理會議的不同診斷方面的表現。 Brain Pathol 2023-08-08

這項研究探討了大型語言模型（LLMs）如ChatGPT和Google Bard在從臨床摘要中預測神經病理診斷方面的應用。這些LLMs在某些案例中準確識別了主要診斷並提供了其預測的理由。研究結果表明，像ChatGPT這樣的人工智慧工具可能有助於增強神經病理學的臨床病理會議中的討論。 PubMed DOI

Assessment of a large language model's utility in helping pathology professionals answer general knowledge pathology questions.
評估大型語言模型在幫助病理專業人員回答一般病理知識問題方面的效用。 Am J Clin Pathol 2024-01-05

研究指出，ChatGPT 4.0協助病理學家和實驗室主任回答問題時，準確性高、完整性佳，還能節省時間。專家評分結果顯示，大部分回答不需額外工作。這個工具被視為安全且省時，特別適合回答醫療提供者的問題。在各病理學領域中表現一致，ChatGPT 4.0可能成為病理學家重要的資源。 PubMed DOI

Performance of Large Language Models (ChatGPT, Bing Search, and Google Bard) in Solving Case Vignettes in Physiology.
大型語言模型（ChatGPT、Bing 搜尋和 Google Bard）在解決生理學案例描寫中的表現。 Cureus 2023-09-07

研究比較了三個大型語言模型（LLMs）- ChatGPT、Google Bard和Microsoft Bing- 在回答生理學案例簡介時的表現。結果發現ChatGPT表現最優，Bard和Bing次之。ChatGPT在回答案例時表現較佳，顯示其在生理學教育有潛力。未來可進一步探討LLMs在醫學教育和臨床決策支援上的應用價值。 PubMed DOI

Large Language Models in Hematology Case Solving: A Comparative Study of ChatGPT-3.5, Google Bard, and Microsoft Bing.
血液學案例解決中的大型語言模型：ChatGPT-3.5、Google Bard和Microsoft Bing的比較研究。 Cureus 2023-09-23

研究比較了ChatGPT-3.5、Google Bard和Microsoft Bing在回答血液學問題的表現，結果發現ChatGPT表現最好，Google Bard和Microsoft Bing次之。雖然ChatGPT在醫學領域有潛力，但仍需要更多研究和改進。這些模型無法完全正確回答所有問題，但或許對醫療保健和醫學教育有所助益。 PubMed DOI

Performance of large language models at the MRCS Part A: a tool for medical education?
大型語言模型在 MRCS Part A 考試的表現：醫學教育的工具？ Ann R Coll Surg Engl 2023-12-01

研究比較了ChatGPT和Bard兩個大型語言模型在MRCS Part A考試300題上的表現。結果顯示ChatGPT比Bard表現更優秀，回答更有深度。兩者一致性高，對醫學教育和評估有潛力。雖然LLMs能有效取得臨床知識，但需留意資訊可能不準確或過時。ChatGPT在考試中表現準確，在醫療領域有重要價值需受到監督。 PubMed DOI

Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 medRxiv 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值，但專家驗證仍然至關重要，以避免不準確或資訊不完整的情況。 PubMed DOI

Comparative analysis of ChatGPT and Bard in answering pathology examination questions requiring image interpretation.
ChatGPT 和 Bard 在回答需要圖像解釋的病理學考試問題方面的比較分析。 Am J Clin Pathol 2024-04-15

研究比較了ChatGPT和Bard在回答病理學問題和影像解讀的表現。結果顯示，在臨床情境下，ChatGPT-4的表現優異，準確率達100%，比Bard更優。然而，在無上下文情況下，ChatGPT-4的表現也不盡理想，準確率為52.3%，Bard為38.4%。總體而言，ChatGPT-4在系統病理學和基礎問題上持續優於Bard。研究強調了臨床背景對於準確解讀的重要性，提醒整合人工智慧時需謹慎。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

Performance of Language Models on the Family Medicine In-Training Exam.
家庭醫學在職考試中語言模型的表現。 Fam Med 2024-08-29

這項研究評估了三個大型語言模型（LLMs）在家庭醫學住院醫師訓練考試中的表現，使用了2022年的193道選擇題。結果顯示，ChatGPT 4.0 獲得167分（86.5%），標準化分數730，顯示出100%通過專科考試的機會。相比之下，ChatGPT 3.5 和 Google Bard 的得分較低，分別為66.3%和64.2%。只有ChatGPT 4.0 超過了住院醫師第三年的國家平均分68.4%。研究結果顯示，ChatGPT 4.0 可能是提供醫學概念解釋的有用工具。 PubMed DOI

Using large language models (ChatGPT, Copilot, PaLM, Bard, and Gemini) in Gross Anatomy course: Comparative analysis.
在大體解剖課程中使用大型語言模型（ChatGPT、Copilot、PaLM、Bard 和 Gemini）：比較分析。 Clin Anat 2024-11-22

這項研究評估了六個生成式人工智慧大型語言模型（LLMs）在回答醫學多選題和生成解剖學臨床情境的準確性。測試的模型包括ChatGPT-4、ChatGPT-3.5-turbo、ChatGPT-3.5、Copilot、Google PaLM 2、Bard和Gemini。結果顯示，ChatGPT-4的準確率最高，達60.5%，其次是Copilot（42.0%）和ChatGPT-3.5（41.0%）。雖然這些模型尚未能完全取代解剖學教育者，但它們在醫學教育中仍具備實用價值。 PubMed DOI

原始文章

站上相關主題文章列表