Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 medRxiv 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤相關問題的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、提供資訊和易讀性方面都比Google Bard好。雖然語言模型在醫療保健領域有應用價值，但專家驗證仍然至關重要，以避免不準確或資訊不完整的情況。 PubMed DOI

Comparison of Large Language Models in Answering Immuno-Oncology Questions: A Cross-Sectional Study.
大型語言模型在回答免疫腫瘤學問題中的比較：一項橫斷面研究。 Oncologist 2024-02-12

研究比較了ChatGPT-4、ChatGPT-3.5和Google Bard在回答免疫腫瘤學問題時的表現。結果顯示，ChatGPT-4和ChatGPT-3.5在回答問題、可重現性、準確性、相關性和可讀性方面都比Google Bard好。雖然ChatGPT模型在免疫腫瘤學領域有潛力，但專家驗證仍然至關重要，以避免不準確或不完整的情況。 PubMed DOI

Performance of artificial intelligence in bariatric surgery: comparative analysis of ChatGPT-4, Bing, and Bard in the American Society for Metabolic and Bariatric Surgery textbook of bariatric surgery questions.
人工智慧在肥胖手術中的表現：對美國新陳代謝暨肥胖外科學會肥胖手術教科書中的 ChatGPT-4、Bing 和 Bard 進行比較分析。 Surg Obes Relat Dis 2024-05-23

ASMBS教科書是肥胖手術的寶貴資源，對外科教育有很大幫助。研究發現，ChatGPT-4在回答肥胖手術相關問題時表現最準確，尤其在治療和併發症方面優於Bard和Bing。未來應該深入探討ChatGPT-4等人工智慧模型在外科培訓和教育中的應用價值。 PubMed DOI

A comparative analysis of ChatGPT, ChatGPT-4 and Google Bard performances at the Advanced Burn Life Support Exam.
ChatGPT、ChatGPT-4和Google Bard在高級燒傷救命支援考試表現的比較分析。 J Burn Care Res 2024-06-04

人工智慧和大型語言模型（LLMs）在醫療保健領域有應用，像是進階燒傷急救（ABLS）計畫。研究比較了三種LLMs（ChatGPT-3.5、ChatGPT-4、Google Bard）在ABLS考試中的表現，結果顯示ChatGPT-4表現最好，得分90%，比Bard好很多。LLMs在急診護理中有潛力，但應該輔助人類判斷。 PubMed DOI

Large language models' responses to liver cancer surveillance, diagnosis, and management questions: accuracy, reliability, readability.
大型語言模型對於肝癌監測、診斷和管理問題的回應：準確性、可靠性、可讀性。 Abdom Radiol (NY) 2024-08-01

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題，並由六位專業醫師評估其準確性和可讀性。結果顯示，ChatGPT 準確回答 9 題（45%），Gemini 12 題（60%），Bing 6 題（30%）。但在準確性和可靠性方面，ChatGPT 只有 6 題（30%）同時符合，Gemini 8 題（40%），Bing 3 題（15%）。可讀性方面，ChatGPT 得分最低（29），顯示其可讀性差。研究指出，這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

Evaluation of four chatbots in autoimmune liver disease: A comparative analysis.
自體免疫肝病中四個聊天機器人的評估：比較分析。 Ann Hepatol 2024-08-15

自體免疫性肝病（AILDs）較為罕見，醫療提供者需仔細評估。研究探討了四款聊天機器人（ChatGPT 3.5、Claude、Microsoft Copilot 和 Google Bard）在臨床決策支持中的潛力。十位肝臟專家針對56個問題進行評估，結果顯示Claude得分最高（7.37），ChatGPT次之（7.17）。研究發現這些機器人常提供一般性資訊、劑量資訊不足，且對孕婦的建議不準確。雖然聊天機器人有潛力，但仍需改善資訊的具體性與準確性，以提升其在自體免疫性肝病管理中的有效性。 PubMed DOI

Evaluating Artificial Intelligence-Driven Responses to Acute Liver Failure Queries: A Comparative Analysis Across Accuracy, Clarity, and Relevance.
評估人工智慧驅動的急性肝衰竭問題回應：準確性、清晰度和相關性的比較分析。 Am J Gastroenterol 2024-12-17

最近的研究顯示，透過大型語言模型（LLMs）在急性肝衰竭（ALF）問題上的表現，特別是使用增強檢索生成（RAG）技術的ChatGPT 4，顯示出顯著的優勢。研究中評估了五個模型，結果發現使用RAG的ChatGPT 4在準確性、清晰度和相關性上均表現最佳，得分分別為4.70、4.89和4.78。相比之下，其他模型如CLAUDE、BARD和COPILOT的表現較差。這強調了AI模型在醫療領域的潛力，但也指出其需持續進化以符合實際需求。 PubMed DOI

Exploring the performance of large language models on hepatitis B infection-related questions: A comparative study.
探討大型語言模型在與肝炎 B 感染相關問題上的表現：一項比較研究。 World J Gastroenterol 2025-01-22

這項研究評估了三個大型語言模型（LLMs）—ChatGPT-3.5、ChatGPT-4.0 和 Google Gemini 在回答乙型肝炎病毒（HBV）相關問題的表現。醫療專業人員對其準確性進行評分，並評估可讀性。主要發現包括： - 所有 LLM 在主觀問題上得分高，ChatGPT-4.0 準確性最高。 - 在客觀問題上，ChatGPT-4.0 準確率為 80.8%，優於其他兩者。 - ChatGPT-4.0 在診斷上表現佳，Google Gemini 在臨床表現強勁。 - 所有 LLM 的可讀性分數高於標準八級，對一般讀者來說可能過於複雜。結果顯示，LLMs，特別是 ChatGPT-4.0，可能成為有關 HBV 的資訊工具，但不應取代醫生的個人化建議。 PubMed DOI

The reliability of freely accessible, baseline, general-purpose large language model generated patient information for frequently asked questions on liver disease: a preliminary cross-sectional study.
自由可獲得的基線通用大型語言模型生成的肝病常見問題患者資訊的可靠性：一項初步橫斷面研究。 Expert Rev Gastroenterol Hepatol 2025-02-22

這項研究評估了大型語言模型（LLMs），如ChatGPT-3.5和Gemini，提供肝病病人資訊的有效性，並與兩位腸胃科醫生的回應進行比較。重點在於準確性、完整性及對20個常見問題的回答質量。結果顯示，LLM生成的回應與專家回應之間沒有顯著差異，兩組的平均分數都很高，顯示LLMs能提供可靠的肝病資訊。整體而言，研究結果顯示免費的LLMs有潛力成為病人資訊的重要資源。 PubMed DOI

A comparative analysis of large language models on clinical questions for autoimmune diseases.
自體免疫疾病臨床問題的大型語言模型比較分析。 Front Digit Health 2025-03-18

這項研究評估了大型語言模型（LLMs），如ChatGPT 3.5、ChatGPT 4.0和Gemini，對自體免疫疾病臨床問題的回答效果。共提出46個問題，並由專家根據五個質量維度進行評估。結果顯示，ChatGPT 4.0在所有維度上表現優於其他兩者，平均得分為199.8，顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言，ChatGPT 4.0在提供準確且有用的醫療資訊上，顯示出更高的效能，顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

原始文章

站上相關主題文章列表