Colorectal Cancer Prevention: Is Chat Generative Pretrained Transformer (Chat GPT) ready to Assist Physicians in Determining Appropriate Screening and Surveillance Recommendations?
結直腸癌預防：Chat Generative Pretrained Transformer (Chat GPT) 是否已準備好協助醫師確定適當的篩檢和監測建議？ J Clin Gastroenterol 2024-02-06

研究評估了ChatGPT 3.5語言模型在大腸癌篩檢上的效用，結果顯示其準確率僅45%，且在不同情境下回答不一致。與醫師使用手機應用程式相比，模型表現顯著較差。研究建議需改進語言模型才能在臨床上更可靠。 PubMed DOI

Exploring the landscape of AI-assisted decision-making in head and neck cancer treatment: a comparative analysis of NCCN guidelines and ChatGPT responses.
探索AI輔助決策在頭頸癌治療中的應用：NCCN指南與ChatGPT回應的比較分析。 Eur Arch Otorhinolaryngol 2024-04-02

最新的自然語言處理和機器學習技術，像是ChatGPT，可能會在醫療保健領域帶來革新。ChatGPT是OpenAI在2022年11月推出的，引起全球矚目。研究顯示，ChatGPT在根據NCCN指南為頭頸癌提供治療建議方面表現出潛力，雖然仍有一些不準確之處。AI模型與醫學專家的合作至關重要，才能運用AI進行個人化的癌症護理。 PubMed DOI

From Bytes to Best Practices: Tracing ChatGPT-3.5's Evolution and Alignment With the National Comprehensive Cancer Network® Guidelines in Pancreatic Adenocarcinoma Management.
從位元組到最佳實踐：追蹤 ChatGPT-3.5 的演進，並與國家綜合癌症網絡指南在胰腺腺癌管理中的一致性。 Am Surg 2024-04-26

研究使用ChatGPT-3.5協助胰腺癌臨床決策，根據NCCN指南提出問題。比較結果顯示品質提升，但仍有限制。需進一步研究驗證其在臨床上的效用。 PubMed DOI

Large language models' responses to liver cancer surveillance, diagnosis, and management questions: accuracy, reliability, readability.
大型語言模型對於肝癌監測、診斷和管理問題的回應：準確性、可靠性、可讀性。 Abdom Radiol (NY) 2024-08-01

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題，並由六位專業醫師評估其準確性和可讀性。結果顯示，ChatGPT 準確回答 9 題（45%），Gemini 12 題（60%），Bing 6 題（30%）。但在準確性和可靠性方面，ChatGPT 只有 6 題（30%）同時符合，Gemini 8 題（40%），Bing 3 題（15%）。可讀性方面，ChatGPT 得分最低（29），顯示其可讀性差。研究指出，這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

Accuracy and consistency of publicly available Large Language Models as clinical decision support tools for the management of colon cancer.
公開可用的大型語言模型在結腸癌管理中的準確性和一致性作為臨床決策支持工具。 J Surg Oncol 2024-08-19

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示，兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊，24% 不準確；Copilot 則有 37% 缺少資訊，28% 不準確。兩者表現差異不顯著。此外，臨床醫師的回應明顯較短，平均 34 字，而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出，雖然 LLM 可協助臨床決策，但仍需優化以確保準確性。 PubMed DOI

Exploring the role of artificial intelligence, large language models: Comparing patient-focused information and clinical decision support capabilities to the gynecologic oncology guidelines.
探索人工智慧與大型語言模型的角色：比較以病人為中心的信息與臨床決策支持能力對婦科腫瘤學指導方針的影響。 Int J Gynaecol Obstet 2024-08-20

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示，這兩個模型對於一些常見問題的回答大多準確，如子宮頸癌篩檢和 BRCA 相關問題。然而，面對更複雜的案例時，它們的表現較差，常缺乏對地區指導方針的了解。儘管如此，這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出，LLMs 雖無法取代專業醫療建議，但可作為輔助工具，提供資訊和支持。 PubMed DOI

Assessing the role of advanced artificial intelligence as a tool in multidisciplinary tumor board decision-making for recurrent/metastatic head and neck cancer cases - the first study on ChatGPT 4o and a comparison to ChatGPT 4.0.
評估先進人工智慧在多學科腫瘤委員會決策中對於復發/轉移性頭頸癌病例的角色 - 首次針對 ChatGPT 4.0 的研究及與 ChatGPT 4.0 的比較。 Front Oncol 2024-09-20

這項研究評估了兩個版本的 ChatGPT—4o 和 4.0—在提供復發性和轉移性頭頸部鱗狀細胞癌 (HNSCC) 治療建議的表現。結果顯示，兩者主要提供手術、緩和醫療或系統性治療的一般建議。ChatGPT 4o 的反應速度比 4.0 快 48.5%。雖然兩者在臨床建議的質量上表現良好，但仍需經驗豐富的醫師進行驗證，因為有時會建議不符合當前指導方針的選項。因此，這些 AI 模型可作為輔助工具，但不應取代臨床判斷。 PubMed DOI

Assessment of Large Language Models (LLMs) in decision-making support for gynecologic oncology.
大型語言模型 (LLMs) 在婦科腫瘤學決策支持中的評估。 Comput Struct Biotechnol J 2024-11-29

這項研究評估了大型語言模型（LLMs）在複雜婦科癌症案例中的表現，主要針對三個模型：ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例，六位專家根據多項指標評估模型的回應。結果顯示，Gemini Advanced的準確率最高，達81.87%，而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好，但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出，這些模型在婦科腫瘤學的臨床應用中有潛力，但仍需進一步精煉和評估。 PubMed DOI

Assessing Large Language Models for Oncology Data Inference From Radiology Reports.
評估大型語言模型在放射學報告中對腫瘤學數據推斷的能力。 JCO Clin Cancer Inform 2024-12-11

這項研究評估了專有與開放的大型語言模型（LLMs）在分析胰臟癌放射學報告的有效性，重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告，使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示，GPT-4在確定疾病狀態上準確率最高，達75.5%。開放模型在某些方面表現不如專有模型，但仍具潛力，特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

Using Large Language Models in the Diagnosis of Acute Cholecystitis: Assessing Accuracy and Guidelines Compliance.
使用大型語言模型於急性膽囊炎診斷中的應用：評估準確性及指導方針遵循情況。 Am Surg 2025-03-12

這項研究評估了幾個大型語言模型（LLMs）在回答急性膽囊炎相關臨床問題的準確性，依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview，針對十個問題進行評分。結果顯示，ChatGPT4.0對90%的問題提供一致回答，其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好，但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力，但也需認識其局限性，透過持續改進可增強醫師教育及病患資訊，助於臨床決策。 PubMed DOI

原始文章

站上相關主題文章列表