ChatGPT goes to the operating room: evaluating GPT-4 performance and its potential in surgical education and training in the era of large language models.
ChatGPT進入手術室：評估GPT-4的表現及其在大型語言模型時代在外科教育和培訓中的潛力。 Ann Surg Treat Res 2023-05-16

研究比較了ChatGPT的GPT-3.5和GPT-4模型在解答韓國外科醫師考試問題時的表現，結果顯示GPT-4準確率高達76.4%，明顯勝過GPT-3.5的46.8%。GPT-4在各專業領域都表現穩定，但仍需搭配人類專業知識和判斷力。 PubMed DOI

Appropriateness and Readability of ChatGPT-4-Generated Responses for Surgical Treatment of Retinal Diseases.
ChatGPT-4生成的回應在視網膜疾病手術治療中的適用性和可讀性。 Ophthalmol Retina 2023-10-18

研究發現ChatGPT-4提供的玻璃體視網膜手術資訊準確但難懂，建議不完全依賴AI。需加強專業領域資訊的可信度與易讀性，並了解AI在健康建議上的限制。 PubMed DOI

Evaluating capabilities of large language models: Performance of GPT-4 on surgical knowledge assessments.
評估大型語言模型的能力：GPT-4 在外科知識評估中的表現。 Surgery 2024-03-20

人工智慧如ChatGPT在醫療方面有潛力，尤其在診斷和治療上。研究顯示，在外科知識問題上，ChatGPT的表現接近或超越人類水準，尤其在多重選擇問題上更優秀，提供獨到見解。然而，有時答案可能不正確，且回應可能不一致。儘管表現令人驚豔，但仍需進一步研究以確保在臨床上的安全使用。 PubMed DOI

Performance of a Large Language Model in the Generation of Clinical Guidelines for Antibiotic Prophylaxis in Spine Surgery.
大型語言模型在脊柱手術抗生素預防指引生成中的表現。 Neurospine 2024-04-05

研究評估了ChatGPT模型在脊椎手術抗生素使用方面的應用，發現GPT-4.0比GPT-3.5更準確，並更頻繁引用指引。儘管ChatGPT能提供準確答案，但仍需謹慎應用於臨床。 PubMed DOI

AI Versus MD: Evaluating the surgical decision-making accuracy of ChatGPT-4.
AI 對抗醫生：評估 ChatGPT-4 在手術決策準確性。 Surgery 2024-05-20

研究發現ChatGPT-4在外科決策方面表現優於初級醫師，與高年級醫師相當。ChatGPT-4平均得分為79.2%，初級醫師66.8%，高年級醫師76.0%，主治醫師77.6%。特別在手術和檢查方面表現出色，可作為教育工具幫助初級醫師學習外科決策。 PubMed DOI

Assessing Generative Pretrained Transformers (GPT) in Clinical Decision-Making: Comparative Analysis of GPT-3.5 and GPT-4.
評估生成式預訓練轉換器(GPT)在臨床決策中的應用：GPT-3.5與GPT-4的比較分析。 J Med Internet Res 2024-06-27

研究比較了ChatGPT-3.5和ChatGPT-4在醫療決策中的表現，結果顯示GPT-4優於GPT-3.5。資深醫師給予較高評分，尤其在倫理問題上。AI有助於醫師，但不應取代人類專業知識，需進一步研究整合到臨床環境中的方法。 PubMed DOI

Evaluation of the prediagnosis and management of ChatGPT-4.0 in clinical cases in cardiology.
心臟病學中 ChatGPT-4.0 的預診斷與管理評估。 Future Cardiol 2024-07-25

本研究評估ChatGPT-4.0在心臟病臨床案例的預診斷與治療計畫中的表現，並由專家醫師進行評估。研究使用20個案例，結果顯示ChatGPT-4.0在鑑別診斷上的一致性得分中位數為5.00，管理計畫得分中位數為4，顯示其準確性與質量良好。整體而言，ChatGPT-4.0在不同難度的案例中表現穩定，顯示其在心臟病領域作為臨床決策支持工具的潛力。 PubMed DOI

Assessing Accuracy of ChatGPT on Addressing Helicobacter pylori Infection-Related Questions: A National Survey and Comparative Study.
評估 ChatGPT 在解答與 Helicobacter pylori 感染相關問題的準確性：一項全國性調查與比較研究。 Helicobacter 2024-07-31

這項研究評估了ChatGPT在回答幽門螺旋桿菌感染問題的準確性，並與腸胃科醫生進行比較。研究選取了25個問題，測試了ChatGPT3.5和ChatGPT4，結果顯示兩者準確率均高達92%，超過腸胃科醫生的80%。ChatGPT4的回答更簡潔，且在診斷和胃癌預防方面表現優於ChatGPT3.5。整體來看，ChatGPT在H. pylori相關問題上展現高準確性，對患者和醫生皆具價值。 PubMed DOI

Clinical artificial intelligence: teaching a large language model to generate recommendations that align with guidelines for the surgical management of GERD.
臨床人工智慧：教導大型語言模型生成符合GERD手術管理指導方針的建議。 Surg Endosc 2024-08-12

這項研究比較了通用的 ChatGPT-4 模型與客製化的手術胃食道逆流病工具 (GTS) 在提供胃食道逆流病手術建議的表現。結果顯示，GTS 在外科醫生和病人的詢問中準確率達到 100%，而通用模型對外科醫生的準確率僅為 66.7%，對病人則為 47.5%。GTS 的建議基於證據，符合 2021 年的指導方針，顯示客製化大型語言模型在臨床指導中的潛力。未來需進一步研究其在實際臨床環境中的有效性。 PubMed DOI

ChatGPT v4 outperforming v3.5 on cancer treatment recommendations in quality, clinical guideline, and expert opinion concordance.
ChatGPT v4 在癌症治療建議的質量、臨床指導和專家意見一致性方面超越 v3.5。 Digit Health 2024-08-16

在2023年10月進行的研究中，評估了ChatGPT-4與ChatGPT-3.5在癌症治療建議的質量，特別針對前列腺癌、腎臟癌和膀胱癌。結果顯示，ChatGPT-4在提供更詳細和準確的建議方面表現優於3.5，建議批准率和與NCCN指導方針的一致性也更高。雖然ChatGPT-4的表現顯著改善，但研究強調AI工具不應取代專業醫療建議，使用時需謹慎。 PubMed DOI

原始文章

站上相關主題文章列表