原始文章

這項研究評估了OpenAI的ChatGPT和Microsoft的Copilot在根據全國綜合癌症網絡針對胰腺導管腺癌指導方針生成回應的準確性。研究發現,ChatGPT的準確性較Copilot優越,完全正確的回應分別為52%和33%。此外,ChatGPT的回應也較為準確,評分為3.33對3.02。兩者的回應普遍冗長,平均字數分別為270字和32字。研究結論指出,雖然這些模型在臨床決策支持上有潛力,但仍需改進以確保準確性和簡潔性。 PubMed DOI


站上相關主題文章列表

研究評估了ChatGPT 3.5語言模型在大腸癌篩檢上的效用,結果顯示其準確率僅45%,且在不同情境下回答不一致。與醫師使用手機應用程式相比,模型表現顯著較差。研究建議需改進語言模型才能在臨床上更可靠。 PubMed DOI

最新的自然語言處理和機器學習技術,像是ChatGPT,可能會在醫療保健領域帶來革新。ChatGPT是OpenAI在2022年11月推出的,引起全球矚目。研究顯示,ChatGPT在根據NCCN指南為頭頸癌提供治療建議方面表現出潛力,雖然仍有一些不準確之處。AI模型與醫學專家的合作至關重要,才能運用AI進行個人化的癌症護理。 PubMed DOI

研究使用ChatGPT-3.5協助胰腺癌臨床決策,根據NCCN指南提出問題。比較結果顯示品質提升,但仍有限制。需進一步研究驗證其在臨床上的效用。 PubMed DOI

這項研究評估了三個大型語言模型—ChatGPT-3.5、Gemini 和 Bing—在肝細胞癌診斷與管理問題上的表現。每個模型回答了二十個問題,並由六位專業醫師評估其準確性和可讀性。結果顯示,ChatGPT 準確回答 9 題(45%),Gemini 12 題(60%),Bing 6 題(30%)。但在準確性和可靠性方面,ChatGPT 只有 6 題(30%)同時符合,Gemini 8 題(40%),Bing 3 題(15%)。可讀性方面,ChatGPT 得分最低(29),顯示其可讀性差。研究指出,這些模型的回答常常不準確、不可靠或難以閱讀。 PubMed DOI

這項研究評估了 OpenAI 的 ChatGPT 和 Microsoft 的 Copilot 兩個大型語言模型在結腸癌管理建議上的準確性。結果顯示,兩者在 36% 的情境中提供正確回應。ChatGPT 有 39% 的回應缺乏資訊,24% 不準確;Copilot 則有 37% 缺少資訊,28% 不準確。兩者表現差異不顯著。此外,臨床醫師的回應明顯較短,平均 34 字,而 ChatGPT 和 Copilot 分別為 251 和 271 字。研究指出,雖然 LLM 可協助臨床決策,但仍需優化以確保準確性。 PubMed DOI

這項研究評估了 ChatGPT 和 Google Bard 兩個大型語言模型在婦科癌症管理問題上的表現。結果顯示,這兩個模型對於一些常見問題的回答大多準確,如子宮頸癌篩檢和 BRCA 相關問題。然而,面對更複雜的案例時,它們的表現較差,常缺乏對地區指導方針的了解。儘管如此,這些模型仍能提供病人和照護者在管理和後續步驟上的實用建議。結論指出,LLMs 雖無法取代專業醫療建議,但可作為輔助工具,提供資訊和支持。 PubMed DOI

這項研究評估了兩個版本的 ChatGPT—4o 和 4.0—在提供復發性和轉移性頭頸部鱗狀細胞癌 (HNSCC) 治療建議的表現。結果顯示,兩者主要提供手術、緩和醫療或系統性治療的一般建議。ChatGPT 4o 的反應速度比 4.0 快 48.5%。雖然兩者在臨床建議的質量上表現良好,但仍需經驗豐富的醫師進行驗證,因為有時會建議不符合當前指導方針的選項。因此,這些 AI 模型可作為輔助工具,但不應取代臨床判斷。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜婦科癌症案例中的表現,主要針對三個模型:ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例,六位專家根據多項指標評估模型的回應。結果顯示,Gemini Advanced的準確率最高,達81.87%,而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好,但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出,這些模型在婦科腫瘤學的臨床應用中有潛力,但仍需進一步精煉和評估。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI