原始文章

本研究探討大型語言模型(LLMs)在膀胱癌管理中的表現。研究設計了100個臨床問題,評估六種LLMs的回應準確性。結果顯示,Claude-3.5-Sonnet以89.33%準確率最佳,ChatGPT-4為85.67%。GPT-3.5-Turbo經過兩階段訓練後,準確率從74.33%提升至100%。研究顯示,針對性訓練能顯著改善模型表現,並指出策略性改進可克服專業醫學應用中的限制。 PubMed DOI


站上相關主題文章列表

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在提供前列腺癌放射治療病人教育的有效性,並納入臨床醫生和病人的反饋。研究中針對六個常見問題,評估了ChatGPT-4、Gemini、Copilot和Claude的回答。結果顯示,雖然所有模型的回答被認為相關且正確,但可讀性較差。病人對ChatGPT-4的評價較高,認為其回答易懂且有信心。整體而言,LLMs在病人教育上有潛力,但準確性和可讀性仍需改進,未來需進一步研究以提升其效益。 PubMed DOI

多學科團隊(MDTs)在癌症護理中非常重要,但需要專家投入大量時間,導致醫療成本上升。最近大型語言模型(LLMs)的進展,可能提升臨床決策的效率,並降低MDT的相關成本。 一項針對171名新診斷前列腺癌患者的研究比較了兩個LLMs(chatGPT-4和Claude-3-Opus)與MDT會議的建議。結果顯示,LLMs的遵循率高達93%。不一致的情況主要因為臨床資訊不足。研究顯示,LLMs能生成準確的治療建議,未來有潛力簡化MDT流程,讓專家專注於更複雜的案例,並降低醫療成本。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

這項研究評估了大型語言模型(LLMs),如ChatGPT 3.5、ChatGPT 4.0和Gemini,對自體免疫疾病臨床問題的回答效果。共提出46個問題,並由專家根據五個質量維度進行評估。結果顯示,ChatGPT 4.0在所有維度上表現優於其他兩者,平均得分為199.8,顯示其在相關性、正確性、完整性、有用性和安全性方面的顯著優勢。整體而言,ChatGPT 4.0在提供準確且有用的醫療資訊上,顯示出更高的效能,顯示大型語言模型在醫療服務中的潛力。 PubMed DOI

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像,結果顯示整體診斷準確率為89.2%。其中,ChatGPT-4 V的準確率為82.8%,Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤,ChatGPT-4 V達92.2%;膀胱炎檢測則高達94.5%。然而,對良性前列腺增生的準確率較低,分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具,但需進一步提升其診斷準確性。 PubMed DOI

這項研究比較三款大型語言模型與資淺、資深醫師在回答自體免疫疾病臨床問題的表現。結果發現,特別是Claude 3.5 Sonnet,在正確性和完整性等方面都勝過醫師,顯示AI有潛力協助臨床照護。 PubMed DOI

這項研究比較五款主流大型語言模型解讀胸部CT報告的能力,發現GPT-4表現最佳,尤其在選擇題上最準確。微調後的GPT-3.5-Turbo也有明顯進步。整體來說,選擇題比開放式問答更容易答對。不同疾病和器官系統的結果有差異。結果顯示,優化後的AI模型有助於提升胸部CT解讀,對外科手術規劃很有幫助。 PubMed DOI