原始文章

這項研究發現,DeepSeek 在用中文回答前列腺癌放射治療問題時,表現明顯優於 ChatGPT,尤其在基礎知識和治療照護方面更突出;但用英文時,兩者差異不大。這顯示選擇語言優化的 AI 模型很重要,但專家審查仍不可或缺。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩個大型語言模型(LLMs),ERNIE Bot 和 ChatGPT,在回答肝癌介入放射學問題的有效性,特別是針對經動脈化療栓塞(TACE)和肝動脈灌注化療(HAIC)。共設計38個問題,由10位專業人士評估兩者的回答。結果顯示,ERNIE Bot 在中文環境中表現較佳,而 ChatGPT 在英文環境中更優。研究強調根據語言選擇合適的 LLM 以提供準確的治療資訊,但也指出兩者都需人工審查以確保資訊可靠性。 PubMed DOI

這項研究發現,GPT-4在回答放射治療常見問題時,比GPT-3.5表現更好,但兩者的回答對一般人來說還是太難懂,也有可能出現錯誤資訊。建議在正式用於病人前,還需要加強內容的易讀性和正確性。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究發現,中國的生成式AI模型 Qwen-2.5 在回答眼科問題時,不論用英文還是阿拉伯文,表現都比 DeepSeek-R1 和 ChatGPT-40 更好。所有AI都展現出不錯的多語言能力,顛覆了AI只偏好英文的看法。中國AI在醫療諮詢領域已經能和 ChatGPT-40 一較高下,甚至更勝一籌。 PubMed DOI

這項研究比較四種大型語言模型在回答心血管疾病預防問題時的表現。結果發現,ChatGPT-4.0 英文答題最準確且自我覺察,中文則是 ERNIE 表現較好。不過,所有模型在中文表現都稍差,顯示有語言偏差。這提醒我們,AI 醫療建議在不同語言下還需要持續檢驗。 PubMed DOI

這項研究發現,ChatGPT-4 和 4o 在回答肌肉骨骼放射學問題時,表現比 DeepSeek R1 好很多,答案更準確、結構清楚,參考資料也比較可靠。特別是針對最新研究,ChatGPT-4o 最值得信賴;相較之下,DeepSeek R1 常出錯,還會給假資料,還需要再加強。 PubMed DOI

這項研究比較GPT-4o和ERNIE Bot在中文放射腫瘤學考試的表現,兩者都達及格分,GPT-4o得分79.3%,ERNIE Bot為76.9%,差異不大。僅在「相關知識」部分GPT-4o較優。兩款AI在各種題型都表現穩定,答題一致時正確率更高(84.5%)。結果顯示,這兩款AI有助於中文醫學教育,對非英語醫學訓練很有潛力。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI

這項研究比較 DeepSeek-R1 和 ChatGPT-4o 兩個大型語言模型在 2024 年中國國家醫師執業資格考試的表現。結果顯示,DeepSeek-R1 的正確率(92.0%)明顯高於 ChatGPT-4o(87.2%),尤其在簡單題目上表現更好,但在難題或特定科目上兩者差異不大。整體來說,DeepSeek-R1 表現較優。 PubMed DOI

模擬研究發現,DeepSeek 在頭頸癌治療計畫擬定上比 ChatGPT 更準確,兩者在腫瘤分期表現差不多。雖然正確率有統計意義,但目前還無法取代多專科團隊,較適合輔助臨床流程。未來應聚焦開發安全且能客製化的腫瘤科 AI。 PubMed DOI