原始文章

這項研究發現,像ChatGPT這類大型語言模型在評估日本網路乳癌治療資訊品質時,表現和專家相當接近,尤其在化療相關內容上分數最高。不過,LLMs評分普遍偏高,且Google搜尋排名和資訊品質沒什麼關聯。雖然LLMs能有效協助評估,但全面把關還是需要專業人士參與。 PubMed DOI


站上相關主題文章列表

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

最近大型語言模型(LLMs)在即時搜尋和多語言支持上有了顯著進展,但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示,英語回應中沒有臨床錯誤,但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用,但39%的英語引用來自.com網站,質量堪憂。此外,英語回應的閱讀水平普遍較高,非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進,持續的基準測試是必要的。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT-4和NotebookLM,使用METhodological RadiomICs Score(METRICS)工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章,結果顯示ChatGPT-4的中位數得分為79.5%,優於NotebookLM(61.6%)和人類專家(69.0%),且差異顯著。雖然LLMs在評估速度上較快,但仍需改進,以便更接近人類專家的評估結果。 PubMed DOI

這項研究評估大型語言模型(LLMs)在根據病患醫療紀錄生成早期乳腺癌治療選項的準確性。使用2024年初的多學科團隊會議紀錄,測試了三個AI模型:Claude3-Opus、GPT4-Turbo和LLaMa3-70B。結果顯示,Claude3-Opus準確率86.6%,GPT4-Turbo為85.7%,LLaMa3-70B則為75.0%。兩者在輔助內分泌和靶向治療上表現良好,但在輔助放射治療上則有高估的情況。研究建議需進一步探討這些模型在臨床上的實際應用。 PubMed DOI

這項研究探討大型語言模型(LLMs)在為癌症倖存者及其照顧者創建教育材料的有效性,特別針對弱勢群體。研究比較了三個模型(GPT-3.5 Turbo、GPT-4 和 GPT-4 Turbo)在生成30個癌症護理主題內容的表現,目標是達到六年級的閱讀水平,並提供西班牙語和中文翻譯。 主要發現包括:LLMs整體表現良好,74.2%符合字數限制,平均質量分數為8.933,但只有41.1%達到所需閱讀水平。翻譯準確率高,西班牙語96.7%、中文81.1%。常見問題有範圍模糊和缺乏可行建議。GPT-4表現優於GPT-3.5 Turbo,使用項目符號提示效果更佳。 結論指出,LLMs在創建可及的教育資源方面潛力大,但需改善閱讀水平和內容全面性,未來研究應結合專家意見和更好數據以提升有效性。 PubMed DOI

這項研究發現,GPT-4在回答放射治療常見問題時,比GPT-3.5表現更好,但兩者的回答對一般人來說還是太難懂,也有可能出現錯誤資訊。建議在正式用於病人前,還需要加強內容的易讀性和正確性。 PubMed DOI

這項研究比較了四款主流AI(ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark)辨識網路健康資訊真偽的能力。結果顯示,ChatGPT-4 準確率最高,Ernie Bot 和 iFLYTEK Spark 表現也不錯,ChatGPT-3.5 稍微落後。雖然整體表現佳,但在專業或複雜情境下還有進步空間。 PubMed DOI

這項研究發現,DeepSeek 在用中文回答前列腺癌放射治療問題時,表現明顯優於 ChatGPT,尤其在基礎知識和治療照護方面更突出;但用英文時,兩者差異不大。這顯示選擇語言優化的 AI 模型很重要,但專家審查仍不可或缺。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI