原始文章

這項研究探討大型語言模型(LLMs),如ChatGPT、Gemini和Copilot,在乳房影像學問題上的表現。研究中,五位乳房放射科醫生提出九個乳房攝影篩檢問題,並由兩位專家評估LLMs的回答。結果顯示,兩種語言的回答平均分數相似,約在3.6到4分之間。一般問題的回答較準確,但針對特定問題,尤其是密集乳房的定義,回答常常不完整。此外,意大利語的來源引用不夠專業,顯示LLMs在提供醫療資訊上的限制。總體而言,LLMs雖能促進醫療溝通,但在專業領域的準確性仍需加強,強調AI與醫療專業人員合作的重要性。 PubMed DOI


站上相關主題文章列表

醫學研究人員越來越多地使用先進的語言模型(LLMs),如ChatGPT-4和Gemini,來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力,以協助整形外科醫生做出更好的診斷和治療決策。 研究中創建了五十個臨床情境來評估分類準確性,結果顯示Gemini的準確率高達98%,而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4,顯示出其在整形外科實踐中的潛力,未來有望增強診斷支持和決策能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

最近大型語言模型(LLMs)在即時搜尋和多語言支持上有了顯著進展,但提供健康資訊的安全性仍然很重要。針對七個公開的LLMs進行的評估顯示,英語回應中沒有臨床錯誤,但294個非英語回應中有7個出現錯誤。雖然48%的回應有有效引用,但39%的英語引用來自.com網站,質量堪憂。此外,英語回應的閱讀水平普遍較高,非英語回應也相對複雜。這些結果顯示LLMs在準確性和可讀性上仍需改進,持續的基準測試是必要的。 PubMed DOI

這項研究評估了GPT-4在解讀乳房X光影像的表現,使用了120張影像,分為有發現和無發現兩類。GPT-4的正確識別率為53.3%,在微鈣化和腫塊的識別上,敏感度為50.0%,特異度為37.5%。研究顯示出許多假陽性和假陰性,並出現幻覺現象,顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險,呼籲對醫療AI工具進行專門訓練和驗證,以確保其臨床可靠性與安全性。 PubMed DOI

這項研究評估了幾個大型語言模型(LLMs)在回答急性膽囊炎相關臨床問題的準確性,依據2018年東京指引。評估的模型包括ChatGPT4.0、Gemini Advanced和GPTo1-preview,針對十個問題進行評分。結果顯示,ChatGPT4.0對90%的問題提供一致回答,其中40%被評為「準確且全面」。Gemini Advanced在某些問題上表現較好,但也有部分回答不完全準確。研究強調這些模型在臨床問題解決上的潛力,但也需認識其局限性,透過持續改進可增強醫師教育及病患資訊,助於臨床決策。 PubMed DOI

這項研究發現,基於ChatGPT的工具在乳房X光片找腫塊的表現還可以,但在判斷乳房密度、腫瘤大小、位置、微鈣化和淋巴結侵犯等細節時,準確度不高。跟放射科醫師的BI-RADS評分一致性也只有普通到中等。總結來說,目前這類AI還不適合用在乳癌篩檢的全面影像分析。 PubMed DOI

大型語言模型像GPT-4和Gemini在乳房影像領域很有潛力,可協助報告撰寫、診斷標準化和整合臨床指引。未來多模態能力也有望提升腫瘤分類等表現。不過,目前仍有幻覺、偏見、知識落差和隱私等挑戰。現階段LLMs只能當輔助工具,無法取代醫師,導入臨床還需嚴謹訓練和監督。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究比較了 ChatGPT 和 ERNIE Bot 在中英文乳癌資訊上的表現。結果顯示,英文版 ChatGPT 答案最準確、最實用,特別適合一般病患提問。不過,兩款 LLM 在專業問題上表現都不佳,且常缺乏佐證資料。目前還不適合完全依賴 LLM 做臨床決策,資料安全和法律風險也需注意,未來還要進一步研究。 PubMed DOI