原始文章

這項研究評估了大型語言模型(LLMs)在根據低劑量電腦斷層掃描(LDCT)報告分配Lung-RADS分數的表現。分析了242份報告,測試了四個模型:ChatGPT-3.5、ChatGPT-4o、Google Gemini和Gemini Advanced。結果顯示,ChatGPT-4o準確率最高,達83.6%,而ChatGPT-3.5為70.1%。反應時間方面,ChatGPT-3.5最快,約4秒。雖然ChatGPT-4o表現優於其他模型,但仍未達到人類放射科醫生的準確性,未來需進一步研究以提升其臨床決策的可靠性。 PubMed DOI


站上相關主題文章列表

醫學研究人員越來越多地使用先進的語言模型(LLMs),如ChatGPT-4和Gemini,來改善乳腺相關疾病的診斷。本研究評估這些模型在複雜醫學分類系統中的應用能力,以協助整形外科醫生做出更好的診斷和治療決策。 研究中創建了五十個臨床情境來評估分類準確性,結果顯示Gemini的準確率高達98%,而ChatGPT-4為71%。Gemini在多個分類系統中表現優於ChatGPT-4,顯示出其在整形外科實踐中的潛力,未來有望增強診斷支持和決策能力。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT-3.5、ChatGPT-4 和 Google Gemini,針對糖皮質激素誘導的骨質疏鬆症(GIOP)及其預防和治療的美國風濕病學會指導方針的表現。研究發現,Google Gemini 的答案較為簡潔,但 ChatGPT-4 在準確性和全面性上表現更佳,特別是在病因學和指導方針相關問題上。ChatGPT-3.5 和 ChatGPT-4 的自我修正能力顯著提升,而 Google Gemini 則無明顯差異。總體來看,ChatGPT-4 是最佳選擇。 PubMed DOI

這項研究探討了先進人工智慧模型在放射學的診斷能力,特別是ChatGPT(3.5和4.0版本)及Google Gemini的表現。分析262道選擇題後,結果顯示ChatGPT 4.0準確率最高,達64.89%,其次是ChatGPT 3.5的62.60%和Google Gemini的55.73%。ChatGPT 4.0在腦部及頭頸部診斷上表現優異,而Google Gemini在頭頸部表現最佳,但其他領域則不佳。研究強調這些AI模型的效能差異,並呼籲進一步改進及評估,以提升其在醫療診斷和教育中的應用,並考量病人照護的倫理問題。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是ChatGPT-4和NotebookLM,使用METhodological RadiomICs Score(METRICS)工具來檢視放射組學研究的方法學質量。分析了2024年發表的48篇開放存取文章,結果顯示ChatGPT-4的中位數得分為79.5%,優於NotebookLM(61.6%)和人類專家(69.0%),且差異顯著。雖然LLMs在評估速度上較快,但仍需改進,以便更接近人類專家的評估結果。 PubMed DOI

這篇回顧評估了AI聊天機器人ChatGPT和Gemini在醫療應用中的準確性與回應長度,基於2023年1月到10月的研究。從64篇論文中,11篇符合標準,涉及1,177個樣本。結果顯示,ChatGPT在準確性上普遍優於Gemini,尤其在放射學方面(87.43%對71%),且回應較短(907字元對1,428字元)。不過,Gemini在緊急情況和腎臟健康飲食詢問上表現不錯。統計分析顯示,ChatGPT在準確性和回應長度上均顯著優於Gemini,建議在醫療詢問中使用ChatGPT可能更有效。 PubMed DOI

本研究探討大型語言模型(LLMs)在放射學職場管理的有效性,評估了ChatGPT-3.5、ChatGPT-4.0、Gemini及Gemini Advanced的表現。透過31個問題的回應,評估者使用4分制指標進行評分。結果顯示,ChatGPT-4.0在所有類別中表現最佳,且有顯著差異。Gemini Advanced也優於Gemini,顯示出對ChatGPT-3.5的趨勢。所有回應均未被評為「不足」,顯示LLMs能有效提升放射學職場管理效率。 PubMed DOI

這項研究評估大型語言模型(LLMs)自動生成CAD-RADS 2.0分數的能力,對於疾病描述和臨床決策非常重要。研究分析了200份心臟CT報告,使用了多種先進的LLMs,包括GPT-3.5、GPT-4o、Mistral 7b、Mixtral 8 × 7b和不同版本的Llama3。結果顯示,GPT-4o和Llama3 70b的準確率最高,分別為93%和92.5%。這些發現顯示,增強上下文學習的模型能有效生成CAD-RADS 2.0分數,提高心臟CT報告的效率與一致性,且開源模型在數據安全上也具優勢。 PubMed DOI

這項研究發現,ChatGPT-4o在放射診斷住院醫師訓練考試的表現比Gemini Advanced好,尤其在影像型題目上較突出,但兩者在各子領域都沒有明顯領先。雖然兩款AI在文字題表現不錯,但影像判讀還有進步空間,顯示AI在放射學教育應用上仍需加強影像分析能力。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI