原始文章

這項研究發現,DALL·E 3 能生成高品質的前列腺癌病理影像,特別是 Gleason 5 分級,對教學有幫助。雖然細胞核細節還不夠精細,但整體表現不錯。不過,AI 影像有被濫用的風險,技術人員和醫師必須密切合作並加強監督。 PubMed DOI


站上相關主題文章列表

這項研究評估了四個大型語言模型(LLMs)在前列腺癌治療相關的資訊檢索和風險評估任務中的表現,特別針對第四期患者。研究使用350份模擬報告,並針對三個風險評估任務和七個資訊檢索任務進行評估。結果顯示,所有模型在資訊檢索任務中表現良好,但在風險評估上差異明顯,ChatGPT-4-turbo表現最佳。儘管結果令人鼓舞,研究仍提醒可能的誤解會影響臨床決策,並呼籲進一步研究以驗證結果的普遍性。 PubMed DOI

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64,結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好,準確率達0.88,對腺癌檢測的敏感性也很高。整體來看,GPT-4的表現與病理住院醫師相當,顯示其作為輔助工具的潛力。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在解讀膀胱鏡影像以識別泌尿系統疾病的能力。分析了603張影像,結果顯示整體診斷準確率為89.2%。其中,ChatGPT-4 V的準確率為82.8%,Claude 3.5 Sonnet為79.8%。對於膀胱腫瘤,ChatGPT-4 V達92.2%;膀胱炎檢測則高達94.5%。然而,對良性前列腺增生的準確率較低,分別為35.3%和32.4%。研究建議LLMs可作為泌尿科醫生的輔助工具,但需進一步提升其診斷準確性。 PubMed DOI

這項研究用大型語言模型(像是 Copilot、ChatGPT Plus、Perplexity Pro)生成227份腫瘤病理報告的合成資料集,涵蓋前列腺癌、肺癌和乳癌,惡性與良性比例平均。資料集經專業癌症登記員驗證,完全沒用到真實病患資料,可作為AI病理報告分類的標準測試集,兼顧隱私與可重現性。 PubMed DOI

這項研究用GPT-4o和Llama3.3等大型語言模型,測試它們在227份人工合成病理報告中辨識和分類癌症的能力。結果顯示,這些AI模型在準確率、敏感度和特異性上都比傳統方法更優秀,有機會讓癌症登記流程更快、更可靠,提升公共衛生和臨床照護品質。 PubMed DOI

GPT-4 這類大型語言模型能產出高品質、完整又準確的臨床案例,對醫學教育很有幫助,專家也給予高度肯定,認為風險和偏見都很低。不過,目前在族群多元性上還有待加強。未來若能補足這點,LLM 有機會讓醫學教育更大規模、也更客製化。 PubMed DOI

這項研究比較了ChatGPT-4.0、ChatGPT-3.5和Google Gemini Advanced在20個腸胃道病理案例的表現。結果顯示,ChatGPT-4.0和Gemini Advanced部分表現較佳,但整體水準還是普通。三款AI都無法正確判斷癌症分期,且有不少引用文獻是假的。研究認為,AI雖然進步中,但臨床應用前還是需要專家把關。 PubMed DOI

這項研究比較三款主流視覺生成式AI(GPT-4o、Claude-3.5-Sonnet、Gemini-1.5-Pro)在辨識與分級肺腺癌組織學型態的表現。結果發現,Claude-3.5-Sonnet的分級準確率最高,穩定性也不錯,且結合臨床資料後,預後預測效果佳。整體來說,生成式AI,尤其是Claude-3.5-Sonnet,對肺腺癌病理評估和預後有很大幫助。 PubMed DOI

這項回溯性研究發現,ChatGPT-4在解讀乳房超音波報告並用BI-RADS分類結節時,表現比資淺放射科醫師更好,和資深醫師差不多。它預測惡性腫瘤的準確度高(AUC 0.82,準確率80.63%,敏感度90.56%,特異度73.51%)。若把ChatGPT-4納入影像判讀流程,能進一步提升醫師診斷準確率,減少不同醫師間的判讀差異。 PubMed DOI

這項研究發現,ChatGPT-4o 和 Claude 3.5 Sonnet 在解讀未標註解剖圖的正確率都只有中等,差異不大。雖然 ChatGPT o1-preview 當 AI 評分員時,和專家評分有不錯的一致性,但目前這些 AI 還不夠穩定,暫時不適合直接用在解剖學教學。不過,AI 評分助手在教育研究上有發展潛力,未來還需要再改進。 PubMed DOI