原始文章

這項研究探討大型語言模型(LLMs),如ChatGPT、Gemini和Copilot,在乳房影像學問題上的表現。研究中,五位乳房放射科醫生提出九個乳房攝影篩檢問題,並由兩位專家評估LLMs的回答。結果顯示,兩種語言的回答平均分數相似,約在3.6到4分之間。一般問題的回答較準確,但針對特定問題,尤其是密集乳房的定義,回答常常不完整。此外,意大利語的來源引用不夠專業,顯示LLMs在提供醫療資訊上的限制。總體而言,LLMs雖能促進醫療溝通,但在專業領域的準確性仍需加強,強調AI與醫療專業人員合作的重要性。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT-4、Gemini和Microsoft Copilot在回答乳房影像問題時的易讀性和準確性。雖然ChatGPT-4更準確,但Gemini和Microsoft Copilot更容易理解。在醫療保健中,準確性和易讀性同樣重要,強調了在使用人工智慧技術時需要持續改進和監督。 PubMed DOI

研究評估大型語言模型(LLMs)提供脈絡膜黑色素瘤資訊的準確性,比較三個LLMs,專家審查結果顯示ChatGPT在醫療建議上最準確,手術前後問題上與Bing AI相似。回答長度不影響準確性,LLMs可引導患者尋求專業建議,但在臨床應用前仍需更多微調和監督。 PubMed DOI

這項研究評估了大型語言模型(LLMs)驅動的聊天機器人,如ChatGPT 3.5、CoPilot和Gemini,在提供前列腺癌資訊的有效性,並與官方病人指南進行比較。研究使用25個專家驗證的問題,根據準確性、及時性、完整性和可理解性進行評估。結果顯示,ChatGPT 3.5的表現優於其他模型,證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性,並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—GPT-3.5、GPT-4 和 Google Gemini(Bard)在回答60道乳腺癌護理相關的多選題的表現。結果顯示,GPT-4的準確率最高,正確回答了95%的問題,接著是GPT-3.5的90%和Google Gemini的80%。研究還發現,來自公共數據庫的問題與乳腺放射科醫師新制定的問題在答案準確性上並無顯著差異,顯示LLMs在乳腺癌護理方面有良好的應用潛力,但仍需進一步訓練以提升表現。 PubMed DOI

這項研究評估大型語言模型(LLMs)在解釋乳腺影像報告及提供臨床建議的表現,分為兩個步驟: 1. **文本評估**:比較十個LLMs與放射科醫師在100道BI-RADS選擇題上的準確率。Claude 3.5 Sonnet表現最佳(90%),超過一般放射科醫師(78%)和乳腺放射科醫師(82%)。 2. **視覺評估**:測試五個多模態LLMs在100張乳腺超音波影像上的表現,Claude 3.5 Sonnet以59%準確率領先。 研究顯示,雖然LLMs在文本評估中表現良好,但視覺診斷能力有限,需在放射科醫師監督下使用,以避免誤診。 PubMed DOI

這項研究評估了三個大型語言模型(LLMs)—ChatGPT、ERNIE Bot 和 ChatGLM—在回答乳腺癌相關問題的表現,特別針對中國的情境。分析了60個腫瘤科醫生提出的問題,結果顯示: - ChatGPT 提供了最多的全面回答,佔66.7%。 - 三個模型在乳腺癌治療問題上的準確率都很低,平均僅44.4%。 - ERNIE Bot 的回答較短。 - 可讀性評分無顯著差異。 總體來看,這些模型可作為乳腺癌資訊工具,但在專業治療問題上不可靠,應在醫療專業人員指導下使用。 PubMed DOI

這項研究評估了大型語言模型(LLMs)在複雜婦科癌症案例中的表現,主要針對三個模型:ChatGPT-4、Gemini Advanced和Copilot。研究使用了十五個臨床案例,六位專家根據多項指標評估模型的回應。結果顯示,Gemini Advanced的準確率最高,達81.87%,而ChatGPT-4和Copilot分別為61.60%和70.67%。雖然ChatGPT-4在遵循治療指導方針上稍好,但Gemini Advanced在答案的深度和焦點上更具優勢。研究指出,這些模型在婦科腫瘤學的臨床應用中有潛力,但仍需進一步精煉和評估。 PubMed DOI

這項研究評估了專有與開放的大型語言模型(LLMs)在分析胰臟癌放射學報告的有效性,重點在於疾病的存在、位置及治療反應。研究分析了203份去識別化的報告,使用了GPT-4、GPT-3.5-turbo及開放模型如Gemma-7B和Llama3-8B。結果顯示,GPT-4在確定疾病狀態上準確率最高,達75.5%。開放模型在某些方面表現不如專有模型,但仍具潛力,特別是在專有模型無法使用時。這項研究為未來腫瘤學領域的LLM研究提供了重要資源。 PubMed DOI

子宮頸癌是全球健康的重要議題,尤其在資源有限的地區。這項研究探討大型語言模型(LLMs)在子宮頸癌管理中的潛力,評估了九個模型的準確性和可解釋性。結果顯示,ChatGPT-4.0 Turbo表現最佳,得分為2.67,顯示其在提供可靠回應方面的有效性。研究還利用LIME增強模型的可解釋性,對醫療專業人員建立信任至關重要。雖然專有模型表現良好,但醫學專用模型的表現未如預期,未來仍需進一步研究以了解LLM在醫療中的應用。 PubMed DOI

這項研究評估了GPT-4在解讀乳房X光影像的表現,使用了120張影像,分為有發現和無發現兩類。GPT-4的正確識別率為53.3%,在微鈣化和腫塊的識別上,敏感度為50.0%,特異度為37.5%。研究顯示出許多假陽性和假陰性,並出現幻覺現象,顯示模型的局限性。這強調了在乳房X光檢查中使用大型語言模型的潛力與風險,呼籲對醫療AI工具進行專門訓練和驗證,以確保其臨床可靠性與安全性。 PubMed DOI