原始文章

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現,並與專家醫師進行比較。研究在一所醫療中心對20名患者進行,結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤,並在90%的案例中將其列為前三名診斷。雖然敏感性高,但特異性有限,影像分析一致性得分為2.36(滿分5分)。總體而言,ChatGPT-4o顯示潛力,但在特異性和影像解讀上仍需改進,以提升耳鼻喉科的診斷準確性。 PubMed DOI


站上相關主題文章列表

研究發現ChatGPT在初步診斷和治療方案上表現不錯,但提出進一步檢查時表現較差。兩位耳鼻喉科醫師認為ChatGPT對常見測試有共識,但對一些重要測試則看法不同。總結來說,ChatGPT在喉喉學和頭頸部疾病領域有應用潛力,尤其在診斷和治療方面。 PubMed DOI

研究發現ChatGPT在耳鼻喉科診斷、治療建議和康復指導方面表現不錯,但在手術步驟描述上有不足,缺乏關鍵細節和風險提供。ChatGPT可提供基本資訊,但無法取代耳鼻喉科醫師的臨床專業知識。為了更好地幫助醫師,需持續改進醫療人工智慧技術。 PubMed DOI

研究發現ChatGPT-4在耳鼻喉科病例管理中表現良好,對患者提供了許多有用建議,雖然有時會建議額外檢查。在診斷準確率方面有改進空間,但在初步診斷上有潛力成為耳鼻喉科醫師的輔助工具。 PubMed DOI

ChatGPT在耳鼻喉頭頸外科領域應用仍有待提升,資訊不夠完整且準確性有疑慮。雖然在診斷方面可能較為準確,但整體表現尚待加強。在科學報告、研究方案和考試方面有改善,但準確性仍有不確定性。回應穩定,但可能出現幻覺事件,尤其在提供科學參考文獻時。應用範圍有限,缺乏與其他語言模型的比較。對於分析耳鼻喉臨床圖像的能力尚未深入探討,可能激發醫師進行更多研究。 PubMed DOI

這項研究評估了ChatGPT-4在分析耳鼻喉科影像時的一致性,涉及40名患者。結果顯示,ChatGPT-4在影像解讀的平均一致性分數為2.46,僅在15%的案例中準確分析影像,且與醫生的高一致性僅12.5%。它建議的額外檢查次數顯著高於臨床醫師,且主要診斷準確率僅20%到25%。整體而言,雖然ChatGPT-4在主要診斷上有一定效率,但在影像分析及檢查建議的可靠性較低。 PubMed DOI

最近,自然語言處理(NLP)在醫療領域的進展顯著,特別是在數據分析和診斷方面。OpenAI的ChatGPT 4.0被評估在胸部影像診斷的表現,整體準確率達84.9%。它在術語和診斷徵象上表現優異,重症監護和正常解剖的準確率分別為90%和80%。在病理問題上,平均準確率為89.1%,但在某些疾病如肺癌的表現較差。總體來看,ChatGPT 4.0顯示出潛力,但仍需進一步研究以提升其臨床應用的可靠性。 PubMed DOI

這項研究評估了ChatGPT-4.0在根據組織病理學描述識別口腔及顏面部病變的表現,並與病理學家的診斷進行比較。分析了102個匿名病例,ChatGPT-4.0的診斷準確率為59.8%,正確診斷61個病例。結果顯示,年齡與診斷分數有中度負相關,性別則無顯著影響。ChatGPT-4.0在肉芽腫和炎症病例的診斷上特別困難,錯誤率高達100%;而在黏液囊腫病例中表現最佳,正確率為93.3%。整體而言,顯示出進一步改進的必要性。 PubMed DOI

這項研究評估了多種人工智慧模型在診斷口腔潛在惡性病變(OPMLs)的準確性,特別是ChatGPT 3.5、4.0、4o和Gemini。研究使用42個案例和兩個數據集的影像進行測試。結果顯示,GPT 4o在文本診斷中表現最佳,正確回答27個案例,其次是GPT 4.0、3.5和Gemini。在影像識別方面,GPT 4o也優於Gemini。不過,這些模型的準確性仍未達到專家水平,顯示出中等到良好的協議程度。研究指出,雖然人工智慧在診斷OPMLs上有潛力,但整合進臨床實踐時需謹慎。 PubMed DOI

這項研究評估了OpenAI開發的GPT-4在病理影像分析中的診斷準確性。研究涵蓋16個器官的44張組織病理影像及100張結直腸活檢顯微照片。GPT-4在腫瘤類型和組織來源的整體準確率為0.64,結腸息肉的分類準確率介於0.57到0.75之間。它在區分低級別和高級別不典型增生方面表現良好,準確率達0.88,對腺癌檢測的敏感性也很高。整體來看,GPT-4的表現與病理住院醫師相當,顯示其作為輔助工具的潛力。 PubMed DOI

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI