原始文章

這項研究探討了兩款AI聊天機器人,ChatGPT和Perplexity AI,在診斷不同類型的發聲障礙(有機性、功能性和神經性)的效果。第一個實驗中,37名患者的聲音自我評估和聲學分析結合使用;第二個實驗則僅用27名患者的聲學分析。結果顯示,ChatGPT雖提供指導,但未進行數據分析,而Perplexity AI在第一個實驗中與專家診斷的吻合度為0.773,但第二個實驗僅為0.067,顯示缺乏顯著性。研究認為目前AI在臨床診斷發聲障礙方面尚不成熟,未來需進一步研究以提升其潛力。 PubMed DOI


站上相關主題文章列表

這項研究評估了兩款人工智慧聊天機器人,ChatGPT 和 ERNIE Bot,在回答超聲波醫學檢查問題上的表現。共整理了554個問題,涵蓋多種主題,並以中英文提出。結果顯示,ERNIE Bot 在客觀問題上表現優於 ChatGPT,特別是在英文方面。主觀問題的接受率介於47.62%到75.36%之間。整體來看,雖然聊天機器人能提供有用的資訊,但表現因模型、語言及問題類型而異,建議使用者選擇最合適的模型。 PubMed DOI

本研究評估了大型語言模型(如ChatGPT)在癲癇診斷中的有效性,並比較了癲癇醫師與AI的診斷一致性。研究分析了597名急診患者,結果顯示神經科醫師診斷癲癇的比例為36.2%,而ChatGPT僅為18.2%。兩者之間的協議極低,Cohen's kappa值為-0.01,顯示AI在癲癇診斷上無法與人類醫師相提並論。雖然AI在識別非癲癇病例上表現較好,但仍需進一步研究以提升其診斷準確性。 PubMed DOI

這項研究探討了ChatGPT-4.0如何協助語言治療師(SLPs),並評估其在語音、語言和吞嚥障礙任務中的表現。十五位SLP針對AI的回應進行評分,涵蓋報告撰寫、評估材料、臨床決策、治療刺激、治療計畫及客戶訓練材料等六大領域。結果顯示,ChatGPT-4.0在報告撰寫和臨床決策支持上表現良好,但在治療刺激和計畫生成上則有挑戰。總體而言,這項AI工具顯示出協助SLP的潛力,但仍需進一步研究以提升其有效性。 PubMed DOI

本研究評估ChatGPT 4 Omni在診斷神經認知障礙的準確性,並與早期版本比較。研究分為兩部分,第一部分分析其與臨床醫生的診斷一致性,涉及12,922名老年人,結果顯示有一定的關聯性,但準確性仍不足以獨立使用。第二部分則使用537名老年人的數據,未顯示顯著一致性。結論指出,雖然ChatGPT 4 Omni有潛力,但仍需改進與訓練,以提升其在臨床中的應用效果。 PubMed DOI

這項研究探討了基於人工智慧的聊天機器人ChatGPT-4在口腔黏膜病變鑑別診斷中的有效性。研究收集了因口腔黏膜活檢而轉診的患者數據,並將病變描述輸入ChatGPT以生成診斷,與專家診斷進行比較。結果顯示,聊天機器人的診斷與專家之間有顯著相關性,且能高敏感性識別惡性病變。整體而言,ChatGPT-4在識別可疑惡性病變方面表現出色,顯示出其在口腔醫學中的輔助潛力。 PubMed DOI

這項研究評估了ChatGPT-4o在分析懷疑喉部惡性腫瘤的臨床纖維內視鏡視頻的表現,並與專家醫師進行比較。研究在一所醫療中心對20名患者進行,結果顯示該人工智慧在30%的案例中正確診斷惡性腫瘤,並在90%的案例中將其列為前三名診斷。雖然敏感性高,但特異性有限,影像分析一致性得分為2.36(滿分5分)。總體而言,ChatGPT-4o顯示潛力,但在特異性和影像解讀上仍需改進,以提升耳鼻喉科的診斷準確性。 PubMed DOI

這項研究評估了兩個AI聊天機器人,ChatGPT 3.5和Perplexity,針對Dravet症候群的問題回答表現。從醫療專業人員和照顧者收集了96個問題,並由癲癇專家評分。 主要發現包括:ChatGPT 3.5的準確率為66.7%,而Perplexity為81.3%。兩者在治療問題上表現不佳,完整性方面,ChatGPT 3.5為73.4%,Perplexity為75.7%。ChatGPT 3.5能修正55.6%的錯誤,Perplexity則為80%。可讀性上,Perplexity優於ChatGPT 3.5。研究顯示AI在醫療資訊提供上有潛力,但仍需改善。 PubMed DOI

一項針對98個耳鼻喉科案例的研究評估了ChatGPT-4和Llama2的診斷準確性及建議的適當性。結果顯示,ChatGPT-4在82%的案例中正確診斷,優於Llama2的76%。在額外檢查建議上,ChatGPT-4的相關性為88%,Llama2則為83%。治療適當性方面,ChatGPT-4達80%,Llama2為72%。雖然兩者表現不錯,但仍有不適當建議的情況,顯示需進一步改進及人類監督以確保安全應用。 PubMed DOI

這項研究比較ChatGPT-4.0和DeepSeek-R1在回答耳鼻喉科手術常見問題的表現。ChatGPT-4.0內容較詳細但有時會漏掉手術細節,DeepSeek-R1則簡潔但細節不足。兩者在複雜手術和長期照護上都不夠完善,目前都還不適合提供個別病人專業建議,AI在這領域還需加強。 PubMed DOI

這項研究比較ChatGPT-4o和Gemini 2.0 Flash在回答半月板撕裂常見問題的準確性。兩者回答句數和可驗證比例差不多。只用UpToDate驗證,約58%內容正確;加上期刊文章則提升到84%。兩款AI準確度沒顯著差異,但多元驗證來源能提升正確性。總結來說,AI可輔助骨科衛教,但還是無法取代醫師專業判斷。 PubMed DOI