原始文章

這項研究比較了功能性癲癇發作可能性評分(FSLS)與兩個大型語言模型(ChatGPT和GPT-4)在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例,FSLS的準確率為74%,而GPT-4的準確率達85%。研究發現,LLMs的預測結果在不同時間不一致,且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患,但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂,顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI


站上相關主題文章列表

本研究評估了大型語言模型(如ChatGPT)在癲癇診斷中的有效性,並比較了癲癇醫師與AI的診斷一致性。研究分析了597名急診患者,結果顯示神經科醫師診斷癲癇的比例為36.2%,而ChatGPT僅為18.2%。兩者之間的協議極低,Cohen's kappa值為-0.01,顯示AI在癲癇診斷上無法與人類醫師相提並論。雖然AI在識別非癲癇病例上表現較好,但仍需進一步研究以提升其診斷準確性。 PubMed DOI

這項研究探討了大型語言模型 ChatGPT 在解釋癲癇發作的臨床表現,以定位藥物抗性局部癲癇患者的癲癇病灶區的有效性。準確的病灶區定位對外科治療至關重要。研究比較了 ChatGPT 與癲癇專家的表現,使用了852組公開數據和184組台灣私有數據。結果顯示,ChatGPT 在額葉和顳葉的敏感性高達80-90%,且在常見病灶區的表現顯著優於專家。總體而言,ChatGPT 可成為癲癇術前評估的有用工具,未來隨著技術進步,其可靠性和有效性有望提升。 PubMed DOI

這項研究評估了機器學習演算法在識別適合癲癇手術評估病人方面的有效性,並檢視大型語言模型(LLM)在提取相關資訊的表現。研究在一所三級醫院進行,分析了310名癲癇病人的資料。使用隨機森林模型排名後,前5%的病人中有53.3%符合手術評估標準,且有20%在一個月內被轉診。LLM在提取關鍵資訊的準確率介於80%到100%之間,但仍有錯誤,顯示人工智慧在此領域的潛力與挑戰。 PubMed DOI

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中,GPT-4在41個案例上表現出來,最初在沒有範例的情況下準確率為57%,提供一個範例後提升至64%,但更多範例並未進一步改善。相比之下,經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是,在醫生一致同意的案例中,GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限,但若能獲得更多臨床數據,或許能提升其診斷能力。 PubMed DOI

這項研究探討了人工智慧,特別是大型語言模型(LLMs),在模擬隨機臨床試驗中對癲癇藥物cenobamate的應用。試驗包含240名患者,分為安慰劑組和全劑量藥物組。AI能準確分析臨床筆記,評估藥物的療效與安全性,結果顯示AI分析與人類分析相近,僅在療效識別上有小差異。這顯示AI在未來臨床研究中具備高效且可擴展的潛力,能減少對傳統數據挖掘方法的需求。 PubMed DOI

這項研究探討了ChatGPT在診斷成人癲癇發作的有效性,並與專家進行比較。使用37個臨床案例,結果顯示ChatGPT在識別癲癇發作上敏感度高達96.9%,但特異度較低,特別是在區分急性與非誘發性發作時。雖然在診斷癲癇綜合症和結構性原因上表現良好,但在處理模糊案例時仍有困難。相比之下,人類專家的準確性更高。研究建議未來可將AI與專家結合,以提升癲癇診斷的準確性。 PubMed DOI

這項研究顯示大型語言模型(LLMs)在診斷罕見疾病方面的潛力,因為這些疾病因發病率低且表現多樣而難以識別。研究分析了152個來自中國醫學案例資料庫的案例,並比較了四個LLMs(ChatGPT-4o、Claude 3.5 Sonnet、Gemini Advanced和Llama 3.1 405B)與人類醫師的診斷準確性。結果顯示,LLMs的表現超越人類醫師,Claude 3.5 Sonnet的準確率達78.9%,而人類醫師僅26.3%。這顯示LLMs在臨床上可能成為有價值的工具,但在實際應用前仍需進一步驗證及考量倫理與隱私問題。 PubMed DOI

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊,對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究:識別發作頻率的短語和提取相關屬性。他們微調了多個模型,包括BERT和生成性大型語言模型如GPT-4。結果顯示,GPT-4在所有任務中表現最佳,發作頻率短語的精確度達86.61%,屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI

這項研究發現,ChatGPT-4o在診斷肝臟局部病灶時,表現大致和資淺放射科醫師差不多,但還是比不上有經驗的醫師。把ChatGPT-4o加入診斷流程,也沒明顯提升醫師的診斷表現。總結來說,目前大型語言模型對診斷這類疾病的幫助有限,準確度還有待加強。 PubMed DOI

這項研究發現,ChatGPT在判斷癲癇發作症狀和定位藥物難治型局部癲癇的致癲區時,表現不輸給癲癇專科醫師,尤其在額葉和顳葉的預測上更是突出。無論用公開資料還是台灣醫院的病例,ChatGPT的表現都很穩定,淨正向推論率也和專家差不多。未來隨著技術進步,ChatGPT有望成為協助癲癇手術規劃的好幫手。 PubMed DOI