原始文章

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊,對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究:識別發作頻率的短語和提取相關屬性。他們微調了多個模型,包括BERT和生成性大型語言模型如GPT-4。結果顯示,GPT-4在所有任務中表現最佳,發作頻率短語的精確度達86.61%,屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI


站上相關主題文章列表

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄,結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率,具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值,因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何分析1型糖尿病患者的持續血糖監測(CGM)數據。研究發現,GPT-4在10項定量指標中有9項達到完美準確度,並且在兩位臨床評分者的評估下,其生成的定性描述在準確性、完整性和安全性方面表現優異。這顯示GPT-4能有效總結CGM數據,可能提升糖尿病護理,並提供分析醫療數據的新方法。 PubMed DOI

這項研究比較了功能性癲癇發作可能性評分(FSLS)與兩個大型語言模型(ChatGPT和GPT-4)在區分功能性癲癇發作和癲癇發作的診斷表現。使用114個病患案例,FSLS的準確率為74%,而GPT-4的準確率達85%。研究發現,LLMs的預測結果在不同時間不一致,且自我評估的確定性與變異性中等相關。雖然GPT-4和FSLS能有效識別FS病患,但預測結果的差異及不一致性引發了對其臨床可靠性的擔憂,顯示出機器學習和人工智慧在診斷中的潛力與限制。 PubMed DOI

這項研究探討了大型語言模型 ChatGPT 在解釋癲癇發作的臨床表現,以定位藥物抗性局部癲癇患者的癲癇病灶區的有效性。準確的病灶區定位對外科治療至關重要。研究比較了 ChatGPT 與癲癇專家的表現,使用了852組公開數據和184組台灣私有數據。結果顯示,ChatGPT 在額葉和顳葉的敏感性高達80-90%,且在常見病灶區的表現顯著優於專家。總體而言,ChatGPT 可成為癲癇術前評估的有用工具,未來隨著技術進步,其可靠性和有效性有望提升。 PubMed DOI

這項研究評估了多種大型語言模型(LLMs)在從機械血栓切除術的自由文本報告中提取程序細節的表現,並與GPT-4進行比較。測試的模型包括Llama3.1 405B、Llama3 70B、Llama3 8B和Mixtral 8X7B,分析了130份來自兩個機構的報告。 結果顯示,Llama3.1 405B的數據提取準確率達93.5%,與GPT-4相當。Llama3 70B的準確率為90.6%(英語)和88.2%(德語),而Llama3 8B和Mixtral 8X7B的準確率均為86.1%。總體而言,Llama3.1 405B在數據提取上可作為安全的本地替代方案,特別適合重視個人數據隱私的情況。 PubMed DOI

這篇論文探討了OpenAI的GPT-4在區分癲癇發作與功能性/解離性發作的能力。測試中,GPT-4在41個案例上表現出來,最初在沒有範例的情況下準確率為57%,提供一個範例後提升至64%,但更多範例並未進一步改善。相比之下,經驗豐富的神經科醫生平均達到71%的準確率。值得注意的是,在醫生一致同意的案例中,GPT-4的準確率達到81%。這顯示GPT-4的表現仍有限,但若能獲得更多臨床數據,或許能提升其診斷能力。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

這篇研究比較GPT-4大型語言模型、深度學習和機器學習三種方法在電子病歷症狀標準化上的表現。結果發現,GPT-4表現最好,顯示大型語言模型很有潛力成為未來醫師筆記自動化分析的主流工具,有助於推動精準醫療發展。 PubMed

這項研究發現,給大型語言模型(如GPT-4o和Llama-3.3-70B)明確的標註指引,能大幅提升它們從中風CT報告擷取重點的準確度,其中GPT-4o表現最好。結果強調,清楚的指引對提升醫療自動化資料擷取很重要。 PubMed DOI