原始文章

這項研究評估了GPT-4o在MIMIC-III數據集中提取病人症狀和體徵的能力,強調準確提取對診斷和治療的重要性。研究測試了兩個溫度設定(1和0.3),發現較高的溫度(1)能產生多樣化的輸出,平均精確度達79%,特異性96%,但變異性大。相對而言,較低的溫度(0.3)則輸出較保守,平均精確度僅45%。儘管有變異性,最佳溫度下的高召回率和特異性顯示,GPT-4可能成為臨床提取症狀和體徵的有用輔助工具。 PubMed DOI


站上相關主題文章列表

研究使用OpenAI的GPT-4模型分析非小細胞肺癌患者的電子健康記錄,結果顯示GPT-4在識別疾病階段、治療和進展方面比其他模型表現更好。這表示GPT-4在臨床表現型提取上比基於規則的模型更有效率,具有更高的精確度、召回率和F1分數。GPT模型在醫療領域有著重要的應用價值,因為它們提供了更好的上下文理解和臨床表現型識別能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究評估了GPT-4和GPT-4o在識別需進一步評估的胸部放射線報告的效果。研究分析了來自NIH的100個案例,結果顯示GPT-4o在敏感性、準確性和陰性預測值上均優於GPT-4,而GPT-4在特異性和陽性預測值上則表現更佳。總體來看,GPT-4o在臨床應用中顯示出良好的潛力。 PubMed DOI

這項研究顯示,GPT-4在去識別化臨床筆記和生成合成數據方面,比GPT-3.5更有效,對於保護病人隱私非常重要。透過API存取和零樣本提示,GPT-4的表現相當出色,精確度達0.9925,召回率0.8318,F1分數0.8973,準確率0.9911。這些結果顯示,GPT-4能顯著提升臨床數據的安全性,並促進其在研究中的應用,為醫療數據管理中平衡數據效用與隱私樹立了新標準。 PubMed DOI

這項研究評估了使用大型語言模型(LLM),特別是GPT-4,在協助醫生進行管理推理任務方面的有效性,並與傳統資源進行比較。研究於2023年11月到2024年4月進行。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

腦血管疾病是全球第二大死亡原因,對殘疾影響深遠。本研究探討GPT-4在急診科神經科醫師處理急性缺血性中風的有效性,分析其建議與專家意見及實際治療結果的比較。研究回顧100名急性中風患者,結果顯示GPT-4的建議與專家意見高度一致,特別是在血管內血栓切除術方面表現優異。GPT-4在死亡預測上也表現良好,顯示其作為臨床決策支持工具的潛力,但也需注意其建議的侵略性,強調人類監督的重要性。未來需進一步驗證這些發現。 PubMed DOI

這項研究評估了多學科腫瘤委員會(MTBs)與GPT-4人工智慧在癌症病患管理中的決策一致性。研究於2021年2月至2023年6月在安卡拉大學醫院進行,涵蓋610名癌症病患。結果顯示,GPT-4的預測與MTB決策的相容性得分為3.59,顯示高度一致性,但有10.2%的案例得分低於可接受範圍,需進一步審查。專家發現GPT-4在12.9%到25.8%的案例中不適當,顯示其在複雜或罕見案例中的限制。整體而言,GPT-4在腫瘤決策中具輔助潛力。 PubMed DOI

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現,以協助系統性回顧。研究團隊創建了四個專門模型,針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示,GPT-4在數據提取的符合率達88.6%,且在2.5%的情況下準確性超過人類評審。在偏見評估方面,GPT-4的內部一致性公平至中等,外部一致性則優於人類評審者。整體而言,GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

這項研究評估了GPT-4o大型語言模型在從非結構化的臨床筆記中提取徵兆和症狀的表現。研究使用MTSamples語料庫的手動標註筆記作為比較,並透過命名實體識別技術進行提取。結果顯示,GPT-4o在一般提取中達到78%的精確度,心肺數據集更高達87%,泌尿數據集則為81%。雖然模型表現良好,但在專業領域仍需進一步調整以提升召回率和適用性。 PubMed DOI