原始文章

這項研究用GPT-4o自動從心肺調控和SUDEP相關論文中擷取神經投射資訊,從四篇論文辨識出205個神經投射,經專家審查後準確率高達95%。這方法展現自動化擷取神經科學文獻的潛力,未來也會加入更多資料類型像是實驗技術和物種等。 PubMed


站上相關主題文章列表

這項研究分析了大型語言模型(LLMs),特別是GPT-4 Turbo,在神經放射學的應用,針對30-50%的高誤診率進行探討。透過分析751個案例,研究發現透過提示工程和設定90%的信心閾值,GPT-4 Turbo的診斷準確率從55.1%提升至72.9%。候選診斷的正確率達85.9%,誤診率降至14.1%。雖然這些方法顯著提高了準確性,但也限制了模型的處理案例數量。未來仍需進一步研究,以優化這些策略,確保在臨床應用中的準確性與實用性。 PubMed DOI

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰,並提出了一種混合方法,結合文本挖掘、圖神經網絡(GNNs)和微調的大型語言模型(LLMs)。這種方法旨在增強生物醫學知識圖譜,並解釋預測的關係。研究顯示,該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數,並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現,並提高文獻分析的效率。 PubMed DOI

這項研究評估了兩個大型語言模型(LLMs),GPT-4 omni(GPT-4o)和GPT-3.5 Turbo,在從貓咪慢性腸病的獸醫電子健康紀錄中提取資訊的表現。結果顯示,GPT-4o的敏感度和特異性均高於GPT-3.5 Turbo,分別為96.9%和97.6%。此外,GPT-4o的重現性也優於人類配對,顯示其在自動化資訊提取方面的潛力。不過,仍需進一步驗證以確保其在實際應用中的準確性和可靠性。 PubMed DOI

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料,並透過簡單提示進行查詢。結果顯示,GPT-4在性別資訊提取上準確率達95%,優於GPT-3.5的70%;但在身體質量指數(BMI)方面,GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中,以提升提取效果,並鼓勵專業人士設計有效提示,監控大型語言模型的表現。 PubMed DOI

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現,以協助系統性回顧。研究團隊創建了四個專門模型,針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示,GPT-4在數據提取的符合率達88.6%,且在2.5%的情況下準確性超過人類評審。在偏見評估方面,GPT-4的內部一致性公平至中等,外部一致性則優於人類評審者。整體而言,GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊,對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究:識別發作頻率的短語和提取相關屬性。他們微調了多個模型,包括BERT和生成性大型語言模型如GPT-4。結果顯示,GPT-4在所有任務中表現最佳,發作頻率短語的精確度達86.61%,屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI

這篇論文發現,GPT-4在系統性文獻回顧時,能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下,GPT-4在特定門檻下可達100%召回率,人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究,才能確認其穩定性。 PubMed DOI

這項研究用 GPT-3.5 和 GPT-4 來分析科學文獻,找出基因和藥物對傷口癒合的影響。結果發現,GPT-4 在辨識和萃取這些關係上比 GPT-3.5 更準確,顯示 GPT-4 不用再訓練就能有效協助生醫研究。 PubMed

最新的商業大型語言模型(像GPT-4o),在神經影像的中繼資料標註上,表現幾乎跟專業人員一樣好(zero-shot下得分0.91–0.97),錯誤率也差不多,很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集,方便未來測試。 PubMed DOI

這項研究發現,GPT-4在協助篩選食道切除術併發症危險因子的文獻時,和人工審查者的判斷一致率高,尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降,但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI