Optimizing GPT-4 Turbo Diagnostic Accuracy in Neuroradiology through Prompt Engineering and Confidence Thresholds.
透過提示工程和信心閾值優化 GPT-4 Turbo 在神經放射學中的診斷準確性。 Diagnostics (Basel) 2024-07-27

這項研究分析了大型語言模型（LLMs），特別是GPT-4 Turbo，在神經放射學的應用，針對30-50%的高誤診率進行探討。透過分析751個案例，研究發現透過提示工程和設定90%的信心閾值，GPT-4 Turbo的診斷準確率從55.1%提升至72.9%。候選診斷的正確率達85.9%，誤診率降至14.1%。雖然這些方法顯著提高了準確性，但也限制了模型的處理案例數量。未來仍需進一步研究，以優化這些策略，確保在臨床應用中的準確性與實用性。 PubMed DOI

An Accurate and Efficient Approach to Knowledge Extraction from Scientific Publications Using Structured Ontology Models, Graph Neural Networks, and Large Language Models.
一種準確且高效的科學文獻知識提取方法：使用結構化本體模型、圖神經網絡和大型語言模型。 Int J Mol Sci 2024-11-09

這項研究探討了研究人員在處理大量生物醫學文獻時的挑戰，並提出了一種混合方法，結合文本挖掘、圖神經網絡（GNNs）和微調的大型語言模型（LLMs）。這種方法旨在增強生物醫學知識圖譜，並解釋預測的關係。研究顯示，該方法在蛋白質相互作用數據集上達到0.772的馬修斯相關係數，並在失眠研究中識別出25個新的人類蛋白質相互作用。這種方法有助於加速治療靶點的發現，並提高文獻分析的效率。 PubMed DOI

Classification performance and reproducibility of GPT-4 omni for information extraction from veterinary electronic health records.
GPT-4 omni 在從獸醫電子健康紀錄中提取資訊的分類性能與重現性。 Front Vet Sci 2025-01-31

這項研究評估了兩個大型語言模型（LLMs），GPT-4 omni（GPT-4o）和GPT-3.5 Turbo，在從貓咪慢性腸病的獸醫電子健康紀錄中提取資訊的表現。結果顯示，GPT-4o的敏感度和特異性均高於GPT-3.5 Turbo，分別為96.9%和97.6%。此外，GPT-4o的重現性也優於人類配對，顯示其在自動化資訊提取方面的潛力。不過，仍需進一步驗證以確保其在實際應用中的準確性和可靠性。 PubMed DOI

Information Extraction from Clinical Texts with Generative Pre-trained Transformer Models.
使用生成預訓練變壓器模型從臨床文本中提取信息。 Int J Med Sci 2025-03-03

本研究評估了GPT-3.5和GPT-4在從非結構化臨床文本中提取資訊的效果。使用了病人特徵、病史和臨床檢測結果的資料，並透過簡單提示進行查詢。結果顯示，GPT-4在性別資訊提取上準確率達95%，優於GPT-3.5的70%；但在身體質量指數（BMI）方面，GPT-3.5的78%表現更佳。研究建議整合特定任務的定義進入提示中，以提升提取效果，並鼓勵專業人士設計有效提示，監控大型語言模型的表現。 PubMed DOI

Novel AI applications in systematic review: GPT-4 assisted data extraction, analysis, review of bias.
系統性回顧中的新型 AI 應用：GPT-4 協助的數據提取、分析及偏見審查。 BMJ Evid Based Med 2025-04-08

這項研究評估了自訂的GPT-4模型在醫學文獻數據提取和評估方面的表現，以協助系統性回顧。研究團隊創建了四個專門模型，針對研究特徵、結果、偏見評估及風險評估進行分析。結果顯示，GPT-4在數據提取的符合率達88.6%，且在2.5%的情況下準確性超過人類評審。在偏見評估方面，GPT-4的內部一致性公平至中等，外部一致性則優於人類評審者。整體而言，GPT-4在系統性回顧中展現出潛在的應用價值。 PubMed DOI

Leveraging pretrained language models for seizure frequency extraction from epilepsy evaluation reports.
利用預訓練語言模型從癲癇評估報告中提取癲癇發作頻率。 NPJ Digit Med 2025-04-14

這項研究專注於從非結構化的臨床敘述中提取癲癇發作頻率的結構化資訊，對評估治療和病人安全非常重要。研究人員針對兩個任務進行研究：識別發作頻率的短語和提取相關屬性。他們微調了多個模型，包括BERT和生成性大型語言模型如GPT-4。結果顯示，GPT-4在所有任務中表現最佳，發作頻率短語的精確度達86.61%，屬性提取達90.23%。這強調了微調生成模型在臨床文本資訊提取上的有效性。 PubMed DOI

Testing the utility of GPT for title and abstract screening in environmental systematic evidence synthesis.
在環境系統性證據綜合中測試 GPT 用於標題與摘要篩選的實用性 Environ Evid 2025-04-24

這篇論文發現，GPT-4在系統性文獻回顧時，能準確又有效地篩選相關文章標題和摘要。在近1.2萬筆資料測試下，GPT-4在特定門檻下可達100%召回率，人工篩選時間最多可省下75%。但還需更多主題和提示詞的研究，才能確認其穩定性。 PubMed DOI

Harnessing the Power of Large Language Models (LLMs) to Unravel the Influence of Genes and Medications on Biological Processes of Wound Healing.
運用大型語言模型（LLMs）解析基因與藥物對傷口癒合生物過程的影響 AMIA Annu Symp Proc 2025-05-26

這項研究用 GPT-3.5 和 GPT-4 來分析科學文獻，找出基因和藥物對傷口癒合的影響。結果發現，GPT-4 在辨識和萃取這些關係上比 GPT-3.5 更準確，顯示 GPT-4 不用再訓練就能有效協助生醫研究。 PubMed

Large Language Models Can Extract Metadata for Annotation of Human Neuroimaging Publications.
大型語言模型可用於提取人類神經影像學文獻的註釋中繼資料 bioRxiv 2025-06-04

最新的商業大型語言模型（像GPT-4o），在神經影像的中繼資料標註上，表現幾乎跟專業人員一樣好（zero-shot下得分0.91–0.97），錯誤率也差不多，很多分歧其實不是錯誤。這代表LLM很適合大規模自動標註。作者也建議大家建立並分享標註基準資料集，方便未來測試。 PubMed DOI

Validation of automated paper screening for esophagectomy systematic review using large language models.
使用大型語言模型驗證自動化文獻篩選於食道切除術系統性回顧的可行性 PeerJ Comput Sci 2025-06-26

這項研究發現，GPT-4在協助篩選食道切除術併發症危險因子的文獻時，和人工審查者的判斷一致率高，尤其在標準較寬鬆時表現更好。雖然標準嚴格時準確率會下降，但GPT-4仍能有效簡化流程並提供決策依據。未來建議進一步比較不同模型及應用於其他審查步驟。 PubMed DOI

原始文章

站上相關主題文章列表