Improving entity recognition using ensembles of deep learning and fine-tuned large language models: A case study on adverse event extraction from VAERS and social media.
使用深度學習和微調大型語言模型的集成來改善實體識別：以從 VAERS 和社交媒體提取不良事件為案例研究。 J Biomed Inform 2025-02-09

這項研究專注於從文本中提取與COVID-19疫苗相關的不良事件資訊，對疫苗安全性監測至關重要。研究比較了大型語言模型（LLMs）和傳統深度學習模型的表現，並探討了模型集成的優勢。使用了VAERS、Twitter和Reddit的數據，識別疫苗、接種和不良事件等實體。多個模型經過微調，最佳集成結果顯示「疫苗」的F1分數為0.878，「接種」為0.930，「不良事件」為0.925，整體微平均F1分數為0.903。研究強調了微調和集成方法在提升性能上的重要性，推進了生物醫學領域的自然語言處理。 PubMed DOI

Leveraging Large Language Models for Infectious Disease Surveillance-Using a Web Service for Monitoring COVID-19 Patterns From Self-Reporting Tweets: Content Analysis.
利用大型語言模型進行傳染病監測 - 使用網路服務監控自我報告推文中的 COVID-19 模式：內容分析。 J Med Internet Res 2025-02-20

新型SARS-CoV-2變異株及後COVID-19症狀仍影響許多人生活。由於約翰霍普金斯大學等機構不再每日報告確診病例，準確評估感染範圍變得困難。為此，我們開發了一個公開的COVID-19推文數據庫，專注於自我報告的病例及其症狀。我們收集了730萬條推文，發現常見症狀包括無精打采和幻覺，且再感染情況普遍。康復時間也顯著縮短，從2020年的約30天減少到2023年的約12天。這些數據對於持續追蹤COVID-19及提供見解至關重要。 PubMed DOI

Use of large language models to identify pseudo-information: Implications for health information.
大型語言模型在識別偽資訊中的應用：對健康資訊的影響。 Health Info Libr J 2025-03-20

這項研究分析了四個大型語言模型（LMMs）——ChatGPT-4o、Claude 3.5 Sonnet、Gemini 和 Copilot——在辨識開放存取文章中的錯誤健康資訊的效果。結果顯示，ChatGPT-4o 和 Claude 能有效標記不可靠文章，但Gemini 和 Copilot卻漏掉了幾個重要問題。在驗證階段，ChatGPT-4o 的準確性無法重現，只有Claude持續檢測出重大問題。研究指出，這些模型在識別虛假資訊上存在顯著差異，並建議改進以提升其在健康應用中的可靠性。 PubMed DOI

Exploring Detection Methods for Synthetic Medical Datasets Created With a Large Language Model.
以大型語言模型生成之合成醫療資料集的偵測方法探討 JAMA Ophthalmol 2025-04-24

最新研究發現，GPT-4能生成極為逼真的假醫療數據，甚至足以支持虛假科學論點。經過特製調整後，AI產生的數據更難被識破，部分甚至被誤認為真實資料。這讓人擔心AI未來可能被用來偽造科學研究，對學術誠信造成威脅。 PubMed DOI

Use of Retrieval-Augmented Large Language Model for COVID-19 Fact-Checking: Development and Usability Study.
結合檢索增強大型語言模型於 COVID-19 事實查核之應用：開發與可用性研究 J Med Internet Res 2025-04-30

這項研究發現，把像GPT-4這類大型語言模型結合進階RAG系統，並用大量COVID-19研究資料，可以大幅提升自動事實查核的準確度與可靠性。進階RAG模型（CRAG、SRAG）不僅減少幻覺現象，還能提供更有根據的解釋，整體表現比單純LLM更好，對抗疫情期間的錯假訊息很有幫助。 PubMed DOI

Detection of patient metadata in published articles for genomic epidemiology using machine learning and large language models.
利用機器學習與大型語言模型於基因體流行病學中偵測已發表論文的病患元資料 medRxiv 2025-05-09

這項研究用NLP技術自動抓取SARS-CoV-2相關論文中的病患元資料。團隊用BERT模型訓練分類器，並比較生成式AI（Llama-3-70B）的表現。結果顯示，針對生醫或COVID-19文本預訓練的BERT模型效果最好，F1-score達0.776，明顯優於生成式AI（F1-score僅0.558）。這方法已應用於35萬多篇文章，有助於基因流行病學研究。 PubMed DOI

Identification of Online Health Information Using Large Pretrained Language Models: Mixed Methods Study.
利用大型預訓練語言模型識別線上健康資訊：混合方法研究 J Med Internet Res 2025-05-14

這項研究比較了四款主流AI（ChatGPT-3.5、ChatGPT-4、Ernie Bot、iFLYTEK Spark）辨識網路健康資訊真偽的能力。結果顯示，ChatGPT-4 準確率最高，Ernie Bot 和 iFLYTEK Spark 表現也不錯，ChatGPT-3.5 稍微落後。雖然整體表現佳，但在專業或複雜情境下還有進步空間。 PubMed DOI

A comparative analysis of large language models versus traditional information extraction methods for real-world evidence of patient symptomatology in acute and post-acute sequelae of SARS-CoV-2.
SARS-CoV-2 急性及後急性症狀群患者症狀學真實世界證據中，大型語言模型與傳統資訊擷取方法之比較分析 PLoS One 2025-05-15

這項研究發現，規則式系統 BioMedICUS 在從臨床紀錄擷取 COVID-19 症狀的準確度和族群公平性上，都比大型語言模型（LLaMA2-13B、LLaMA3-8B）表現更好。不過，LLMs 在某些情境下也有優勢。整體來說，LLMs 在公平性和泛化能力上還有待加強，未來需提升訓練資料和標註品質。 PubMed DOI

Advancing real-time infectious disease forecasting using large language models.
利用大型語言模型推進即時傳染病預測 Nat Comput Sci 2025-06-06

PandemicLLM 是新一代疫情預測框架，把疾病傳播預測當成文字推理問題來解決。它結合即時多元資料（如防疫政策、基因監測、時序數據），透過 AI 與人類協作提示提升預測準確度。實測美國各州 COVID-19 資料，表現優於現有模型，能整合複雜非數值資訊，讓疫情預測更精準。 PubMed DOI

Use of Large Language Models to Classify Epidemiological Characteristics in Synthetic and Real-World Social Media Posts About Conjunctivitis Outbreaks: Infodemiology Study.
運用大型語言模型於合成與真實社群媒體貼文中分類結膜炎疫情流行病學特徵之資訊流行病學研究 J Med Internet Res 2025-07-02

這項研究發現，像 GPT-4 這類大型語言模型，能準確從社群貼文判斷結膜炎疫情的類型、規模和原因，表現有時甚至比人類專家還好。雖然敏感度還有進步空間，但 LLM 未來有機會協助自動化公共衛生監測，幫助及早發現疫情並提醒相關單位。 PubMed DOI

原始文章

站上相關主題文章列表