原始文章

這項研究探討大型語言模型(LLMs),特別是GPT-4o,在公共衛生文件分析中的應用,像是社區健康改善計畫。研究比較了GPT-4o的半自動化輸出與人類分析師的表現。 主要發現包括: 1. **準確性**:GPT-4o的抽象準確率為79%,錯誤17次;人類分析師則為94%,錯誤8次。數據綜合方面,GPT-4o準確率僅50%,錯誤9次。 2. **時間效率**:GPT-4o在數據抽象上耗時較少,但考慮到提示工程和修正錯誤,實際節省不明顯。 3. **謹慎態度**:建議公共衛生專業人員謹慎使用生成式AI,權衡資源節省與準確性問題。 總之,GPT-4o在公共衛生內容分析上有潛力,但需注意其限制。 PubMed DOI


站上相關主題文章列表

研究評估了OpenAI的GPT和GPT-4在比較人類審查員時,對臨床研究論文標題和摘要的辨識表現。結果顯示,這些模型在篩選超過24,000個標題和摘要時表現準確且敏感,並展現了推理能力並修正錯誤。這些人工智慧模型有潛力優化審查流程、節省時間,並提升臨床研究品質,而非取代研究人員。 PubMed DOI

強調解決社會健康決定因素的重要性,特別是在COVID-19大流行時,以改善健康結果、減少健康不平等。討論數位健康和人工智慧在應對社會健康決定因素、增強疾病監測和病人照護的角色,如LLMs。提及數據標準化、基礎設施限制、數位素養和演算法偏見等挑戰,可能影響AI好處的公平獲取。建議採取多層次的數位包容作為社會健康決定因素的一部分,並全球性需要倫理AI框架,確保負責任的AI實踐。提出建議,彌合公平AI技術開發和實施之間的差距。 PubMed DOI

社會健康決定因素(SDoH)對健康影響很大,其中住房穩定性至關重要。電子健康記錄(EHRs)中包含有用的SDoH資訊,但常為非結構化,需要透過自然語言處理(NLP)進行分析。新的NLP技術如GPT-4能有效辨識住房不穩定性,雖然在偵測上有高召回率,但精確度較低。LLMs提供擴展且成本效益高的解決方案,同時召回率也較高。結合LLMs和人工審查可提高數據分析效率,支持醫療系統提供更主動的病人護理。 PubMed DOI

這項研究評估大型語言模型(LLMs)在社交媒體健康相關文本分類的表現,並比較了不同模型的效果。結果顯示,基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強,但僅依賴LLM標註數據訓練效果不佳。研究指出,LLM作為零樣本分類器能有效減少假陰性,並減輕手動標註負擔,顯示其在特定領域自然語言處理的潛力。 PubMed DOI

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

這項研究探討了OpenAI的ChatGPT如何協助公共衛生工作者開發疾病傳播模型,以制定感染控制策略。透過案例研究,公共衛生工作者與ChatGPT合作,創建符合10天流行病學數據的數學模型,並進行代碼生成、精煉和除錯,估算基本繁殖數(Ro)和最終疫情規模。最終模型重現疫情曲線,Ro為4.19,最終疫情規模達98.3%。研究顯示,ChatGPT能加速模型開發,降低技術門檻,改善全球疫情應對能力,特別在資源有限的環境中。 PubMed DOI

這項研究探討了機器學習在電子健康紀錄中識別社會和行為健康決定因素的效果。研究人員分析了MIMIC-III數據集中的超過200萬份臨床筆記,使用潛在語義索引(LSI)和GPT模型來預測SBDH類別。結果顯示,LSI的正向預測值超過83%,在多個SBDH類別的預測準確性上優於ICD-9編碼。雖然GPT-4表現稍佳,但LSI在成本效益和處理文件數量上更具優勢。整體而言,LSI是一種有效且實用的方法,適合應用於健康系統。 PubMed DOI

這項研究探討大型語言模型(LLMs)在分析社交媒體貼文,評估公眾對疫苗接種態度的應用。研究人員比較了不同LLMs的表現,包括GPT模型和開源替代品,並與基於規則的情感分析工具進行對比。結果顯示,使用表現最佳的LLMs進行少量提示能獲得最佳效果,而其他方法則有較高的誤分類風險。研究強調LLMs在公共衛生領域的潛力,建議將其納入公共衛生監測,以提升對健康政策公眾意見的評估能力。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在識別孕婦臨床筆記中的住房不安全性方面的效果。主要發現顯示,GPT-4在識別住房不穩定案例上表現優於GPT-3.5,回憶率達0.924,超過人類抽取者的0.702。雖然GPT-4的精確度低於人類,但在去識別筆記中略有提升。研究建議,雖然手動抽取準確性較高,LLMs如GPT-4提供了可擴展且具成本效益的選擇,適合半自動化抽取,但仍需人類審查以避免錯誤解釋。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI