原始文章

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI


站上相關主題文章列表

系統性回顧很重要,但耗時。大型語言模型如GPT-4可加速,但與人類表現仍有差異。研究發現GPT-4在某些領域表現良好,但受機會和數據集影響。調整後表現下降,尤其在數據提取和篩選任務。給予提示後,在篩選文獻方面表現與人類相當。建議使用語言模型時謹慎,但在特定條件下可匹敵人類。 PubMed DOI

LLMs在臨床試驗文件生成上有潛力。輝瑞挑戰使用LLMs自動化臨床試驗文件,尤其是為CSRs創建安全表摘要。評估顯示性能差異,特別是在事實準確性和寫作風格方面。團隊多使用GPT模型,改進方向包括表格輸入、上下文添加和微調。挑戰結果顯示LLMs在自動化CSRs中表格摘要有潛力,強調需優化人類輸入和持續研究。 PubMed DOI

這項研究探討大型語言模型(LLMs)在質性主題分析中的應用,並將其表現與人類分析師在精神科環境中的表現進行比較。研究使用了一個700億參數的開源LLM,並透過先進的提示工程,能在幾分鐘內從半結構性訪談中生成主題。分析結果顯示,LLM生成的主題與人類創建的主題之間的相似性中等到顯著,顯示LLMs在質性研究中有潛力,能提升研究的可及性。 PubMed DOI

這項研究評估大型語言模型(LLMs)在社交媒體健康相關文本分類的表現,並比較了不同模型的效果。結果顯示,基於人類標註數據的模型如RoBERTa和BERTweet表現優於基於GPT-3.5和GPT-4的模型。雖然LLM可用於數據增強,但僅依賴LLM標註數據訓練效果不佳。研究指出,LLM作為零樣本分類器能有效減少假陰性,並減輕手動標註負擔,顯示其在特定領域自然語言處理的潛力。 PubMed DOI

這項研究探討了大型語言模型(LLMs),特別是ChatGPT-4.0,對於三級醫療機構病人投訴的回應效果。研究比較了ChatGPT與病人關係部門的回應,結果顯示87.2%到97.3%的受訪者更偏好ChatGPT的回應,且其在適當性、同理心等方面得分較高。ChatGPT的回應平均較長,且與高得分有關。研究顯示,ChatGPT能有效提升病人投訴的解決效果,未來可進一步探討AI在醫療系統中的應用潛力。 PubMed DOI

這項研究分析了不同大型語言模型(LLMs)在識別遺傳疾病時的表現,對比了開源模型(如Llama-2-chat和Vicuna)與封閉源模型(如ChatGPT-4)。結果顯示,開源模型的準確率在54%-68%之間,而ChatGPT-4則高達89%-90%。研究還指出,臨床醫生和一般民眾的提問對模型表現有顯著影響,且使用列表型提示能提升準確性。整體而言,這項研究揭示了LLMs在醫療領域的潛力與挑戰。 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 PubMed DOI

這項研究探討如何利用大型語言模型(LLMs)來改善醫療領域的質性訪談數據解釋。傳統的主題建模方法常常過於簡化,難以捕捉患者和醫療專業人員的細微經驗。研究發現,LLMs在數據解釋的效率和深度上表現更佳,顯示它們在整合人類觀點進入可持續醫療系統的發展中,可能扮演重要角色,並有助於解決該領域的挑戰。 PubMed DOI

這項研究探討大型語言模型(LLMs)在理解醫學研究論文的能力,特別是使用STROBE檢查表進行評估。研究比較了六個LLMs的表現,包括GPT-3.5-Turbo和GPT-4系列,與專業醫學教授的評估。分析了50篇來自PubMed的論文,結果顯示GPT-3.5-Turbo的準確率最高(66.9%),而Gemini Pro和GPT-4-0613的得分最低。研究強調LLMs在醫學文獻理解上的潛力,但也指出需進一步研究以克服現有限制。 PubMed DOI

這項研究探討了OpenAI的ChatGPT如何協助公共衛生工作者開發疾病傳播模型,以制定感染控制策略。透過案例研究,公共衛生工作者與ChatGPT合作,創建符合10天流行病學數據的數學模型,並進行代碼生成、精煉和除錯,估算基本繁殖數(Ro)和最終疫情規模。最終模型重現疫情曲線,Ro為4.19,最終疫情規模達98.3%。研究顯示,ChatGPT能加速模型開發,降低技術門檻,改善全球疫情應對能力,特別在資源有限的環境中。 PubMed DOI