這篇論文比較了 GPT-3.5-Turbo、FLAN-T5 和 BERT 等大型語言模型在健康社群媒體情感分析的表現。結果顯示,LLMs 比傳統工具(像 VADER)表現更好,但準確度還有進步空間。透過調整提示語和微調,尤其是 BERT,效果會更好。研究也建議未來要在標註資料少的情況下,持續優化這些模型。 PubMed
這項研究比較多種大型語言模型,發現經過微調的GatorTronGPT在從臨床紀錄中擷取鴉片類藥物過量和使用障礙的關鍵資訊上表現最佳。結果顯示,生成式LLM能有效協助擷取相關資訊,對後續研究和介入措施很有幫助。 PubMed