Large language models' varying accuracy in recognizing risk-promoting and health-supporting sentiments in public health discourse: The cases of HPV vaccination and heated tobacco products.

大型語言模型在辨識公共衛生論述中促進風險與支持健康情感的準確性差異：以HPV疫苗接種與加熱菸品為例

<think> 嗯，我需要分析這篇關於大型語言模型在公衛情感檢測準確性的研究。首先，看看研究目的，它主要是探討LLMs在辨識風險促進和健康支持情感上的準確性，特別是在HPV疫苗和加熱煙草產品這兩個話題上。研究假設可能是這些模型在這兩個領域的表現會有所不同，或者它們的準確性可能不如人工標註的標準。接下來，研究方法方面，它們用了三個不同的LLMs，GPT、Gemini和LLAMA，從Facebook和Twitter收集數據，再用人工標註作為金標準。這樣的設計合理，因為可以橫向比較模型的性能。優點是涵蓋了多平台和多模型，但缺點可能是數據來源的偏差，比如平台的使用者群體不同，可能影響結果。數據解釋部分，研究發現模型在辨識風險促進情感上準確性較高，但在健康支持方面準確性有所不同，尤其在Twitter上更高。這可能是因為Twitter的內容更傾向於支持健康行為，而Facebook則可能有更多爭議性內容。另外，模型在辨識中立訊息時遇到困難，這可能是因為中立內容的情感色彩不明顯，模型難以準確分類。研究的局限性可能包括樣本數據的代表性問題，只從兩個平台收集數據，可能忽略了其他社交媒體的影響。此外，人工標註的標準是否完全可靠也值得商榷，不同標註者可能有不同的解讀。臨床意涵方面，這項研究提醒我們在使用LLMs進行公衛分析時，需要仔細選擇和驗證模型，因為訓練數據中的偏差可能導致結果的不準確。未來研究可以考慮多平台數據的整合，或者針對特定話題進行模型微調，以提高準確性。其他可能的解釋包括，不同平台的使用者行為和內容特點可能影響模型的表現，或者模型的訓練數據中對這些話題的覆蓋深度不一，導致準確性差異。這些都是值得探討的方向。總的來說，這篇研究提供了有價值的洞見，但仍有改進空間，未來可以在數據來源和模型優化上進行深入研究。 </think> ### 研究目的與假設該研究主要探討大型語言模型（LLMs）在辨識公衛話題中風險促進和健康支持情感上的準確性。研究聚焦於HPV疫苗和加熱煙草產品兩個話題，假設LLMs在這兩個領域的表現會有所不同，且準確性可能受到平台和模型類型的影響。 ### 方法與設計研究採用了GPT、Gemini和LLAMA三個模型，從Facebook和Twitter收集數據，並以人工標註為金標準。這種方法合理，因為它能橫向比較模型性能，涵蓋多平台和多模型。然而，數據來源可能存在偏差，且人工標註的可靠性可能受限。 ### 數據解釋與結果結果顯示模型在辨識風險促進情感上準確性較高，但在健康支持方面準確性有所不同，尤其在Twitter上更高。這可能與Twitter內容更傾向於支持健康行為有關。模型在辨識中立訊息時遇到困難，可能因中立內容情感色彩不明顯。 ### 局限性與偏見研究可能受限於樣本代表性，僅從兩個平台收集數據，忽略其他社交媒體影響。人工標註的標準可能存在差異，不同標註者解讀可能不同。 ### 臨床及未來研究意涵研究提醒在公衛分析中需謹慎選擇和驗證模型，因為訓練數據偏差可能影響結果。未來研究可考慮整合多平台數據或微調模型以提高準確性。 ### 其他觀點不同平台使用者行為和內容特點可能影響模型表現，模型訓練數據中的話題覆蓋深度差異可能導致準確性差異。這些方向值得進一步探討。 ### 總結研究提供有價值的洞見，但仍有改進空間，未來可在數據來源和模型優化上深入研究。