搜尋結果

使用者輸入 LLM evaluate risk of bias (時間範圍: all)
轉換句 How to evaluate risk of bias in LLM studies, Methods for assessing bias in LLM research, Tools and guidelines for determining bias in LLM literature
執行時間 5.57846 秒
花費Token 132
Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估:可靠性及與人類評價的一致性。 Heliyon / / 2024-08-08

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

The policies on the use of large language models in radiological journals are lacking: a meta-research study.
放射學期刊中大型語言模型使用政策的不足:一項元研究。 Insights Imaging / / 2024-08-01

這項元研究評估了放射學期刊中關於大型語言模型(LLMs)使用的政策。結果顯示,43.9%的期刊有相關政策,其中43.4%針對作者,29.6%針對審稿人,25.9%針對編輯。許多期刊討論了LLM的使用細節、名稱、驗證及角色,但僅少數提及其潛在影響。研究指出,LLM政策的存在與出版商有顯著關聯,並建議制定共享的報告指導方針,以提升科學寫作的質量與透明度,強調目前的探索仍需進一步發展。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One / / 2024-07-31

您的分析指出大型語言模型(LLMs)中存在的政治偏見問題。透過對24個對話型LLM進行測試,發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳,但這也讓結果的可靠性受到質疑。此外,研究顯示LLMs可以透過有監督的微調受到特定政治取向影響,這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策,因此在開發和使用LLMs時,必須仔細考量其政治影響。 PubMed DOI

Performance of a Large Language Model in Screening Citations.
大型語言模型在篩選引用文獻中的表現。 JAMA Netw Open / / 2024-07-08

研究發現使用大型語言模型(LLM)在篩選標題和摘要時效率高且準確。GPT-4 Turbo在比較腦膜炎和敗血症臨床問題時表現優異,速度也比傳統方法快。這顯示LLM輔助篩選可提升系統性回顧效率,減少工作負擔。 PubMed DOI

(Ir)rationality and cognitive biases in large language models.
大型語言模型中的(不)理性與認知偏誤。 R Soc Open Sci / / 2024-08-05

這篇論文探討大型語言模型(LLMs)的理性推理能力,評估它們在認知心理學任務中的表現。研究發現,LLMs展現出與人類相似的非理性,但其非理性特徵與人類偏見不同。當LLMs給出錯誤答案時,這些錯誤不符合典型的人類偏見,顯示出獨特的非理性。此外,這些模型的回應顯示出顯著的不一致性,進一步增添了非理性的層面。論文也提出了評估和比較LLMs理性推理能力的方法論貢獻。 PubMed DOI