原始文章

您的研究強調了全面評估大型語言模型(LLMs)的重要性,透過結合多個任務和多樣化的評估者來達成。您對四個LLM在八個不同任務上的表現進行評估,並邀請了17位來自不同領域的評估者,這樣的做法讓我們對LLM的性能有更深入的了解。這種方法不僅展示了模型的能力,還突顯了任務和評估者的多樣性如何影響結果,可能提供對LLM熟練度的更細緻見解,並幫助識別其在不同情境下的優劣。 PubMed DOI


站上相關主題文章列表

討論如何利用心理測驗庫評估大型語言模型的特質,假設模型會從性訓練文本中獲得心理特質。透過心理測驗庫,研究者可以探究比較模型的非認知特徵,揭示其個性、價值觀、信念和偏見。文章提出了評估模型特質的方法,包括零-shot分類。最後討論了AI心理測量學的挑戰和未來研究方向。 PubMed DOI

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

這篇論文評估了大型語言模型(LLMs)在各種生物醫學任務上的表現,發現即使在較小的生物醫學數據集上沒有進行特定微調,LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀,但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

研究使用LLMs提升兒童健康識字能力,結果顯示LLMs能根據年級提供定制回應,但在六年級以下表現不佳。然而,它們可提供各種資訊,有助青少年了解健康資訊。需要進一步研究驗證其準確性和有效性。 PubMed DOI

研究發現大型語言模型(LLMs)如ChatGPT、Google的Bard和Anthropic的Claude在回答英文和波斯語神經生理學問題時表現良好,但在整合性主題上有進步空間。研究指出LLMs在高階推理和知識整合方面需要更多針對性的訓練,未來發展應更注重領域特定的評估。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

研究探討2020年6月1日至2023年12月31日期間,針對大型語言模型(LLMs)的主題建模方法。使用Web of Science和LexisNexis數據,聚焦於"Large language model"、"LLM"和"ChatGPT"等LLMs。評估LDA、NMF、CTM和BERTopic等方法,發現BERTopic表現最佳。新聞報導著重LLM應用,學術論文則更專業。研究提供LLMs未來挑戰見解,對LLM服務業者有幫助。 PubMed DOI

您的分析指出大型語言模型(LLMs)中存在的政治偏見問題。透過對24個對話型LLM進行測試,發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳,但這也讓結果的可靠性受到質疑。此外,研究顯示LLMs可以透過有監督的微調受到特定政治取向影響,這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策,因此在開發和使用LLMs時,必須仔細考量其政治影響。 PubMed DOI

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI