AI Psychometrics: Assessing the Psychological Profiles of Large Language Models Through Psychometric Inventories.
AI心理測量學：透過心理測量庫評估大型語言模型的心理特徵。 Perspect Psychol Sci 2024-01-02

討論如何利用心理測驗庫評估大型語言模型的特質，假設模型會從性訓練文本中獲得心理特質。透過心理測驗庫，研究者可以探究比較模型的非認知特徵，揭示其個性、價值觀、信念和偏見。文章提出了評估模型特質的方法，包括零-shot分類。最後討論了AI心理測量學的挑戰和未來研究方向。 PubMed DOI

Beyond rating scales: With targeted evaluation, large language models are poised for psychological assessment.
超越評分量表：透過有針對性的評估，大型語言模型準備好進行心理評估。 Psychiatry Res 2024-02-19

討論了最新研究，認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確，且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證，專注自然語言溝通可改變心理健康評估。 PubMed DOI

A comprehensive evaluation of large Language models on benchmark biomedical text processing tasks.
大型語言模型在基準生物醫學文本處理任務上的全面評估。 Comput Biol Med 2024-03-21

這篇論文評估了大型語言模型（LLMs）在各種生物醫學任務上的表現，發現即使在較小的生物醫學數據集上沒有進行特定微調，LLMs 也能表現良好。雖然LLMs 在所有任務上可能不如專門的生物醫學模型表現優秀，但它們展現了在具有有限標註數據的生物醫學任務中作為有用工具的潛力。 PubMed DOI

Assessing the Efficacy of Large Language Models in Health Literacy: A Comprehensive Cross-Sectional Study.
評估大型語言模型在健康識字能力中的功效：一項全面的橫斷面研究。 Yale J Biol Med 2024-04-03

研究使用LLMs提升兒童健康識字能力，結果顯示LLMs能根據年級提供定制回應，但在六年級以下表現不佳。然而，它們可提供各種資訊，有助青少年了解健康資訊。需要進一步研究驗證其準確性和有效性。 PubMed DOI

Evaluating the strengths and weaknesses of large language models in answering neurophysiology questions.
評估大型語言模型在回答神經生理學問題時的優勢與劣勢。 Sci Rep 2024-05-11

研究發現大型語言模型（LLMs）如ChatGPT、Google的Bard和Anthropic的Claude在回答英文和波斯語神經生理學問題時表現良好，但在整合性主題上有進步空間。研究指出LLMs在高階推理和知識整合方面需要更多針對性的訓練，未來發展應更注重領域特定的評估。 PubMed DOI

Integrating human expertise & automated methods for a dynamic and multi-parametric evaluation of large language models' feasibility in clinical decision-making.
將人類專業知識與自動化方法整合，以動態和多參數評估大型語言模型在臨床決策中的可行性。 Int J Med Inform 2024-05-29

近期LLMs如ChatGPT在醫療保健領域受歡迎，但也帶來安全和倫理風險。為因應此挑戰，提出新方法評估LLMs在臨床護理中的可行性，強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧，確定關鍵評估領域。由專家進行同行評審，確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後，有些被推薦使用，有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

Expansive data, extensive model: Investigating discussion topics around LLM through unsupervised machine learning in academic papers and news.
廣泛的數據，龐大的模型：通過非監督式機器學習在學術論文和新聞中探討 LLM 的討論主題。 PLoS One 2024-05-31

研究探討2020年6月1日至2023年12月31日期間，針對大型語言模型（LLMs）的主題建模方法。使用Web of Science和LexisNexis數據，聚焦於"Large language model"、"LLM"和"ChatGPT"等LLMs。評估LDA、NMF、CTM和BERTopic等方法，發現BERTopic表現最佳。新聞報導著重LLM應用，學術論文則更專業。研究提供LLMs未來挑戰見解，對LLM服務業者有幫助。 PubMed DOI

The political preferences of LLMs.
LLMs 的政治偏好。 PLoS One 2024-07-31

您的分析指出大型語言模型（LLMs）中存在的政治偏見問題。透過對24個對話型LLM進行測試，發現它們在政治問題上主要偏向左派觀點。雖然五個基礎模型的表現不佳，但這也讓結果的可靠性受到質疑。此外，研究顯示LLMs可以透過有監督的微調受到特定政治取向影響，這對公共話語的塑造有重要意義。這些潛在的偏見可能影響社會認知與決策，因此在開發和使用LLMs時，必須仔細考量其政治影響。 PubMed DOI

Harnessing LLMs for multi-dimensional writing assessment: Reliability and alignment with human judgments.
利用大型語言模型進行多維寫作評估：可靠性及與人類評價的一致性。 Heliyon 2024-08-08

最近在自然語言處理和人工智慧的進展，使大型語言模型（LLMs）在自動化作文評分（AES）中應用更為廣泛，提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性，特別是評分的一致性及其與人類評審者的對齊程度。結果顯示，提示工程對LLMs的可靠性至關重要，且GPT-4的表現優於其他模型，尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者，以深入了解LLMs在教育中的影響。 PubMed DOI

Large Language Models, scientific knowledge and factuality: A framework to streamline human expert evaluation.
大型語言模型、科學知識與事實性：一個簡化人類專家評估的框架。 J Biomed Inform 2024-09-14

這篇論文提出了一個評估大型語言模型（LLMs）在生物醫學知識編碼的框架，特別針對抗生素研究。框架分為三個步驟：流暢性、提示對齊和語義一致性，並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型，透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示，雖然流暢性有所提升，但事實準確性仍有待加強，對LLMs作為生物醫學知識庫的可靠性提出了疑慮，並強調需要更系統的評估方法。 PubMed DOI

原始文章

站上相關主題文章列表