原始文章

最近在自然語言處理和人工智慧的進展,使大型語言模型(LLMs)在自動化作文評分(AES)中應用更為廣泛,提供高效且無偏見的評估。本研究評估了LLMs在AES中的可靠性,特別是評分的一致性及其與人類評審者的對齊程度。結果顯示,提示工程對LLMs的可靠性至關重要,且GPT-4的表現優於其他模型,尤其在「想法」和「組織」維度上表現突出。研究建議未來應擴展到不同寫作類型和參與者,以深入了解LLMs在教育中的影響。 PubMed DOI


站上相關主題文章列表

討論人工智慧、自然語言處理和大型語言模型對教育和研究的影響,包括優勢、挑戰和應用。強調文本生成、數據分析、教育支援、評分和心理健康輔助等應用。解決道德問題和偏見至關重要,探討AI在教育和研究中的角色,強調其積極變革的潛力。 PubMed DOI

ChatGPT等生成式AI模型廣泛運用,將對教育和資訊生成產生重大影響。研究指出,AI文章品質較高,風格與人寫不同。建議教育工作者應融入AI技術,重新思考作業方式,並運用AI工具提升學習成效。 PubMed DOI

討論了最新研究,認為大型語言模型如BERT和ChatGPT有潛力改革心理評估。這些模型在語言處理任務中表現準確,且受歡迎。成功因有效表達上下文單詞。建議透過適當驗證,專注自然語言溝通可改變心理健康評估。 PubMed DOI

近期LLMs如ChatGPT在醫療保健領域受歡迎,但也帶來安全和倫理風險。為因應此挑戰,提出新方法評估LLMs在臨床護理中的可行性,強調安全、個人化護理和倫理。透過跨學科知識整合和文獻回顧,確定關鍵評估領域。由專家進行同行評審,確保科學嚴謹。在臨床腫瘤護理中評估九種LLMs後,有些被推薦使用,有些謹慎使用或不可使用。推薦使用特定領域的LLMs可支持醫療專業人員的決策。 PubMed DOI

大型語言模型如GPT-4、Bard和Claude,透過高效的文本處理能力,改變醫學等領域的學術寫作。雖然這些模型能生成類似人類內容,有助於文獻回顧和假設制定,但人工智慧生成內容的準確性引發道德疑慮。本文討論LLMs對醫學寫作的影響、道德挑戰,以及辨識人工智慧生成文本的方法,同時思考LLMs在學術出版和醫學領域的未來。 PubMed DOI

虛弱是健康的重要指標,反映生理衰退帶來的脆弱性。這項研究探討了使用OpenAI的GPT-3.5-turbo模型進行虛弱評分的可靠性,並比較了基本提示與包含CFS定義的指令調整提示。結果顯示,LLM的評分與人類評分者相近,且指令調整提示在多數情境中表現出高可靠性。然而,在日常生活活動資訊不足的情況下,LLM可能會高估虛弱評分。這顯示LLM在醫療評估中有潛力,但仍需進一步研究其在臨床應用的角色。 PubMed DOI

您的研究強調了全面評估大型語言模型(LLMs)的重要性,透過結合多個任務和多樣化的評估者來達成。您對四個LLM在八個不同任務上的表現進行評估,並邀請了17位來自不同領域的評估者,這樣的做法讓我們對LLM的性能有更深入的了解。這種方法不僅展示了模型的能力,還突顯了任務和評估者的多樣性如何影響結果,可能提供對LLM熟練度的更細緻見解,並幫助識別其在不同情境下的優劣。 PubMed DOI

大型語言模型(LLMs)對醫學寫作和出版影響深遠,最近的綜述文章強調了其應用、挑戰及未來影響。調查顯示,LLMs在科學寫作中被廣泛使用,帶來了許多好處與挑戰。它們在文獻搜尋、研究設計、寫作輔助等方面表現出色,並在同行評審過程中也扮演重要角色。為了確保學術工作的完整性,研究人員需驗證AI生成內容的準確性,並建立人類與AI的協作流程。未來需解決LLMs的限制,並持續更新相關政策,以維護醫學寫作的品質。 PubMed DOI

這項研究探討生成性大型語言模型(LLMs)在分析公共健康相關社交媒體內容的可行性,特別是疫苗言論。研究發現,LLMs通常能有效識別人類專家所關注的主題,且錯誤信息出現率較低。雖然LLMs的分析深度不及人類專家,但專家認為其生成的主題仍然合理且相關。總體來看,LLMs在處理健康相關社交媒體內容方面展現出顯著潛力,未來可能有助於公共健康策略的制定與社區關注的理解。 PubMed DOI

這篇論文提出了一個評估大型語言模型(LLMs)在生物醫學知識編碼的框架,特別針對抗生素研究。框架分為三個步驟:流暢性、提示對齊和語義一致性,並評估事實知識和回應的具體性。研究涵蓋了ChatGPT、GPT-4和Llama 2等十一個模型,透過生成化合物定義和確定化合物與真菌關係的任務進行評估。結果顯示,雖然流暢性有所提升,但事實準確性仍有待加強,對LLMs作為生物醫學知識庫的可靠性提出了疑慮,並強調需要更系統的評估方法。 PubMed DOI