An exploratory survey about using ChatGPT in education, healthcare, and research.
在教育、醫療和研究中使用 ChatGPT 的探索性調查。 PLoS One 2024-02-10

ChatGPT是一個廣泛使用的語言模型，討論了在教育、研究和醫療領域整合的議題。對於ChatGPT的使用觀點有不同意見，尤其在教育領域存在著不確定性。討論了其優缺點，強調了在教育和醫療等重要領域進行進一步探索和謹慎採用的必要性。 PubMed DOI

Application of artificial intelligence chatbots, including ChatGPT, in education, scholarly work, programming, and content generation and its prospects: a narrative review.
人工智慧聊天機器人在教育、學術研究、程式設計和內容生成等領域的應用，以及其前景：一篇敘事性綜述。 J Educ Eval Health Prof 2024-02-14

研究探討了OpenAI的ChatGPT AI聊天機器人的功能、應用和限制。ChatGPT廣泛運用在教育、程式設計、內容生成等領域，展現多功能性。儘管具潛力，但也面臨抄襲、可靠性和偏見等問題。ChatGPT與傳統搜尋引擎不同，但也有偏見和收入挑戰。儘管有限制，ChatGPT被視為具有重新定義生成技術潛力的AI工具。AI的進步改變知識應用方式，強調對AI素養和有效運用AI的需求。 PubMed DOI

Prompts, Pearls, Imperfections: Comparing ChatGPT and a Human Researcher in Qualitative Data Analysis.
ChatGPT 與人類研究者在質性數據分析中的比較：提示、要點、不足。 Qual Health Res 2024-05-22

ChatGPT對科學研究的影響仍有爭議，但在支持質性研究方面的潛力尚未完全被了解。本文探討了ChatGPT在分析訪談文本方面的表現，並與人類研究者進行了比較。ChatGPT識別出與人類研究者相似的主題，包括更微妙的動態。它提出了一個代碼手冊和關鍵引文，具有表面效度但需要進一步審查。ChatGPT能夠將主題與理論話語有力地聯繫起來，儘管仍有挑戰存在，但其表現超出預期，顯示可能有助於質性研究實踐。 PubMed DOI

GPT-4 as an X data annotator: Unraveling its performance on a stance classification task.
GPT-4 作為 X 數據標註者：揭示其在立場分類任務上的表現。 PLoS One 2024-08-15

這項研究探討了使用 GPT-4 標註社交媒體文本，特別是立場檢測，因為這類文本通常非正式且多樣。研究人員建立了一個推文數據集，並由專家標註以確保品質。他們測試了三種提示技術：零樣本、少樣本和帶思考鏈的零樣本，以評估 GPT-4 的表現。研究結果顯示，GPT-4 在少樣本和帶思考鏈的零樣本方法上表現不錯，但未能超越經過人工標註微調的模型。特別是，帶思考鏈的零樣本方法在標註方面表現優於標準零樣本，且效果接近少樣本方法。 PubMed DOI

ChatGPT as Research Scientist: Probing GPT's capabilities as a Research Librarian, Research Ethicist, Data Generator, and Data Predictor.
ChatGPT 作為研究科學家：探討 GPT 作為研究圖書館員、研究倫理學家、數據生成器和數據預測者的能力。 Proc Natl Acad Sci U S A 2024-08-20

這項研究系統性評估了GPT-3.5和GPT-4在心理科學領域的四個關鍵能力。首先，作為研究圖書館員，GPT-4在生成虛構參考文獻的準確性上明顯優於GPT-3.5。其次，GPT-4在識別研究倫理問題方面表現出色，成功糾正了大部分明顯和微妙的違規。第三，兩者都能重現文化偏見，顯示出數據生成的潛力。最後，兩者在預測新數據方面的能力有限。總體來看，雖然GPT模型有所進步，但在生成新見解和可靠參考文獻上仍有待加強。 PubMed DOI

ChatGPT's quality: Reliability and validity of concept inventory items.
ChatGPT 的質量：概念庫項目的可靠性和有效性。 Front Psychol 2024-10-23

最近大型語言模型（LLMs）如ChatGPT在教育領域的應用，帶來了機會與挑戰。研究探討了ChatGPT在運動學領域生成的教育題目質量，並優化提示語產出30個問題，經專家評估後選出15個進行調查。結果顯示這些題目的難度和區分指數中等，但整體表現略低於傳統的力概念測驗（FCI）。研究強調，雖然LLMs能生成高質量題目，但仍需人類監督與學生反饋，以確保評估的有效性。 PubMed DOI

Evaluating large language models for selection of statistical test for research: A pilot study.
評估大型語言模型在研究統計檢定選擇中的應用：一項初步研究。 Perspect Clin Res 2024-11-25

這項研究評估了四個大型語言模型（LLMs），包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity，來推薦適合的統計測試。研究人員使用27個已發表文獻的案例，將這些模型的建議與人類專家的建議進行比較。結果顯示，所有模型的建議一致性超過75%，接受度超過95%。特別是ChatGPT3.5的符合度最高，達85.19%，而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試，但無法完全取代人類專業知識。 PubMed DOI

Open-source LLMs for text annotation: a practical guide for model setting and fine-tuning.
開源 LLMs 用於文本標註：模型設定與微調的實用指南。 J Comput Soc Sci 2024-12-23

這篇論文探討開源大型語言模型（LLMs）在政治科學文本分類任務中的效能，包括立場、主題和相關性分類。研究旨在協助研究人員明智選擇LLMs進行文本分析，並設定性能基準。結果顯示，微調能顯著提升開源LLMs的表現，甚至可匹敵或超越零樣本的GPT-3.5和GPT-4。研究還指出，微調比少樣本訓練更有效。作者提供Python筆記本，幫助其他研究人員應用LLMs進行文本標註，相關材料可在指定DOI上獲得。 PubMed DOI

Exploring the Early Adoption of Open AI among Laypeople and Technical Professionals: An Analysis of Twitter Conversations on #ChatGPT and #GPT3.
探索一般民眾與技術專業人士對 Open AI 的早期採用：對 #ChatGPT 和 #GPT3 的 Twitter 會話分析。 Int J Hum Comput Interact 2025-02-24

這項研究分析了ChatGPT發布後，Twitter上對大型語言模型（LLMs）的討論，特別是ChatGPT和GPT-3。透過超過59,000條推文的主題建模和情感分析，發現普通人和技術專業人士的態度存在差異。研究指出，關於ChatGPT的討論多集中在商業應用，且常帶有負面情緒；而GPT-3的討論則較為正面，涵蓋倫理等多元主題。這顯示出進一步研究的必要性，以了解LLMs的影響與風險，並為政策制定者提供參考。 PubMed DOI

Comparing the performance of a large language model and naive human interviewers in interviewing children about a witnessed mock-event.
比較大型語言模型與天真的人類面試者在對兒童進行目擊模擬事件面試中的表現。 PLoS One 2025-02-28

這項研究比較了大型語言模型（LLM）ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中，40名由LLM訪談，38名由人類面試官訪談。結果顯示，無論是LLM還是人類，建議問題都能引導出更準確的信息。雖然LLM提問較少，但獲得的獨特正確信息更多，且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題，未來仍需進一步研究其在實際情境中的應用。 PubMed DOI

原始文章

站上相關主題文章列表