原始文章

這項研究比較了大型語言模型(LLM)ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中,40名由LLM訪談,38名由人類面試官訪談。結果顯示,無論是LLM還是人類,建議問題都能引導出更準確的信息。雖然LLM提問較少,但獲得的獨特正確信息更多,且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題,未來仍需進一步研究其在實際情境中的應用。 PubMed DOI


站上相關主題文章列表

研究比較了ChatGPT與人類回答基因問題的表現,發現ChatGPT準確率為68.2%,人類為66.6%,兩者在記憶問題上表現較好。然而,ChatGPT有時會對同一問題給出不同答案。儘管ChatGPT表現令人印象深刻,但在高風險場景如臨床應用中有限制,解決這些將對實際應用至關重要。 PubMed DOI

製作醫學考題很費時,但好問題能幫助學生學習。使用像ChatGPT這樣的大型語言模型來出題可能有幫助,但目前還沒有研究比較學生在LLM出題和人類出題上的表現。一項研究發現,學生在兩種問題來源下表現沒有太大差異,但人類出的問題更有區分度。學生能正確分辨問題來源的機率約為57%。需要進一步研究不同情境和問題類型的影響。 PubMed DOI

ChatGPT對科學研究的影響仍有爭議,但在支持質性研究方面的潛力尚未完全被了解。本文探討了ChatGPT在分析訪談文本方面的表現,並與人類研究者進行了比較。ChatGPT識別出與人類研究者相似的主題,包括更微妙的動態。它提出了一個代碼手冊和關鍵引文,具有表面效度但需要進一步審查。ChatGPT能夠將主題與理論話語有力地聯繫起來,儘管仍有挑戰存在,但其表現超出預期,顯示可能有助於質性研究實踐。 PubMed DOI

研究評估LLMs和ChatGPT在急診室分流的效果,與受訓與否的人員比較。結果顯示LLMs和ChatGPT表現不錯,但沒有超越專業人員。雖然在此研究中未顯著改善未受訓醫生的工作,但新LLMs版本經更多訓練後有潛力提升。 PubMed DOI

這項研究探討大型語言模型(LLMs),特別是GPT-4,如何應用於分析課堂對話,以評估教學品質和診斷教育需求。傳統質性分析方法耗時且需專業知識,研究旨在確認LLMs是否能簡化此過程。研究使用中學數學和中文課的數據,將專家手動編碼的結果與GPT-4生成的結果進行比較。結果顯示,GPT-4能顯著節省時間,且編碼一致性高,顯示LLMs在教學評估和教育改進上具潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時,研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示,ChatGPT在大多數領域表現良好,但在可轉移性和分析深度上有所不同。六個關鍵主題包括:與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據,但深入分析仍需人類參與以增強深度。 PubMed DOI

將像 ChatGPT-4o 這樣的語言模型應用於兒童醫療,可能會顯著改善發展篩檢的流程。本研究評估了 ChatGPT-4o 的有效性,對比了直接提示和序列提示兩種方法,並與貝利嬰兒發展量表第三版進行比較。 在106個兒科案例中,直接提示的敏感度為73.42%,整體準確率為69.81%;而序列提示的特異性為62.96%,整體準確率為67.92%。結果顯示,直接提示在識別發展問題上更敏感,序列提示則提供較高的特異性。這項研究顯示語言模型在兒童發展評估中的潛力。 PubMed DOI