原始文章

這項研究比較了大型語言模型(LLM)ChatGPT與人類面試官在對6到8歲兒童進行模擬訪談的效果。78名兒童中,40名由LLM訪談,38名由人類面試官訪談。結果顯示,無論是LLM還是人類,建議問題都能引導出更準確的信息。雖然LLM提問較少,但獲得的獨特正確信息更多,且錯誤信息較少。這顯示LLM能提出符合兒童訪談最佳實踐的問題,未來仍需進一步研究其在實際情境中的應用。 PubMed DOI


站上相關主題文章列表

在研究中,我探討了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,對複雜行為科學實驗結果的預測能力。結果顯示,GPT-4在預測情感、性別和社會認知方面,與119位人類專家的表現相當,相關性高達0.89,而GPT-3.5則僅有0.07。在另一項研究中,讓大學參與者與GPT-4驅動的聊天機器人互動,提升了他們的預測準確性。這些結果顯示,人工智慧在預測行為主張的實證支持上,可能成為有價值的工具,並強調人類與AI合作的潛力。 PubMed DOI

這項研究評估了四個大型語言模型(LLMs),包括OpenAI的ChatGPT3.5、Google Bard、Microsoft Bing Chat和Perplexity,來推薦適合的統計測試。研究人員使用27個已發表文獻的案例,將這些模型的建議與人類專家的建議進行比較。結果顯示,所有模型的建議一致性超過75%,接受度超過95%。特別是ChatGPT3.5的符合度最高,達85.19%,而Microsoft Bing Chat則為96.3%。研究顯示這些模型能有效協助選擇統計測試,但無法完全取代人類專業知識。 PubMed DOI

這項研究探討了使用ChatGPT作為醫學教育中的標準化病人,特別是在病史採集方面。研究分為兩個階段:第一階段評估其可行性,模擬炎症性腸病的對話並將回應分為好、中、差三類。第二階段則評估其擬人化、臨床準確性和適應性,並調整提示以增強回應。 結果顯示,ChatGPT能有效區分不同質量的回應,經過修訂的提示使其準確性提高了4.926倍。整體而言,研究表明ChatGPT可作為模擬醫學評估的工具,並有潛力改善醫學訓練。 PubMed DOI

這項研究評估了四種大型語言模型(LLM)工具——ChatGPT、Google Bard、Microsoft Bing Chat 和 Google SGE——在提供癌症兒童照顧者資訊的有效性。研究使用26個常見問題,五位小兒腫瘤學專家根據多項標準進行評估。結果顯示,ChatGPT整體表現最佳,特別在複雜性上,而Google Bard在準確性和清晰度上表現突出。Bing Chat和Google SGE得分較低。專家強調情感語調和同理心的重要性,未來需進一步研究這些工具在其他醫療領域的應用。 PubMed DOI

這項研究探討了ChatGPT在醫學教育質性研究中進行主題分析的應用。由於質性分析複雜且耗時,研究評估了ChatGPT的有效性並與人類分析師比較。結果顯示,ChatGPT在大多數領域表現良好,但在可轉移性和分析深度上有所不同。六個關鍵主題包括:與人類結果的相似性、正面印象、數據連結清晰、提示影響、缺乏背景描述及理論基礎。雖然ChatGPT能有效識別關鍵數據,但深入分析仍需人類參與以增強深度。 PubMed DOI

您的研究探討了使用ChatGPT學習先進駕駛輔助系統(ADAS)的效果,與傳統紙本學習相比。透過多選題問卷和NASA任務負荷指數,評估參與者的理解能力和認知負荷。結果顯示,使用ChatGPT的參與者正確率平均高出11%,且報告的認知和身體需求較低,顯示學習體驗更有效且壓力較小。研究強調ChatGPT能滿足不同學習偏好,增強對複雜主題的理解,並建議在教育中整合大型語言模型(LLM)工具,並需進一步研究其在不同族群和學習領域的影響。 PubMed DOI

將像 ChatGPT-4o 這樣的語言模型應用於兒童醫療,可能會顯著改善發展篩檢的流程。本研究評估了 ChatGPT-4o 的有效性,對比了直接提示和序列提示兩種方法,並與貝利嬰兒發展量表第三版進行比較。 在106個兒科案例中,直接提示的敏感度為73.42%,整體準確率為69.81%;而序列提示的特異性為62.96%,整體準確率為67.92%。結果顯示,直接提示在識別發展問題上更敏感,序列提示則提供較高的特異性。這項研究顯示語言模型在兒童發展評估中的潛力。 PubMed DOI

這項研究比較兩款大型語言模型在回答口腔顏面裂相關問題時的表現。結果發現,Deepseek-R1在準確性、清晰度、相關性和可信度上表現較佳,但GPT o1-preview在展現同理心方面較突出。兩者各有優勢,未來醫療用AI應結合準確性與同理心,才能提供更完善的病患諮詢服務。 PubMed DOI

這項研究比較了 ChatGPT-4、DeepSeek 和 Gemini 在回答閱讀障礙和計算障礙問題時的表現。三款 AI 都能給出高品質、實用的答案,但 ChatGPT-4 在計算障礙方面最穩定,DeepSeek 在閱讀障礙上最可靠。整體來說,三者表現差異不大,但相關資訊還是需要專業人士確認。 PubMed DOI

這項研究發現,ChatGPT-4o 在小兒急診診斷上表現比醫師還好,甚至連複雜案例也能大多答對。先進的聊天機器人有潛力協助醫師處理急診,但應該當作輔助工具,不能取代醫師,且需訂出明確的 AI 與醫師合作流程。 PubMed DOI