Exploring the potential utility of AI large language models for medical ethics: an expert panel evaluation of GPT-4.
探討醫學倫理中 AI 大型語言模型的潛在應用：專家小組評估 GPT-4。 J Med Ethics 2024-02-01

研究評估了GPT-4在處理複雜醫學倫理情境時的表現。倫理學家發現模型在技術清晰度方面表現不錯，但在深度和可接受性方面有待提升。模型在微妙的倫理困境和道德原則應用上遇到困難。研究強調了在臨床使用GPT-4前需要持續評估和改進。 PubMed DOI

Large language models in medical ethics: useful but not expert.
醫學倫理學中的大型語言模型：有用但非專家。 J Med Ethics 2024-01-22

研究發現GPT-4在回答醫學倫理問題上有潛力，但在處理實際倫理困境上仍有改進空間。整合大型語言模型到醫學倫理決策有潛力，但需謹慎。建議運用模型挖掘健康記錄，或作為倫理教育工具，但需注意其限制。 PubMed DOI

The moral machine experiment on large language models.
大型語言模型的道德機器實驗。 R Soc Open Sci 2024-02-10

了解大型語言模型（LLMs）如GPT-3.5、GPT-4、PaLM 2和Llama 2如何做出道德判斷是相當重要的，特別是在自動駕駛領域。一項使用道德機器框架的研究發現，LLMs和人類通常在考慮人類而非寵物以及拯救更多生命方面保持一致，但PaLM 2和Llama 2的偏好存在明顯差異。這些發現揭示了LLMs的道德框架及對自動駕駛的影響。 PubMed DOI

Attributions toward artificial agents in a modified Moral Turing Test.
在修改後的道德圖靈測試中對人工智能代理的歸因。 Sci Rep 2024-04-30

研究發現人們認為GPT-4的道德評估比人類更好，但也能分辨兩者。結果顯示人們可能會接受人工智慧的道德指導，強調在道德問題上保障人工智慧語言模型的重要性。 PubMed DOI

Can large language models help predict results from a complex behavioural science study?
大型語言模型能否幫助預測複雜行為科學研究的結果？ R Soc Open Sci 2024-09-26

在研究中，我探討了大型語言模型（LLMs），特別是GPT-3.5和GPT-4，對複雜行為科學實驗結果的預測能力。結果顯示，GPT-4在預測情感、性別和社會認知方面，與119位人類專家的表現相當，相關性高達0.89，而GPT-3.5則僅有0.07。在另一項研究中，讓大學參與者與GPT-4驅動的聊天機器人互動，提升了他們的預測準確性。這些結果顯示，人工智慧在預測行為主張的實證支持上，可能成為有價值的工具，並強調人類與AI合作的潛力。 PubMed DOI

Embedded values-like shape ethical reasoning of large language models on primary care ethical dilemmas.
大型語言模型在初級醫療倫理困境中的嵌入價值類似形狀的倫理推理。 Heliyon 2024-10-09

這篇文章探討大型語言模型（如Claude、Bard、GPT-3.5和GPT-4）中嵌入的價值觀如何影響初級醫療的倫理決策。研究使用Schwartz的價值觀理論，評估這些模型的價值觀輪廓，並與超過53,000名受訪者的數據進行比較。結果顯示，每個模型的價值觀獨特，偏向普遍主義和自我導向，可能反映西方中心的偏見。這些模型的建議顯示出其內在價值觀對決策的影響，因此在臨床應用前需謹慎考量，並調整以符合多元文化觀點。 PubMed DOI

Testing the capacity of Bard and ChatGPT for writing essays on ethical dilemmas: A cross-sectional study.
測試 Bard 和 ChatGPT 在撰寫倫理困境論文的能力：一項橫斷面研究。 Sci Rep 2024-10-30

最近大型語言模型（如ChatGPT和Bard）在教育領域的應用引發了對學術論文寫作潛在濫用的擔憂。本研究探討這些模型是否能生成關於醫學生個人經歷和倫理困境的非結構性論文，並檢視其是否能與人類作品區分。研究團隊收集了47篇學生的原創論文，並利用這些內容生成相同數量的AI論文。分析結果顯示，AI生成的論文在情感和分析思維的語言使用上較學生作品更為頻繁。儘管存在語言特徵的差異，兩個LLMs在反映學生對倫理困境的經歷方面均表現出高度有效性。 PubMed DOI

Large language models can outperform humans in social situational judgments.
大型語言模型在社交情境判斷上可以超越人類。 Sci Rep 2024-11-13

大型語言模型（LLMs）因在知識性任務上表現優於人類而受到關注，但在社會情境的準確評估和建議適當行為方面仍有不確定性。一項研究中，五個聊天機器人與276名人類參與者進行比較，結果顯示Claude、Copilot和you.com的智能助手在社交情境建議上超越人類，且其行為評價接近專家意見。這顯示LLMs在社會判斷上具潛力，但其廣泛應用仍面臨挑戰與風險。 PubMed DOI

Disagreements in Medical Ethics Question Answering Between Large Language Models and Physicians.
大型語言模型與醫生在醫學倫理問題回答上的分歧。 Res Sq 2024-11-28

這項研究探討了三個大型語言模型（LLMs）——GPT-4、Gemini-pro-1.5和Llama-3-70b，以及執業醫師在面對倫理模糊的醫療問題時的回答一致性。共生成1,248個問題，醫師的同意率僅55.9%，而LLMs之間的同意率高達76.8%。這顯示LLMs在倫理複雜情境中可能成為有價值的顧問，且其一致性優於醫師。研究強調了進一步探討LLMs在現實世界倫理困境中的表現的重要性。 PubMed DOI

AI-based medical ethics education: examining the potential of large language models as a tool for virtue cultivation.
基於人工智慧的醫學倫理教育：探討大型語言模型作為美德培養工具的潛力。 BMC Med Educ 2025-02-05

這項研究探討大型語言模型（LLMs）在醫學倫理教育中的角色，特別是如何促進未來醫療人員的美德。研究指出，LLMs能有效模擬人類溝通，成為醫學教育的寶貴工具。透過混合方法論，將LLMs視為倫理討論的範例和顧問，並強調將人工智慧倫理納入醫學課程的重要性。研究認為，LLMs可作為「第二最佳」解決方案，增強學習體驗，並促進道德知識的獲取。最終，研究認為像ChatGPT這樣的工具能顯著改善醫學倫理教育環境。 PubMed DOI

原始文章

站上相關主題文章列表