Validity of the large language model ChatGPT (GPT4) as a patient information source in otolaryngology by a variety of doctors in a tertiary otorhinolaryngology department.
大型語言模型ChatGPT（GPT4）在耳鼻喉科作為病人資訊來源的有效性：由三級耳鼻喉科部門的多位醫生進行評估。 Acta Otolaryngol 2023-11-09

研究評估OpenAI開發的ChatGPT在提供耳鼻喉科健康資訊的表現。醫生們認為聊天機器人回答相關性不錯，但深度有待加強，可能受訓練數據影響。儘管有潛力提供正確資訊，仍需改進回應深度和減少偏見。 PubMed DOI

Assessing the potential of GPT-4 to perpetuate racial and gender biases in health care: a model evaluation study.
評估 GPT-4 在延續醫療領域種族和性別偏見的潛力：一項模型評估研究。 Lancet Digit Health 2023-12-22

研究發現GPT-4在醫療保健領域存在種族和性別偏見問題，未能充分考慮人口多樣性，容易產生刻板印象。建議在將GPT-4等大型語言模型應用於臨床前，務必評估和解決偏見問題。 PubMed DOI

Unmasking and Quantifying Racial Bias of Large Language Models in Medical Report Generation.
揭示和量化大型語言模型在醫學報告生成中的種族偏見。 ArXiv 2024-03-06

大型語言模型如GPT-3.5-turbo和GPT-4在醫療保健領域有潛力，但可能受到訓練時的偏見影響，影響其在醫療環境中的實用性。研究指出，這些模型可能對白人族群預測較高的醫療成本和較長的住院時間，並對困難醫療情況下的存活率持過於樂觀的看法。未來需研究減少語言模型中的偏見，特別是在醫療保健領域，確保對所有患者公平且準確評估。 PubMed DOI

Bias of AI-generated content: an examination of news produced by large language models.
人工智慧生成內容的偏見：對大型語言模型生成的新聞進行檢驗。 Sci Rep 2024-03-07

LLMs透過AIGC改變生活，但需了解其限制。研究發現ChatGPT等LLM生成的內容存在性別、種族偏見，歧視女性、黑人。ChatGPT偏見最少，且能拒絕有偏見提示。 PubMed DOI

Even with ChatGPT, race matters.
即使使用 ChatGPT，種族也很重要。 Clin Imaging 2024-03-29

研究人員研究了像ChatGPT這樣的大型語言模型在簡化不同種族背景患者的放射學報告中的應用。他們發現根據種族背景，可讀性分數存在顯著差異，對某些種族群體的輸出比其他人更複雜。這凸顯了確保這些模型不在醫療環境中持續種族偏見的重要性。 PubMed DOI

Gender Bias in Artificial Intelligence-Written Letters of Reference.
人工智慧撰寫的推薦信中的性別偏見。 Otolaryngol Head Neck Surg 2024-05-08

研究發現，人工智慧生成的推薦信對男性候選人存在性別偏見，不論候選人性別如何。撰寫推薦信時，應留意避免引入潛在偏見。 PubMed DOI

Bias Perpetuates Bias: ChatGPT Learns Gender Inequities in Academic Surgery Promotions.
偏見延續偏見：ChatGPT 學習學術外科晉升中的性別不平等。 J Surg Educ 2024-09-04

這項研究探討學術外科中的性別偏見，分析AI平台ChatGPT生成的推薦信，對比男性與女性申請升遷為副教授的候選人。研究人員創作了六封推薦信，結果顯示針對女性的信件平均較短（298字），而男性的則較長（314字）。此外，女性的推薦信強調「同情心」等特質，男性則強調「尊重」和「技能」。這些結果顯示升遷過程中的性別偏見，建議在使用AI撰寫推薦信時需謹慎。 PubMed DOI

Unmasking and quantifying racial bias of large language models in medical report generation.
揭示與量化大型語言模型在醫療報告生成中的種族偏見。 Commun Med (Lond) 2024-09-10

大型語言模型（LLMs），像是GPT-3.5-turbo和GPT-4，對醫療專業人員有潛在的協助能力，但可能帶有訓練數據中的偏見，影響其在醫療情境中的有效性。本研究分析這些模型在預測住院、費用和死亡率時的表現，發現它們對白人族群的預測較高，且在困難醫療情況下過於樂觀。這些偏見反映了醫療不平等，強調了進一步研究的必要性，以減少語言模型中的偏見，確保所有病患都能獲得公平和準確的醫療結果。 PubMed DOI

Large Language Model Use in Radiology Residency Applications: Unwelcomed but Inevitable.
放射科住院醫師申請中的大型語言模型使用：不受歡迎但不可避免。 J Am Coll Radiol 2024-09-19

這項研究探討放射科住院醫師計畫主任對住院醫師申請者使用大型語言模型（如ChatGPT）撰寫個人陳述的看法。八位主任參加了調查和焦點小組討論，評估了五位申請者的四種不同版本的陳述。結果顯示，LLM生成的陳述質量被評為一般或更差的比例達56%，而人類撰寫的則為29%。主任們雖然對區分兩者的能力不自信，但能準確識別人類撰寫的陳述。焦點小組討論中，主任們對AI影響個人陳述的真實性和價值表示擔憂，並指出AI生成內容中申請者的聲音減弱。這項研究突顯了AI在住院醫師申請過程中的挑戰與影響。 PubMed DOI

Comparative Assessment of Otolaryngology Knowledge Among Large Language Models.
大型語言模型之間耳鼻喉科知識的比較評估。 Laryngoscope 2024-09-21

這項研究評估了多個大型語言模型（LLMs）在耳鼻喉科及頭頸外科臨床選擇題的表現。使用4,566個問題的數據集，結果顯示GPT-4表現最佳，正確率達77.1%，其次是MedPaLM的70.6%。其他模型如Llama3、GPT-3.5和PaLM2的正確率分別為66.8%、58.5%和56.5%。提供推理提示能提升準確性，GPT-4更修正了31%的錯誤。雖然LLMs在耳鼻喉科的理解上有差異，但GPT-4在教育上仍具潛力，需注意其局限性。 PubMed DOI

原始文章

站上相關主題文章列表