Evaluating ChatGPT as an Agent for Providing Genetic Education.
評估 ChatGPT 作為提供基因教育的代理。 bioRxiv 2023-12-11

研究發現ChatGPT在回答遺傳疾病問題上表現不錯，但對於人類遺傳模式理解仍有限制和不準確之處。這顯示人工智慧如ChatGPT在基因組學上有潛力，但必須受到監督以確保醫學資訊的正確傳遞。 PubMed DOI

Evaluation of ChatGPT and Google Bard Using Prompt Engineering in Cancer Screening Algorithms.
使用提示工程評估 ChatGPT 和 Google Bard 在癌症篩檢演算法中的表現。 Acad Radiol 2023-12-16

大型語言模型如ChatGPT和Bard被運用在醫學領域，幫忙放射學報告翻譯和研究論文起草。研究發現，這些模型在臨床決策中使用美國放射學院適當性標準時表現相似，但ChatGPT在提供提示方面稍微比Bard好。提示工程技術可提高模型準確性，但在提供提示方面則沒有太大改善。LLMs在臨床決策有潛力，尤其是有良好提示的情況下。進一步研究不同臨床環境下的影響仍然很重要。 PubMed DOI

A comparative evaluation of ChatGPT 3.5 and ChatGPT 4 in responses to selected genetics questions.
ChatGPT 3.5 和 ChatGPT 4 對特定基因問題回答的比較評估 J Am Med Inform Assoc 2024-06-14

研究比較了GPT-4和GPT-3.5在提供基因資訊上的表現，尤其針對BRCA1、HFE和MLH1基因。結果顯示GPT-4準確度較高，但仍有錯誤。回應相關性有差異，整體上是正面的。在疾病方面表現則無明顯差異。研究指出GPT-4在基因教育上有潛力，但也提到資訊過時等挑戰。在醫療資訊傳遞中需平衡技術創新與道德責任。 PubMed DOI

ChatGPT compared to national guidelines for management of ovarian cancer: Did ChatGPT get it right? - A Memorial Sloan Kettering Cancer Center Team Ovary study.
ChatGPT 與卵巢癌管理的國家指導方針比較：ChatGPT 是否正確？- 來自紀念斯隆凱特琳癌症中心的 Team Ovary 研究。 Gynecol Oncol 2024-07-23

一項研究評估了聊天機器人ChatGPT在卵巢癌管理方面的表現，並與國家綜合癌症網絡（NCCN）的指引進行比較。研究生成了10個問題，涵蓋風險因素、手術及醫療管理等。結果顯示，NCCN的準確且完整回答為48%，未提示的GPT為64%，經過提示的GPT為66%。GPT-4在風險因素和手術管理上表現優於NCCN，但在醫療管理上較弱。雖然不準確回答比例低，但使用聊天機器人時仍需謹慎。 PubMed DOI

The Emerging Role of Large Language Models in Improving Prostate Cancer Literacy.
大型語言模型在提升前列腺癌知識中的新興角色。 Bioengineering (Basel) 2024-07-27

這項研究評估了大型語言模型（LLMs）驅動的聊天機器人，如ChatGPT 3.5、CoPilot和Gemini，在提供前列腺癌資訊的有效性，並與官方病人指南進行比較。研究使用25個專家驗證的問題，根據準確性、及時性、完整性和可理解性進行評估。結果顯示，ChatGPT 3.5的表現優於其他模型，證明其為可靠的資訊來源。研究強調在健康領域持續創新AI應用的重要性，並建議未來探討AI回應中的潛在偏見及其對病人結果的影響。 PubMed DOI

The role of generative language systems in increasing patient awareness of colon cancer screening.
生成語言系統在提高患者對結腸癌篩檢意識中的角色。 Endoscopy 2024-08-14

這項研究評估了ChatGPT在回答結腸直腸癌篩檢問題的有效性，旨在提升病患的認知與遵循篩檢計畫的意願。研究中，專家和非專家對ChatGPT的回答進行評分，結果顯示專家對準確性的評分為4.8（滿分6分），而完整性則較低，為2.1（滿分3分）。病患對回答的評價則普遍正面，認為其完整性、可理解性和可信度高達97-100%。整體而言，ChatGPT在提供CRC篩檢資訊上表現良好，顯示出提升病患認知的潛力。 PubMed DOI

Evaluating large language models on medical, lay language, and self-reported descriptions of genetic conditions.
評估大型語言模型在醫學、通俗語言和自我報告的遺傳疾病描述上的表現。 Am J Hum Genet 2024-08-15

這項研究分析了不同大型語言模型（LLMs）在識別遺傳疾病時的表現，對比了開源模型（如Llama-2-chat和Vicuna）與封閉源模型（如ChatGPT-4）。結果顯示，開源模型的準確率在54%-68%之間，而ChatGPT-4則高達89%-90%。研究還指出，臨床醫生和一般民眾的提問對模型表現有顯著影響，且使用列表型提示能提升準確性。整體而言，這項研究揭示了LLMs在醫療領域的潛力與挑戰。 PubMed DOI

Prompt engineering with a large language model to assist providers in responding to patient inquiries: a real-time implementation in the electronic health record.
利用大型語言模型進行提示工程，以協助醫療提供者回應病人詢問：在電子健康紀錄中的即時實施。 JAMIA Open 2024-08-21

這項研究探討了提示工程對大型語言模型（LLM），特別是GPT-4，在醫療提供者回應病人詢問時的影響。研究持續8個月，參與者有27位醫療提供者，主要評估LLM生成訊息的使用情況及提供者的情感變化。結果顯示，7605條訊息中僅17.5%被使用，負面情感顯著減少，但整體使用量卻下降。隨著護士的加入，使用量提升至35.8%。雖然提示工程改善了內容質量，但整合LLM進工作流程仍面臨挑戰，未來需更注重人因因素以提升可用性和有效性。 PubMed DOI

Generative artificial intelligence as a source of breast cancer information for patients: Proceed with caution.
生成式人工智慧作為乳腺癌患者資訊來源：謹慎行事。 Cancer 2024-08-30

這項研究評估了ChatGPT 3.5在提供乳癌資訊的有效性。研究人員提出20個常見問題，並根據準確性、臨床一致性和可讀性進行評估。結果顯示，平均準確性得分為1.88，臨床一致性得分為2.79，回答平均字數為310字，但可讀性較差，Flesch Kincaid指數為37.9。研究發現，24%的回答是錯誤的，41%的回答缺乏真實參考文獻，建議病患在依賴ChatGPT獲取醫療資訊時要特別謹慎。 PubMed DOI

Prompt engineering with ChatGPT3.5 and GPT4 to improve patient education on retinal diseases.
使用 ChatGPT3.5 和 GPT4 進行提示工程，以改善對視網膜疾病的患者教育。 Can J Ophthalmol 2024-09-08

這項研究探討不同提示工程技術對大型語言模型（如ChatGPT3.5和GPT4）在回答視網膜疾病相關問題時的影響。研究中使用了二十個常見問題，並在獨立問題、優化提示（提示A）及加上長度和閱讀水平限制的提示B下進行測試。三位視網膜專家評估回應的準確性和全面性，結果顯示兩個模型在各指標上無顯著差異，但提示B的可讀性較高，卻以準確性和全面性為代價。研究建議未來需進一步探討LLM在病人教育中的有效性及倫理問題。 PubMed DOI

原始文章

站上相關主題文章列表