LLM 相關三個月內文章 / 第 44 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究探討內視鏡顱底手術相關的線上病患教育材料的可讀性與品質,並評估ChatGPT在改善這些材料方面的潛力。雖然建議可讀性應在六年級以下,但許多現有文章仍難以理解。研究發現66篇文章中,10篇可讀性最低的經過ChatGPT修改後,Flesch可讀性指數顯著提升,從19.7增至56.9,顯示可讀性改善至10年級水平。總體而言,ChatGPT有效提升了病患教育材料的可讀性與品質,顯示其在創建和精煉內容上的潛力。 相關文章 PubMed DOI

本研究評估大型語言模型(LLM),特別是GPT-4,是否能有效分析介入放射學(IR)微波消融裝置的安全事件數據。研究收集了2011年至2023年的安全數據,並由人類審核者進行分類。GPT-4的分類準確率在訓練集達96.0%,驗證集86.4%,測試集87.3%。最終生成的摘要與人類解讀相似,顯示LLM在處理IR安全數據方面的潛力,成為臨床醫生的有用工具。 相關文章 PubMed DOI

這項研究評估了一個名為Anatbuddy的AI聊天機器人,專注於提供準確的解剖學資訊,並與ChatGPT 3.5進行比較。Anatbuddy採用檢索增強生成的方法,能根據特定知識庫給出有上下文的回應。三位解剖學專家評估了18個胸部解剖問題的回答,結果顯示Anatbuddy的事實準確性得分明顯高於ChatGPT(4.78對4.11)。雖然其他評估標準差異不大,但研究建議應開發自訂AI聊天機器人以提升解剖學教育的準確性,並呼籲進一步探討學生對這類工具的接受度及其學習影響。 相關文章 PubMed DOI

這項研究評估大型語言模型(LLMs)在系統性回顧和統合分析中的摘要篩選效果。研究人員使用Python腳本,與多種LLMs互動,包括ChatGPT 3.5和4.0、Google PaLM 2等,並將其表現與人類專家的納入決策進行比較。結果顯示,ChatGPT v4.0的準確率超過90%,顯示其在摘要篩選上的潛力。雖然LLMs尚無法完全取代人類專家,但能顯著提升篩選效率,未來可能改變相關工作流程。 相關文章 PubMed DOI

這段文字探討了人工智慧系統與人類價值觀對齊的挑戰,區分了強價值對齊和弱價值對齊。強對齊需要高級認知能力,讓人工智慧理解意圖並建立因果關聯,這對識別潛在風險至關重要。作者指出像ChatGPT、Gemini和Copilot等模型在這方面的不足,並分析了詞嵌入的差異。文中提出「帶有詞彙轉換字典的中文房間」的思想實驗,進一步探討這些概念。最後提到的研究旨在實現弱對齊,雖然能產生可接受的回應,但不保證其真實性。 相關文章 PubMed DOI

這項研究探討了GPT-4在基本結構生物學任務上的表現。研究人員讓GPT-4創建20種氨基酸和一條α-螺旋多肽的3D模型,並用Wolfram進行數學計算。他們還分析了抗病毒藥物nirmatrelvir與SARS-CoV-2主要蛋白酶的結構互動。結果顯示,生成的結構大多與實驗數據一致,雖然在某些複雜分子上會有錯誤。總體來看,GPT-4在結構生物學建模和原子尺度互動分析上仍具有效性,儘管有些限制。 相關文章 PubMed DOI

一項研究評估了ChatGPT4在產科麻醉臨床決策中的表現,測試了八個不同的情境。七位專業麻醉醫師使用五點李克特量表評估其回應。結果顯示,73%的回應被認為是安全的,但沒有一個回應獲得所有專家的一致認可。準確性評為部分準確(4分),完整性則為有些不完整(3.5分)。約25%的回應被視為不安全,顯示大型語言模型在醫療領域仍需進一步訓練與調整,未來可能對產科麻醉的臨床決策有所幫助。 相關文章 PubMed DOI

這項研究評估了GPT-4在分析成人獲得性埋藏陰莖(AABP)患者訪談的有效性,並與人類研究者進行比較。研究發現,人類在95%的訪談中識別出「尿路問題」,而GPT-4為75%。在人類提到的「性問題」中,95%被提及,GPT-4則為80%。雖然兩者都強調「心理健康問題」,但人類更常提到「憂鬱」。人類與GPT-4的編碼一致性為中等,顯示AI在質性研究中有輔助潛力,未來可探索提升AI分析能力的方法。 相關文章 PubMed DOI

以病人為中心的結果(PCOs)在癌症治療中非常重要,因為它們能反映病人的生活品質。然而,關於乳腺癌的發病率和生存率的數據,尤其是治療副作用和依從性影響的研究,通常僅限於小型研究或單一機構。為了解決這個問題,我們使用大型語言模型(LLMs)如GPT-2等,從梅奧診所、埃默里大學醫院和史丹佛大學的臨床筆記中提取PCOs。我們開發了一個開源框架,微調LLMs以提升PCO提取的準確性,結果顯示微調後的模型表現顯著優於未微調的模型。 相關文章 PubMed DOI

這項研究探討檢索增強生成(RAG)模型在回答擴散性大B細胞淋巴瘤(DLBCL)問題的效果,並與OpenAI的GPT-3.5、GPT-4及微軟的Prometheus進行比較。結果顯示,RAG模型在準確性和相關性上表現優於其他大型語言模型,且幻覺現象較少。雖然GPT-4和GPT-3.5在可讀性上較佳,但仍產生了許多不準確的資訊。研究強調了進一步探索不同模型架構及方法在專業領域的潛力。 相關文章 PubMed DOI