LLM 相關三個月內文章 / 第 41 頁
可選擇其它分類: 一週新進文章 腎臟科 一般醫學 SGLT2i GLP1

這項研究比較了GPT-4和Google在腕隧道手術(CTS)常見問題上的回應差異。主要發現包括: 1. **問題類型**:兩者都提供事實性資訊,但Google更注重技術細節。 2. **可讀性**:Google的回應可讀性較高,Flesch閱讀分數更好。 3. **回應長度**:Google的答案通常較短。 4. **數字準確性**:GPT-4的數字回應範圍較廣。 總體來說,GPT-4提供更詳細的技術見解,有助於病患教育,而Google則提供更易懂的資訊。這研究強調了醫療情境中AI與搜尋引擎的資訊傳遞差異。 相關文章 PubMed DOI 推理

這項研究探討了聊天機器人在臨終關懷中的應用,透過詢問ChatGPT、Bard和Bing來定義相關術語。六位醫生評估了這些回應的準確性、全面性和可信度。結果顯示,ChatGPT在準確性和全面性上表現較佳,但可信度普遍偏低,且可讀性不佳。這強調了臨床醫師監督的重要性,以避免在臨終關懷中出現錯誤資訊。 相關文章 PubMed DOI 推理

本研究評估了ChatGPT在分析青光眼患者案例及建議手術治療的能力。對60例手術案例進行回顧性分析,結果顯示ChatGPT的建議準確率為78%,在普通案例中表現良好,與專家建議相近。然而,在挑戰性案例中準確率下降至65%,顯示其在複雜情境下的局限性。總體而言,ChatGPT在普通案例中能提供合理的治療計畫,但在處理更具挑戰性的情況時仍需謹慎。 相關文章 PubMed DOI 推理

人工智慧病患圖書管理員(AIPL)是為了支持轉移性乳癌(MBC)患者的心理社會及照護需求而設計的,特別針對HR+/HER2-亞型。研究分三階段進行,第一階段調整聊天機器人內容並用卷積神經網絡分析超過100個線上資源。第二階段42名參與者使用AIPL兩週,進行前後調查,顯示患者啟動程度穩定,但使用者體驗良好。焦點小組分析指出AIPL提供基本健康指導,但在關係管理和特定醫療資訊上支持有限。未來版本將整合大型語言模型以增強個性化服務。 相關文章 PubMed DOI 推理

這項研究探討了AI平台(如ChatGPT、Google Bard、Microsoft Bing)在生成牙齒矯正治療計畫的效果,並與經驗豐富的牙醫計畫進行比較。研究中,34位牙醫評估AI生成的計畫,結果顯示他們對專業醫師的計畫認同度明顯高於AI(p < 0.001),顯示人類專業知識更具信心。雖然AI之間無顯著差異,但Google Bard評分最低。總體來看,研究認為AI對牙齒矯正有幫助,但醫師的臨床判斷和經驗仍然至關重要。 相關文章 PubMed DOI 推理

這項研究探討了中國的人工智慧工具偏見,特別是百度搜尋引擎及兩個大型語言模型(LLMs)Ernie和Qwen。研究分析了240個社交群體的數據,發現LLMs的觀點比百度更廣泛,但百度和Qwen產生負面內容的頻率高於Ernie。結果顯示語言模型中存在中等程度的刻板印象,可能會助長有害的看法。研究強調在推動全球人工智慧發展時,公平性和包容性的重要性。 相關文章 PubMed DOI 推理

這篇文章探討社交媒體研究面臨的挑戰,特別是如何有效篩選大量不斷變化的數據。作者建議利用生成式AI和機器學習來解決標籤和關鍵字帶來的問題。以懷孕期間使用電子煙的TikTok內容為例,研究者使用70對標籤搜尋,獲得11,673個帖子,並透過工具提取數據。最終,使用ChatGPT-4分析這些內容,發現其在過濾不相關帖子方面有效,但在敏感性上仍需改進。未來研究應著重提升其準確性。 相關文章 PubMed DOI 推理

Decipher測試是一種基因組測試,透過分析腫瘤組織中的特定基因表達,提供前列腺癌的侵襲性資訊。71歲的患者最初被評估為中等風險,但測試結果顯示他實際上屬於高風險組,意味著疾病可能更具侵襲性,預後較差。這一結果可能影響治療計劃,需考慮更積極的治療選擇,如聯合療法或放射治療。醫師需與患者討論這些結果,並考量健康狀況及治療副作用。Decipher測試強調了基因組測試在個性化癌症護理中的重要性。 相關文章 PubMed 推理

這項研究評估了多學科腫瘤委員會(MTBs)與GPT-4人工智慧在癌症病患管理中的決策一致性。研究於2021年2月至2023年6月在安卡拉大學醫院進行,涵蓋610名癌症病患。結果顯示,GPT-4的預測與MTB決策的相容性得分為3.59,顯示高度一致性,但有10.2%的案例得分低於可接受範圍,需進一步審查。專家發現GPT-4在12.9%到25.8%的案例中不適當,顯示其在複雜或罕見案例中的限制。整體而言,GPT-4在腫瘤決策中具輔助潛力。 相關文章 PubMed DOI 推理

這項系統性回顧比較了症狀評估應用程式(SAAs)和大型語言模型(LLMs)在自我分診準確性上的表現。從1549項研究中篩選出19項進行分析。結果顯示,SAAs的準確性中等但變異性大(11.5-90.0%),LLMs的準確性也中等(57.8-76.0%),變異性較低;一般人的準確性同樣中等(47.3-62.4%)。結論是,SAAs和LLMs不應被普遍推薦或反對,應根據具體情境和使用者特徵來評估其有效性。 相關文章 PubMed DOI 推理