原始文章

這篇論文探討了使用開源的基於變壓器的文本嵌入模型,作為OpenAI文本嵌入服務的替代方案,特別是在基因表達數據分析上。雖然OpenAI的服務表現不錯,但也引發了數據隱私和成本的擔憂。我們從Hugging Face找到了十個小型且易於安裝的高效模型,實驗結果顯示,某些開源模型在四個基因分類任務中表現超過OpenAI,顯示出它們的潛力。此外,微調這些模型通常不會顯著提升性能。 PubMed DOI


站上相關主題文章列表

這篇評論探討自然語言處理(NLP)技術,特別是大型語言模型(LLMs)和變壓器架構在分析人類基因組測序數據的應用。文章分析了2021年至2024年4月間的26項研究,顯示NLP技術能顯著改善基因組數據的處理與解釋,協助預測轉錄因子結合位點等任務。評論強調NLP和LLMs在基因組分析中的潛力,對個性化醫療有助益,但也指出需進一步研究以解決現有限制,提升模型的透明度與適用性。 PubMed DOI

這項研究評估了大型語言模型(LLMs),特別是GPT-3.5和GPT-4,在從腫瘤科電子健康紀錄中提取患者共病情況的表現。研究分析了250份病歷報告,結果顯示GPT-4在敏感性上表現優於GPT-3.5和醫生,達到96.8%。雖然醫生在精確度上稍勝一籌,但GPT-4的表現更一致,且能推斷出非明確的共病情況。整體而言,這些模型在提取資訊方面顯示出潛力,可能成為數據挖掘的重要工具。 PubMed DOI

這項研究探討了開放權重的大型語言模型(LLMs)在從放射科報告中提取結構化內容的效果,並與傳統的規則系統及封閉權重模型(如GPT-4)進行比較。研究結果顯示,GPT-4o在英語報告中表現最佳,F1分數達92.4%,而Mistral-Large在德語數據集中也表現優異。當使用1000份報告進行微調時,開放權重LLMs的表現顯著超過BERT。結論指出,開放權重模型在結構化報告數據方面具有效能,特別是在中等數據量微調時。 PubMed DOI

DeepSeek的開源模型在成本和效率上確實有優勢,對開發者和研究人員來說非常吸引。因為是開源的,使用者可以根據需求自由修改,增加靈活性和自訂性。此外,優化的架構能縮短訓練時間,降低資源消耗,特別適合計算資源有限的人。這種經濟實惠又高效的結合,讓更多人能接觸到先進的機器學習技術。 PubMed DOI

病理科部門產生大量非結構化數據,主要以自由文本的診斷報告形式存在,轉換成結構化格式需要大量人力。雖然先進的語言模型能協助此任務,但專有模型可能引發成本和隱私問題。我們創建了一個包含579份德文和英文病理報告的數據集,評估了六個語言模型的提取能力。研究顯示,開源模型在提取結構化數據方面的精度與專有模型相當,且具成本效益和隱私保護潛力,為醫療機構提供了重要見解。 PubMed DOI

DeepSeek-V3 和 DeepSeek-R1 這類開源大型語言模型,在臨床決策支援上表現不輸甚至超越 GPT-4o、Gemini-2.0 等專有模型。最大優勢是能在本地安全微調,符合醫療隱私規範,非常適合台灣醫療現場應用。 PubMed DOI

這項研究比較三款開放原始碼語言模型分析瑞士病患回饋,發現 Gemma 2 表現最好,能準確抓出人物、事件和情緒。雖然分類有點偏向大方向,但還是能找出重點主題,對醫療品質改進很有幫助,也證明非專有模型在保護隱私下分析醫療文本很有潛力。 PubMed DOI

這項研究發現,用生醫文本訓練出來的詞嵌入(如 BioConceptVec),只要簡單做向量運算,就能抓出藥物和基因的關係,還能預測藥物的基因標的。若再依生物路徑分組,效果更好。這方法甚至能預測未來的藥物-基因連結,表現跟 GPT-4 差不多,但其實操作更簡單。 PubMed DOI

大型語言模型正改變基因體醫療,能快速分析文獻和基因資料,提升診斷與治療建議的精準度。雖然還有挑戰待克服,但隨著技術進步和跨領域合作,未來 AI 將成為臨床基因體分析的主流工具,推動個人化醫療發展。 PubMed DOI

我們提出一種新方法,結合NCBI Gene的基因描述和大型語言模型,將單細胞RNA定序資料轉換成有意義的向量。做法是先找出每個細胞表現量最高的基因,擷取基因註解,再用語言模型轉成向量,並依表現量加權。這樣不只提升解釋性,也讓細胞分群和分析更精準。 PubMed