,,

36 氪獲悉，6 月 7 日，虎博科技正式發布并開源其自研大模型 TigerBot。同時，虎博科技還發布了大模型應用開發所需的全套 API，以及多領域專業數據。

虎博科技成立于 2017 年，是一家專注于深度學習及 NLP（自然語言處理）技術的 AI 公司，36 氪曾多次報道。此前，經過多年技術探索和積累，虎博科技已經擁有包括智能搜索、智能推薦、機器閱讀理解、總結、翻譯、輿情分析及撰稿在內的關鍵技術，亦有全球各行業的專業信息數據積累。

(相關資料圖)

2022 年 11 月，OpenAI 發布 ChatGPT，掀起了全球的 AI 大模型科技浪潮，中國市場也出現了不少團隊自研 AI 大模型的嘗試，虎博科技也是其中之一。

本次虎博科技所發布的自研大模型 TigerBot，是一個多語言多任務大規模語言模型，經歷 3 個月的封閉式開發和超過 3000 次實驗迭代，當前已經迭代出第一個 MVP 版本。

從功能上，Tigerbot 已經包含大部分生成和理解類的能力，具體包括幾大部分：

內容生成：輔助用戶解決創作類問題，快速生成營銷文案、評論、新聞稿等等。另外，Tigetbot 也支持圖片生成——模型可以實現文生圖，進行插圖創作等

圖片生成

開放問答：用戶向 Tigerbot 提出問題，比如烹飪攻略、長文本總結、文本理解、角色對話、潤色等等

開放式問答

提取信息：比如有目的地獲取關鍵信息、提取數字、主要內容等等

長文本解讀

在 3 個月封閉開發背后，是一支精干的團隊。虎博科技創始人兼 CEO 陳燁對 36 氪表示，在大模型研發上，虎博團隊致敬了硅谷經典的 " 車庫創業 " 模式，團隊開始只有 5 個人，CEO 同時擔任首席程序員及首席 AI 科學家。

" 在大模型的研發上，我們堅信頂尖團隊能起到的作用，團隊規模不必太大，但技術需要過硬。在我們從 0 到 1 的研發過程中，我們核心的研發團隊一直保持在 4-5 個人，以及密切合作的研發狀態。" 陳燁表示。

從模型效果上看，虎博 Tigerbot 根據 OpenAI InstructGPT 論文的公開 NLP 數據集上進行評測，TigerBot-7B 對應 OpenAI 同等規模的 6B 版本，其綜合表現能夠達到 OpenAI 效果的 96%。

以 OpenAI-instruct GPT-6B-SFT 為基準，歸一化并平均各模型的得分情況來源：虎博科技

在過去三個月中，虎博科技主要基于 GPT 和 BLOOM 兩個開源模型基礎上，在模型架構和算法側做了一系列優化。陳燁對 36 氪表示，虎博科技在技術突破上，主要集中在原創的監督和微調方法上。" 從整個技術角度來說，監督微調的方法是大模型這件事的核心，能夠影響模型效果的七到八成。"

比如，大模型浪潮來臨后，困擾業界的一個難題在于大模型的 " 幻覺 " ——即大模型輸出的結果，和人類說的話一樣自然，但在事實層面會 " 胡說八道 "。

陳燁以實際案例舉例，針對這一問題，虎博應用了一些經典的監督學習方法，如 Ensemble 和 Probabilistic Modeling，結合到大模型中。

" 假設人類在問模型一個事實性問題，Tigerbot 不會只是簡單地生成自然語言，而是同步利用更少量的數據就能知道人類意圖——在回答上，則會更好的權衡事實性和創造性。" 陳燁補充。這樣的結果是，機器在訓練模型中算力和數據的消耗，會比同等檔次模型要小。

針對中文語境，虎博科技從分詞器（Tokenizer）到訓練算法等方面做了針對性算法優化，使得模型更懂中文指令，提高了問答結果的中國文化屬性。（注：這里調后了一段，因為在模型里，事實性和創造性決定了它是不是會胡說八道，中文環境的針對性算法優化，可以讓它更懂中國人的交流，類似于幾個同學在一起，總有 1 個比其他人文學底蘊更好一點）

而在并訓練上，虎博的大模型團隊也突破了比如 deep-speed 等主流框架中若內存和通信問題，使得在千卡環境下，可實現訓練數間斷。

虎博科技在大模型研發上選擇走開源路線。此次開源內容包含模型、代碼、數據三部分，包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多個模型版本；基本訓練且覆蓋雙卡推理 180B 模型的量化和推理代碼；以及達 100G 的預訓練數據、監督微調 1G/100 萬條數據。

目前，這些內容已經全部在 Github 中發布（鏈接見此）。之所以選擇開源路線，陳燁表示，推進人類文明的技術變革往往源于本能、直覺和偶然性，擁有自由的創新精神是根本。

" 大模型技術就像是一門新興學科，是顛覆式且長周期的，未來的可能性超越 PC 和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要，更重要的是推廣這一人工智能基礎設施的原創突破，促進技術的發展和更新。"

出于上述的考慮，虎博除了一部分積累的預訓練數據集，也同時開源了系統性的中文數據搜集和清洗方法論。陳燁并不認為數據會成為壁壘：" 更重要的是團隊對于數據清洗的理論和系統性的高度，這是一個長期的系統工程。"

虎博科技自成立之初就專注在中文 NLP 的技術和產品研發上，積累了大量高質量的中文預訓練數據，本次發布的 100G 預訓練數據，就是其中的一部分。未來，虎博還將開放大量的金融、法律、百科等領域專業數據，供應用開發者使用。

此前幾年，虎博科技基于 NLP，開發了主要面向泛金融領域的 NLP 產品，如輿情監測、搜索、知識圖譜等，也已經用 api 的方式服務 B 端客戶。本次大模型的發布也會與虎博的業務相結合——當前，虎博科技已經面向老客戶提供包括內容生成類的功能模塊。陳燁表示，大模型技術浪潮來臨后，在市場側感覺 " 客戶決策速度比以前更快，產品落地速度也更快。"

未來，虎博科技將持續投入力量到大模型的研發和落地中。陳燁談及了正在研發或者正在完善的一些功能，如研究助手 TigerDoc、文創和營銷工具等，虎博科技也正在內測部分面向個人的類助手產品。

歡迎交流

歡迎關注

關鍵詞：