36 氪獲悉,6 月 7 日,虎博科技正式發布并開源其自研大模型 TigerBot。同時,虎博科技還發布了大模型應用開發所需的全套 API,以及多領域專業數據。
虎博科技成立于 2017 年,是一家專注于深度學習及 NLP(自然語言處理)技術的 AI 公司,36 氪曾多次報道。此前,經過多年技術探索和積累,虎博科技已經擁有包括智能搜索、智能推薦、機器閱讀理解、總結、翻譯、輿情分析及撰稿在內的關鍵技術,亦有全球各行業的專業信息數據積累。
(相關資料圖)
2022 年 11 月,OpenAI 發布 ChatGPT,掀起了全球的 AI 大模型科技浪潮,中國市場也出現了不少團隊自研 AI 大模型的嘗試,虎博科技也是其中之一。
本次虎博科技所發布的自研大模型 TigerBot,是一個多語言多任務大規模語言模型,經歷 3 個月的封閉式開發和超過 3000 次實驗迭代,當前已經迭代出第一個 MVP 版本。
從功能上,Tigerbot 已經包含大部分生成和理解類的能力,具體包括幾大部分:
內容生成:輔助用戶解決創作類問題,快速生成營銷文案、評論、新聞稿等等。另外,Tigetbot 也支持圖片生成——模型可以實現文生圖,進行插圖創作等
圖片生成
開放問答:用戶向 Tigerbot 提出問題,比如烹飪攻略、長文本總結、文本理解、角色對話、潤色等等
開放式問答
提取信息:比如有目的地獲取關鍵信息、提取數字、主要內容等等
長文本解讀
在 3 個月封閉開發背后,是一支精干的團隊。虎博科技創始人兼 CEO 陳燁對 36 氪表示,在大模型研發上,虎博團隊致敬了硅谷經典的 " 車庫創業 " 模式,團隊開始只有 5 個人,CEO 同時擔任首席程序員及首席 AI 科學家。
" 在大模型的研發上,我們堅信頂尖團隊能起到的作用,團隊規模不必太大,但技術需要過硬。在我們從 0 到 1 的研發過程中,我們核心的研發團隊一直保持在 4-5 個人,以及密切合作的研發狀態。" 陳燁表示。
從模型效果上看,虎博 Tigerbot 根據 OpenAI InstructGPT 論文的公開 NLP 數據集上進行評測,TigerBot-7B 對應 OpenAI 同等規模的 6B 版本,其綜合表現能夠達到 OpenAI 效果的 96%。
以 OpenAI-instruct GPT-6B-SFT 為基準,歸一化并平均各模型的得分情況 來源:虎博科技
在過去三個月中,虎博科技主要基于 GPT 和 BLOOM 兩個開源模型基礎上,在模型架構和算法側做了一系列優化。陳燁對 36 氪表示,虎博科技在技術突破上,主要集中在原創的監督和微調方法上。" 從整個技術角度來說,監督微調的方法是大模型這件事的核心,能夠影響模型效果的七到八成。"
比如,大模型浪潮來臨后,困擾業界的一個難題在于大模型的 " 幻覺 " ——即大模型輸出的結果,和人類說的話一樣自然,但在事實層面會 " 胡說八道 "。
陳燁以實際案例舉例,針對這一問題,虎博應用了一些經典的監督學習方法,如 Ensemble 和 Probabilistic Modeling,結合到大模型中。
" 假設人類在問模型一個事實性問題,Tigerbot 不會只是簡單地生成自然語言,而是同步利用更少量的數據就能知道人類意圖——在回答上,則會更好的權衡事實性和創造性。" 陳燁補充。這樣的結果是,機器在訓練模型中算力和數據的消耗,會比同等檔次模型要小。
針對中文語境,虎博科技從分詞器(Tokenizer)到訓練算法等方面做了針對性算法優化,使得模型更懂中文指令,提高了問答結果的中國文化屬性。(注:這里調后了一段,因為在模型里,事實性和創造性決定了它是不是會胡說八道,中文環境的針對性算法優化,可以讓它更懂中國人的交流,類似于幾個同學在一起,總有 1 個比其他人文學底蘊更好一點)
而在并訓練上,虎博的大模型團隊也突破了比如 deep-speed 等主流框架中若內存和通信問題,使得在千卡環境下,可實現訓練數間斷。
虎博科技在大模型研發上選擇走開源路線。此次開源內容包含模型、代碼、數據三部分,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多個模型版本;基本訓練且覆蓋雙卡推理 180B 模型的量化和推理代碼;以及達 100G 的預訓練數據、監督微調 1G/100 萬條數據。
目前,這些內容已經全部在 Github 中發布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進人類文明的技術變革往往源于本能、直覺和偶然性,擁有自由的創新精神是根本。
" 大模型技術就像是一門新興學科,是顛覆式且長周期的,未來的可能性超越 PC 和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要,更重要的是推廣這一人工智能基礎設施的原創突破,促進技術的發展和更新。"
出于上述的考慮,虎博除了一部分積累的預訓練數據集,也同時開源了系統性的中文數據搜集和清洗方法論。陳燁并不認為數據會成為壁壘:" 更重要的是團隊對于數據清洗的理論和系統性的高度,這是一個長期的系統工程。"
虎博科技自成立之初就專注在中文 NLP 的技術和產品研發上,積累了大量高質量的中文預訓練數據,本次發布的 100G 預訓練數據,就是其中的一部分。未來,虎博還將開放大量的金融、法律、百科等領域專業數據,供應用開發者使用。
此前幾年,虎博科技基于 NLP,開發了主要面向泛金融領域的 NLP 產品,如輿情監測、搜索、知識圖譜等,也已經用 api 的方式服務 B 端客戶。本次大模型的發布也會與虎博的業務相結合——當前,虎博科技已經面向老客戶提供包括內容生成類的功能模塊。陳燁表示,大模型技術浪潮來臨后,在市場側感覺 " 客戶決策速度比以前更快,產品落地速度也更快。"
未來,虎博科技將持續投入力量到大模型的研發和落地中。陳燁談及了正在研發或者正在完善的一些功能,如研究助手 TigerDoc、文創和營銷工具等,虎博科技也正在內測部分面向個人的類助手產品。
歡迎交流
歡迎關注
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-07
頭條 23-06-06
頭條 23-06-06
頭條 23-06-06