国产成人激情在线_人人干日日干_365porn_在线一区视频_国产高清在线观看_91插插插影院

當前信息:「虎博科技」發布自研多模態大模型 TigerBot,開源模型、代碼及數據

時間:2023-06-07 18:26:51 來源: 36氪


36 氪獲悉,6 月 7 日,虎博科技正式發布并開源其自研大模型 TigerBot。同時,虎博科技還發布了大模型應用開發所需的全套 API,以及多領域專業數據。

虎博科技成立于 2017 年,是一家專注于深度學習及 NLP(自然語言處理)技術的 AI 公司,36 氪曾多次報道。此前,經過多年技術探索和積累,虎博科技已經擁有包括智能搜索、智能推薦、機器閱讀理解、總結、翻譯、輿情分析及撰稿在內的關鍵技術,亦有全球各行業的專業信息數據積累。


(相關資料圖)

2022 年 11 月,OpenAI 發布 ChatGPT,掀起了全球的 AI 大模型科技浪潮,中國市場也出現了不少團隊自研 AI 大模型的嘗試,虎博科技也是其中之一。

本次虎博科技所發布的自研大模型 TigerBot,是一個多語言多任務大規模語言模型,經歷 3 個月的封閉式開發和超過 3000 次實驗迭代,當前已經迭代出第一個 MVP 版本。

從功能上,Tigerbot 已經包含大部分生成和理解類的能力,具體包括幾大部分:

內容生成:輔助用戶解決創作類問題,快速生成營銷文案、評論、新聞稿等等。另外,Tigetbot 也支持圖片生成——模型可以實現文生圖,進行插圖創作等

圖片生成

開放問答:用戶向 Tigerbot 提出問題,比如烹飪攻略、長文本總結、文本理解、角色對話、潤色等等

開放式問答

提取信息:比如有目的地獲取關鍵信息、提取數字、主要內容等等

長文本解讀

在 3 個月封閉開發背后,是一支精干的團隊。虎博科技創始人兼 CEO 陳燁對 36 氪表示,在大模型研發上,虎博團隊致敬了硅谷經典的 " 車庫創業 " 模式,團隊開始只有 5 個人,CEO 同時擔任首席程序員及首席 AI 科學家。

" 在大模型的研發上,我們堅信頂尖團隊能起到的作用,團隊規模不必太大,但技術需要過硬。在我們從 0 到 1 的研發過程中,我們核心的研發團隊一直保持在 4-5 個人,以及密切合作的研發狀態。" 陳燁表示。

從模型效果上看,虎博 Tigerbot 根據 OpenAI InstructGPT 論文的公開 NLP 數據集上進行評測,TigerBot-7B 對應 OpenAI 同等規模的 6B 版本,其綜合表現能夠達到 OpenAI 效果的 96%。

以 OpenAI-instruct GPT-6B-SFT 為基準,歸一化并平均各模型的得分情況 來源:虎博科技

在過去三個月中,虎博科技主要基于 GPT 和 BLOOM 兩個開源模型基礎上,在模型架構和算法側做了一系列優化。陳燁對 36 氪表示,虎博科技在技術突破上,主要集中在原創的監督和微調方法上。" 從整個技術角度來說,監督微調的方法是大模型這件事的核心,能夠影響模型效果的七到八成。"

比如,大模型浪潮來臨后,困擾業界的一個難題在于大模型的 " 幻覺 " ——即大模型輸出的結果,和人類說的話一樣自然,但在事實層面會 " 胡說八道 "。

陳燁以實際案例舉例,針對這一問題,虎博應用了一些經典的監督學習方法,如 Ensemble 和 Probabilistic Modeling,結合到大模型中。

" 假設人類在問模型一個事實性問題,Tigerbot 不會只是簡單地生成自然語言,而是同步利用更少量的數據就能知道人類意圖——在回答上,則會更好的權衡事實性和創造性。" 陳燁補充。這樣的結果是,機器在訓練模型中算力和數據的消耗,會比同等檔次模型要小。

針對中文語境,虎博科技從分詞器(Tokenizer)到訓練算法等方面做了針對性算法優化,使得模型更懂中文指令,提高了問答結果的中國文化屬性。(注:這里調后了一段,因為在模型里,事實性和創造性決定了它是不是會胡說八道,中文環境的針對性算法優化,可以讓它更懂中國人的交流,類似于幾個同學在一起,總有 1 個比其他人文學底蘊更好一點)

而在并訓練上,虎博的大模型團隊也突破了比如 deep-speed 等主流框架中若內存和通信問題,使得在千卡環境下,可實現訓練數間斷。

虎博科技在大模型研發上選擇走開源路線。此次開源內容包含模型、代碼、數據三部分,包含 TigerBot-7B-sft、 TigerBot-7B-base、TigerBot-180B-research 等多個模型版本;基本訓練且覆蓋雙卡推理 180B 模型的量化和推理代碼;以及達 100G 的預訓練數據、監督微調 1G/100 萬條數據。

目前,這些內容已經全部在 Github 中發布(鏈接見此)。之所以選擇開源路線,陳燁表示,推進人類文明的技術變革往往源于本能、直覺和偶然性,擁有自由的創新精神是根本。

" 大模型技術就像是一門新興學科,是顛覆式且長周期的,未來的可能性超越 PC 和互聯網。現階段過早和過于理性地探討產品、應用、場景和商業化或許沒有必要,更重要的是推廣這一人工智能基礎設施的原創突破,促進技術的發展和更新。"

出于上述的考慮,虎博除了一部分積累的預訓練數據集,也同時開源了系統性的中文數據搜集和清洗方法論。陳燁并不認為數據會成為壁壘:" 更重要的是團隊對于數據清洗的理論和系統性的高度,這是一個長期的系統工程。"

虎博科技自成立之初就專注在中文 NLP 的技術和產品研發上,積累了大量高質量的中文預訓練數據,本次發布的 100G 預訓練數據,就是其中的一部分。未來,虎博還將開放大量的金融、法律、百科等領域專業數據,供應用開發者使用。

此前幾年,虎博科技基于 NLP,開發了主要面向泛金融領域的 NLP 產品,如輿情監測、搜索、知識圖譜等,也已經用 api 的方式服務 B 端客戶。本次大模型的發布也會與虎博的業務相結合——當前,虎博科技已經面向老客戶提供包括內容生成類的功能模塊。陳燁表示,大模型技術浪潮來臨后,在市場側感覺 " 客戶決策速度比以前更快,產品落地速度也更快。"

未來,虎博科技將持續投入力量到大模型的研發和落地中。陳燁談及了正在研發或者正在完善的一些功能,如研究助手 TigerDoc、文創和營銷工具等,虎博科技也正在內測部分面向個人的類助手產品。

歡迎交流

歡迎關注

關鍵詞:

網站簡介 網站團隊 本網動態 友情鏈接 版權聲明 我要投稿

Copyright? 2014-2020 中原網視臺(www.b4dc4.cn) All rights reserved.

主站蜘蛛池模板: 亚洲精品无码久久 | 日日日日日日bbbbb视频 | 精新精新国产自在现拍欣赏网 | 欧美一区亚洲 | 国产91在线 | 日本 | 一级一片免费看 | 成人片黄网站色大片免费观看cn | 久久pao| 日本丰满熟妇bbxbbxhd | 久久精品国产精品亚洲毛片 | 午夜影院在线视频 | 久久久久久久久亚洲 | 久久视频精品53在线观看 | 青青免费视频在线 | 欧美日韩一区在线观看 | 欧美专区第一页 | 久色视频网 | 最新版天堂资源中文官网 | 成人精品一区二区三区中文字幕 | 欧美视频精品 | 一级毛片免费不卡 | 夜夜澡天天碰人人爱av | 无码人妻av免费一区二区三区 | igao在线视频成人免费 | 亚洲逼院 | 麻豆人妻少妇精品无码专区 | 人妻精品久久无码专区精东影业 | 加勒比无码一区二区三区 | 国产欧美日韩久久久久 | 福利一区国产 | 久草久草久草久草 | 国产精品狼人久久久久影院 | 日韩在线精品 | 日本一级爽快片淫片 | 国产精品成人影院在线观看 | 欧美黑人又粗又大久久久 | 中国少妇的bbb真爽 中国少妇内射xxxhd | 熟妇人妻av无码一区二区三区 | 国产精品视频ccav | 欧美毛片在线 | 99久久久国产精品免费蜜臀 |