ChatGPT不再是大公司的獨角戲?! ?月9日,昆侖萬維(300418.SZ)在其官方微信公眾號上宣布與奇點智源合作,將在今年內發布中國版類ChatGPT代碼開源。
據了解,ChatGPT是由美國人工智能公司OpenAI 研發的聊天機器人 ,于2022年11月發布,僅花了60天,就達到了月活過億,成為史上用戶增長最快的互聯網應用。一時間,微軟、谷歌等互聯網巨頭紛紛響應。
(資料圖)
作為AI前沿探索應用的ChatPGT,有望引領下一輪科技革命。在該領域,互聯網巨頭投入與技術積累有著先天的壟斷優勢。擁有全球數量眾多互聯網企業的中國,如何追趕上ChatGPT潮流?這是一個既現實又殘酷的問題。
Linux打敗了Windows Sever,MySQL打敗了Oracle的案例,似乎為中國AI趕超美國AI提供了一個“1+1>2”的思考。
“讓全世界所有技術工程師通過天工開源項目聯合起來,打敗M(微軟),打敗G(谷歌)?!边@正是昆侖萬維基于國內互聯網業現狀,為抓住ChatGPT技術前沿而發出的倡議。
代碼開源有望讓眾多中國本土互聯網企業,在追趕ChatGPT的技術潮流中,發揮好自己獨有的優勢,共同完善中國版ChatGPT。
開源是中國AIGC彎道超車的機會
不斷利用人工智能技術賦能現有業務發展,或許是昆侖萬維在中國AIGC領域彎道超車的一種探索。
“不可否認,中國的IT技術整體落后于歐美,但近二十年來迅速拉近差距的?個重要因素是因為有開源軟件的存在,讓廣大的中國開發者和初創企業存在彎道超車的機會?!崩鋈f維CEO方漢在接受專訪時表示,在AI領域,開源也同樣會極大刺激中小開發團隊的增多。
在方漢看來,只有開源才能滿足各種長尾需求,真正做到百花齊放,而不會出現由大型互聯網公司獨霸AI基礎設施的局面。
舉一個例子,OpenAI之前發布的文生圖產品Dall-e2,運用的是一款代碼閉源的產品,發布半年后才推出基于開源的產品Stable-Diffusion,在數量級上隨即秒掉了前者。目前,在世界上最大的代碼托管平臺Github上,基于Dall-e2的項目只有202個,而基于Stable-Diffusion的項目亦高達2758個,前者不到后者的十分之一。
“因為開源的強大生命力,大量開發者可以基于開源的Stable-Diffusion制作適合自己的模型和應用。”方漢認為,“這就是在AI研發中開源打敗閉源的又一案例?!?/p>
同樣,在AI研發的底層平臺中,開源的Pytorch已經擊敗閉源的所有競爭對手,成為使用人數最多的底層平臺。
“我認為,沒有開源就沒有移動互聯網時代的蓬勃發展,沒有開源也沒有AIGC這個領域的蓬勃發展,我們堅信開源是AIGC生態發展的土壤和重要的推動力量?!狈綕h指出,通過眾創,可以加速迭代各種功能開發,積極促進技術民主化,降低行業門檻。
上述一系列的數據和事實,堅定了昆侖萬維從倡議開源到通過開源促進行業生態,從而使得中國的AIGC具備彎道超車的可能。
昆侖萬維從2020年開始布局AIGC領域,組建了近百人的研發團隊。去年12月15日,昆侖萬維正式發布「昆侖天工」,AI生成能力目前已覆蓋圖像、音樂、文本、編程等內容模態,昆侖萬維已是目前國內AIGC領域布局最為全面、首個全身心投入AIGC開源社區的公司。
“昆侖天工”這一名稱的由來,是明朝科學家宋應星所著《天工開物》,一本古老的技術百科全書。這一名稱寄托著昆侖萬維集團對技術的原始信仰:不僅致力于在AIGC技術創新,還要通過開源來推動中文AIGC生態的健康發展。
“我們致力于推進開源AIGC算法和模型社區的發展壯大,降低AIGC技術在各行各業的使用和學習門檻?!狈綕h表示。
自去年12月份昆侖天工開源項目發布以來,獲得了大量好評,成為AI開源領域成長最快的項目之一,目前已經有中國移動咪咕等企業測試使用。
2月8日,昆侖萬維宣布旗下的Opera瀏覽器計劃接入ChatGPT功能,成為全球除微軟Bing必應搜索引擎、Edge瀏覽器之外,又一家集成ChatGPT功能的瀏覽器。結合最前沿的技術ChatGPT,Opera將為全球用戶帶去領先的體驗。
同時,昆侖萬維在全球的平均月活躍用戶有4億,具有豐富的行業經驗,將助力AIGC應用的持續落地。
方漢表示,希望通過開源,吸引更多創業者和商業公司加入到AIGC事業之中。
——或許,中國AI領域的彎道超車機會就在眼下。
ChatGPT是AI領域里程碑
ChatGPT的出現具有劃時代的意義,它證明了一個技術方向的成立,也就是機器能根據人的反饋進行強化學習(RLHF)。
“它與之前常見的語言模型 (Bert/ Bart/ T5) 的區別,幾乎是導彈與弓箭的區別,一定要引起最高程度的重視?!狈綕h表示,“我在2019年底看到GPT3的發布之后,就敏銳地意識到,一場改革即將來臨?!迸cGPT-3等大模型相比,ChatGPT回答更全面,可以在大范圍、細節問題上給出較合理準確的答案,相較以往的大模型知識被挖掘得更充分。
與ChatGPT的一通嗨聊后,方漢對ChatGPT打出了7-8分的高分,“因為它在智商測試里考了85分,這是有史以來最高的?!狈綕h介紹說,它是用RLHF的回饋機制,強訓 GPT-3.5后得出來的產品,效果的確非常驚艷,意義是非常大的。
比現有模型的超越性,體現在它可以給出更近似正確的回答,極大地提高了大語言模型的輸出結果,讓AI的效果得到了一個質的提升。
從技術演進路徑上看,初代 GPT-3 模型通過預訓練獲得生成能力、世界知識和情景學習( in-context learning)。通過情景學習的模型分支獲得了遵循指令,和能泛化到沒有見過的任務的能力。再經過代碼訓練的分支模型,則獲得了代碼理解的能力,作為代碼訓練的副產品,模型同時潛在地獲得了復雜推理的能力。結合這兩個分支,code-davinci-002(代碼達芬奇-002),似乎是具有所有能力的最強 GPT-3.5 模型。
“接下來通過有監督的 instruction tuning 和 RLHF 通過犧牲模型能力換取與人類對齊,即對齊稅。”方漢介紹說,RLHF使模型能夠生成更翔實和公正的答案,同時拒絕其知識范圍之外的問題。
但是,現階段的ChatGPT最大問題是,它仍然是在模仿人類的回答。
“你在問它一個問題的時候,它并不是理解了這個問題,而是按照歷史經驗給你一個他認為你覺得正確的答案。它了解人性,給到的未必是真正正確的答案。”方漢表示,“簡而言之,ChatGPT現在可以替代20%~30%的底層工作,但仍然不是真正意義上的人工智能。”
在方漢看來,真要實現我們想象中的那種人工智能可能還有很多步要走,跟GPT-3一樣不是不可逾越的。
展望后續的GPT-4模型,“目前已有多個業界傳言稱,可以全面通過圖靈測試?!狈綕h表示,該測試是評價機器是否具備人類智能的方法,這無疑會是AI史上又一個偉大的里程碑。
構建AI生態圈
事實上,再好的AI技術,也需要通過應用落地,構建其專屬的生態。
在2008年成立之初,昆侖萬維便切入海外市場,“航海”經驗豐富。在出海過程中,又通過收購、內部孵化等方式不斷豐富業務矩陣。目前,昆侖萬維從一個以移動游戲為核心的公司,發展為聚焦互聯網主賽道、多元布局的出海企業,業務遍及全球100多個國家和地區。
昆侖萬維旗下業務包括海外信息分發及元宇宙平臺Opera、海外社交娛樂平臺StarX、全球移動游戲平臺Ark Games和休閑娛樂平臺閑徠互娛。四大業務板塊服務著累計月活躍近4億的用戶,這一龐大的用戶群體,又是昆侖天工面向B端、C端構建AI生態的底氣。
方漢分析說,“目前的AI革新主要是在技術層面,我們更愿意把AI技術落地到C端產品應用層面,促進技術的產品化,讓用戶更方便地去創作內容?!?/p>
昆侖萬維一直在通過完善昆侖天工模型,使之能夠輔助人類更快的生成內容,而不是只生產素材就完事了。
在方漢看來,不能說只畫個圖或生成個視頻就足夠了,要想一下什么樣的圖用戶才愿意看、什么樣的視頻用戶還愿意看,這里面還有很多的工作要做。
方漢介紹,接下來,昆侖萬維對昆侖天工的優化將從兩個方向進行:第一個方向,緊跟業內先進水平,訓練自己的ChatGPT;第二個方向,讓文本生圖、文本生代碼、以及文本生文本,向實際應用上靠近。
“我們在扎扎實實的搞研發。像OpenAI這類的公司不太屑于做應用,但我們自己會做應用,然后用應用上的需求,去反推和增強我們的模型訓練,這是我們跟OpenAI的區別?!狈綕h如是說。
方漢感慨道,隨著AI投入研發的工作做得越多,越能感受到市場很大,技術創新的可能性越多。
以AIGC為例,對現有行業的影響,主要是降本增效。它不是百分比級別的,而是十倍、百倍級的降本增效。
通俗點講,就是能給B端省錢,給C端省事。“這樣會極大的提高內容生產的效率,解放生產力?!狈綕h認為,所有的內容行業,包括游戲行業和影視行業,都有非常強的市場需求。
“我們是一家全球性的互聯網公司,涉足瀏覽器、社交和游戲三個領域,這三個領域其實都是跟內容比較相關,我們屬于一個內容互聯網企業。我們認為AIGC是對內容產業的一個巨大契機,我們也愿意全身心投入,來尋找我們的第二曲線。”方漢表示。
在很多長尾行業中,AIGC不僅極大提高內容生產效率,甚至還重塑行業賽道,衍生出更多的產業機會。期待未來更多中國本土企業都能在由開源形成的AI生態中,找到自己重塑行業賽道的機會。(思維財經出品)■