写点什么

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

  • 2023-11-17
    北京
  • 本文字数:1410 字

    阅读完需:约 5 分钟

大小:729.25K时长:04:08
百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术

11 月 16 日,百川智能鹏城实验室宣布携手探索大模型训练和应用,合作研发基于国产算力的 128K 长窗口大模型“鹏城-百川·脑海 33B”。这是国产算力大模型创新与落地的一次实践,对国产算力大模型发展具有积极示范作用。



百川智能携手鹏城实验室助力国产算力大模型创新

 

众所周知,训练大模型需要海量的算力,并且大模型参数数量的增长与算力的平方成正比。大模型性能的竞争,一定程度上是算力的比拼。在复杂多变的国际环境下,国内算力供给与需求之间的“鸿沟”持续扩大,国产化算力已经成为国内大模型企业的必要选择。

 

虽然国内诸多企业在通用 AI 芯片方面早有布局,在芯片量产、生态构建、应用拓展领域也取得了不错进展,但基于国产算力训练大模型,仍面临着生态建设、成本控制、能效比优化等阻碍。因此算力完全自主,仍需要芯片厂商、大模型企业、学术科研机构等多方共同努力。

 

鹏城实验室表示,鹏城实验室秉持“国产算力+自主大模型”的创新理念,依托“鹏城·脑海”开源联合体,广泛联合企业、高校和科研院所,致力于通过开源群智的合作模式共享资源,为千行百业插上人工智能的“翅膀”。百川智能是国内领先的大模型企业,自成立以来一直在推动大模型研发和开源生态建设,其开源和闭源模型在同等量级权威评测中都取得了优异成绩。双方在合作过程中能够充分发挥各自优势形成合力,更好地满足我国不断增长的智能化转型需求,助力中国人工智能产业快速崛起。

 

百川智能表示,百川智能希望通过开源、与合作伙伴共创等方式助力中国大模型创新,繁荣本土大模型生态。鹏城实验室作为国家战略科技力量的重要组成部分,在国产算力大模型研发和应用等方面一直处于国内领先位置。本次百川智能与鹏城实验室合作研发“鹏城-百川·脑海 33B”长窗口大模型,是国产算力大模型技术创新和落地的一次突破。未来,百川智能将在技术、算力等诸多维度不断深化与鹏城实验室的合作,持续助力本土大模型创新发展。

 

国产算力最长上下文窗口,“鹏城-百川·脑海 33B”率先实现国产算力技术突破

 

论坛上,百川智能和鹏城实验室展示了双方共同研发的“鹏城-百川·脑海 33B”大模型。“鹏城-百川·脑海 33B”的 128K 长上下文窗口基于“鹏城云脑”国产算力平台训练,未来可升级至 192K,是基于国产算力训练的最长上下文窗口。

 

上下文窗口长度对模型理解和生成与特定上下文相关的文本至关重要,是大模型的核心技术之一。通常而言,更长的上下文窗口可以提供更丰富的语义信息、消除歧义,能够让模型生成的内容更准确、更流畅。

 

为了更好地提升“鹏城-百川·脑海 33B”上下文窗口长度和模型整体性能,百川智能和鹏城实验室对模型进行了全流程优化。在数据集构建方面,采用精细的数据构造,实现了段落、句子粒度的自动化数据过滤、选择、配比,良好的提升了数据质量;在训练架构上,通过 NormHead、max-Z-Loss、dynamic-LR 等自研或业界领先的模型训练优化技术,对 Transformer 模块进行深度优化,确保模型收敛稳定的同时,全面提升了模型优化效率和最终效果;此外,还在全生命周期的模型工具集中,通过与北京大学王亦洲、杨耀东老师团队的合作,首创了带安全约束的 RLHF 对齐技术,有效提升了模型内容生成质量和安全性。

 

未来,双方将在国产算力大模型技术创新和模型落地等方面继续加强合作,并与相关领域的优势单位如北京大学、清华大学等开展协同创新,助力本土大模型在模型性能、技术创新方面持续突破,推动本土大模型进一步开源开放,为更多行业智能化转型提供帮助和支持。

2023-11-17 14:261783

评论

发布
暂无评论
发现更多内容

如何以卫语句取代嵌套条件表达式

华为云开发者联盟

条件表达式 卫语句 嵌套条件表达式 代码结构

想减少代码量,快设置一个有感知的 Aware Spring Bean

华为云开发者联盟

spring bean Aware 接口

软件开发中的风险如何处理?

源字节1号

微信小程序 软件开发

Module Federation在客服工单业务中的最佳实践

得物技术

前端 Module 模块 iframe Federation

预约中,2022京东云产业融合新品发布会线上开启

京东科技开发者

云计算 京东云 产品发布会 直播预约

后端开发【一大波干货知识】定时器方案红黑树,时间轮,最小堆

Linux服务器开发

定时器 后端开发 红黑树 时间轮 Linux服务器开发

EMQ 映云科技为抗疫项目提供全托管 MQTT 云服务免费使用

EMQ映云科技

物联网 IoT mqtt emq 抗疫

博睿数据首批加入云科通明湖生态联盟,赋能信创生态谋未来

博睿数据

提升职场竞争力!低代码开发师(高级)认证发布

一只大光圈

低代码 数字化 钉钉宜搭 宜搭

政企上云网络适配复杂,看华为云Stack有妙招

华为云开发者联盟

数据中心 云网络 华为云Stack 政企上云 L3GW服务

足不出户,搞定交付——独家交付秘籍(第二回)

阿里巴巴云原生

适合中小企业的知识库软件有哪些?

小炮

知识管理

我真不信,这年头还有人能懂SpringBoot的ClassLoader加载机制

Java工程师

Java spring 程序员 科技

龙蜥开发者说:学无止境的 Linux ,以及我的第一个定制版本发布之路 | 第4期

OpenAnolis小助手

Linux 龙蜥社区 开发者说 宝贵经历

京东运动露营活动亮相首钢园,精彩持续整个四月

科技新消息

智能化时代的数据集成技术革新

Apache SeaTunnel

大数据 开源 数据同步 Meetup Apache SeaTunnel

PLG公司的机遇和挑战

LigaAI

SaaS LigaAI PLG

无需编程,基于甲骨文oracle数据库零代码生成CRUD增删改查RESTful API接口

crudapi

oracle 零代码 API crud 增删改查

《数字经济全景白皮书》Z世代用户洞察篇(1)重磅发布!

易观分析

Z世代

领域驱动设计(DDD)靠谱么?

架构精进之路

DDD 4月日更 4月月更

圆桌派来啦!与行业大咖聊聊Dapr的发展与实践

行云创新

云原生 dapr

netty系列之:netty中的核心解码器json

程序那些事

Java Netty 程序那些事 4月月更

HertzBeat入GVP啦,并 v1.0.beta.7 发布,易用友好的云监控系统

TanCloud探云

开源 APM angular java;

传统链游的革新,PlatoFarm用实际行动回馈Dao社区

西柚子

中国SaaS的增长真相|ToB大师课

ToB行业头条

【高并发】解密导致并发问题的第三个幕后黑手——有序性问题

冰河

并发编程 多线程 协程 异步编程 精通高并发系列

机器人流程自动化评估体系全面助力垂直行业智能化转型

王吉伟频道

RPA 机器人流程自动化 信通院

【Zeekr_Tech】汽车软件敏捷开发和分支管理

Zeekr_Tech

敏捷开发 智能驾驶

在APICloud开发平台使用友盟统计功能教程

YonBuilder低代码开发平台

APP开发 APICloud 友盟

3月月更中奖名单新鲜出炉!快来看有没有你呀!

InfoQ写作社区官方

3月月更 热门活动

数字产业化快于产业数字化?

BeeWorks

百川智能与鹏城实验室开展合作,突破国产算力大模型长窗口技术_生成式 AI_百川智能_InfoQ精选文章