minimax 联合华中科技大学首次对外开源其视觉生成核心技术——vtp(visual tokenizer pretrAIning,视觉分词器预训练)。该技术在不改动标准dit架构的前提下,仅通过对视觉分词器(visual tokenizers)进行扩展与优化,便实现了高达 65.8% 的端到端生成性能提升。

区别于多数分词器相关研究,VTP 的设计理念强调“零侵入”:它完全不干预下游主干模型(如 DiT)的训练流程,所有改进均集中在前置的 tokenizer 模块上,从而以极低耦合代价达成生成质量的显著跃升。
VTP 预训练范式如下:

TalkMe
与ai语伴聊天,练习外语口语
下载简言之——VTP 首次在理论上与实践中建立起 latent 表示的易学性(learnability)与通用表征能力之间的强关联,进而将 tokenizer 推至模型缩放(scaling)舞台的中心。它不仅展现出清晰、稳健的 scaling 规律,更指明了一条独立于主模型参数增长之外的全新性能提升路径:即通过 tokenizer 自身的规模化设计与训练,驱动整个生成系统的持续进化。
代码仓库:https://www.php.cn/link/af5ac7432f2b60611a2b2081da85bdc0
论文地址:https://www.php.cn/link/2c144615541213bbe63e9d81c4727883
源码下载:点击获取
扫描二维码推送至手机访问。
版权声明:本文由2345好导航站长资讯发布,如需转载请注明出处。
扎根印制电路板技术研发二十年,专注于汽车电子、高频通讯等中高端领域的协和电子(605258)本周启动招股,下周四(11月19日)即将网上申购。 多年的沉淀,令其收获了一批优质客户。不过随着行业规模增长放缓、各类成本抬升以及行业龙头集中度提高,协和电子往日优势逐渐消退,利润水平也逐年降低,此...
1947年,美国贝尔实验室的威廉.肖克利和他的两位助手布拉顿、巴丁,研制出了世界上第一只晶体管,为集成电路产业打开时代大门,也造就了现代信息社会的根基――“芯片”。 但是现代信息社会并不能避不开国与国之间的问题。 “芯片强则产业强,芯片兴则经济兴,没有高端芯片就没有真正的产业安全和国...
钱流不进口袋的企业,真的算是赚钱企业吗? 盈利,是大部分投资者最关心的问题。但企业盈利的有效性,是有前提的,现金流就是这个前提。但这部分,往往会被许多投资者忽略,正如巴菲特的那句著名评论:“现金是氧气,99%的时间你不会注意它,直到它没有了”。 没有现金流入的盈利只是纸面数字,纸面数...
以19%市占率位居精微屏蔽罩市场头部玩家的和林微纳,即将亮相科创板。 2021年3月9日,主要产品为微机电(MEMS)精微电子零部件的和林微纳,开启了科创板招股。公司与楼氏电子、瑞声科技、裕元电子和银河机械,一同成为精微屏蔽罩市场的主要玩家,2019年五家企业合计占到全球市场总份额的80%...
历时四年发展,归母净利润反缩水近7成的上声电子,即将登陆科创板,寻求资本助力。 作为国内前装市场汽车声学产品方案供应商的上声电子,于2021年3月29日在科创板启动招股环节。公司计划募集4.47亿元资金,其中2.47亿元用于扩产扬声器项目,1.49亿元用于扩产汽车电子项目,剩余5000万元...
四个交易日高位逆势大跌24%,共计16.6亿资金逃离,上市仅10多天的真爱美家(003041.SZ)正经历大资金高位套现离场。 资料显示,真爱美家是一家以毛毯出口为主的家用纺织企业,公司于2021年4月6日正式登陆资本市场。4月15日,公司涨停封板态势突然崩溃,股价掉头向下,当天最大跌幅触...