有点感觉像是为了V4版本的预热了。毕竟不到三个月的时间,突然就更新了OCR-2版本,这速度也太快了把。不由得让我想起了OpenAI的翁家翌对DeepSeek这个公司的评价:面对中国公司DeepSeek的竞争,OpenAI内部真正感到压力的不是对方的算 ...
很多小伙伴在看完 Datawhale开源项目: self-llm 开源大模型食用指南后,感觉意犹未尽,想要深入了解大语言模型的原理和训练过程。于是我们(Datawhale)决定推出《Happy-LLM》项目,旨在帮助大家深入理解大语言模型的原理和训练过程。 本项目是一个系统 ...
在当今多模态大模型的竞争中,文档解析一直是一个难以逾越的瓶颈。尽管早期的CNN+RNN架构已经取得了一定的进展,但在面对复杂的排版、表格以及非线性文本时,依然面临语义与序列错配的问题。当前主流的ViT-based Encoder在字符识别上虽有优势,但在阅读顺序 ...
过去,主流的视觉模型(VLM)其实有点死板:它们通常按照从左到右、从上到下的光栅扫描顺序,把图像切成一个个小方块喂给大模型。但这显然不符合我们人类的阅读习惯。当人类看一张复杂的表格或一幅画时,我们会根据内容的逻辑结构(也就是语义)来灵活调整视线。
截至目前,轻舟累计辅助驾驶搭载量突破100万台,行业首个单地平线征程6M芯片实现的城市NOA功能正式上车,当前已经确定拿下数十款车型量产。同时,轻舟发布了VLA与世界模型统一架构,并宣布正式进军L4无人物流领域。从本次公布的多项进展看到,轻舟正在从过去的“蛰伏”变得不“低调”。
在维持极高数据压缩效率的同时,DeepSeek-OCR 2 在多项基准测试和生产指标上均取得了显著突破。模型仅需 256 到 1120 个视觉 Token 即可覆盖复杂的文档页面,这在同类模型中处于极低水平,显著降低了下游 LLM 的计算开销。
姚顺雨加入腾讯两个月后,2025年12月初,腾讯发布混元2.0模型,总参数为4060亿。其英文名更新为HY2.0,被视为重视全球市场的举措。有人猜测该模型就是姚顺雨入职后的成果。但按照业内训练一代模型的周期来看,混元2.0不太会是姚顺雨从零开始训练的模型。
基于上述问题,快手在业界首次提出端到端的生成式统一查询推荐框架 ——OneSug,成功将召回、粗排、精排等多个阶段统一在一个生成模型中,显著提升了推荐效果与系统效率,在快手电商场景中实现了业务指标与用户体验的双重提升。
This paper presents a unified Vision-Language Pre-training (VLP) model. The model is unified in that (1) it can be finetuned for either vision-language generation (e.g., image captioning) or ...
some analysis to understand the behaviors of streaming S2S models.
先说下我的经历,有6年大厂算法工程师的经验,2022年前主要做CV和NLP,2023年全面转向大模型方向。平均每年负责三个大模型相关项目,也参与组内其他项目。无论是作为面试官还是候选人,这前前后后的经历我都积累了不少。今天纯粹是个人经验分享,没有任何广告,可能带有我的个人视角,大家批判参考就好。
在 Transformer 架构的基础上,微云全息基于“Masked 预训练”策略。这种策略最初源于 BERT 模型在语言理解任务中的成功经验,被证明能够有效捕捉序列中元素间的深层次关系。微云全息研究团队将其迁移到红外光谱数据建模中,提出了一种自监督学习框架,用于从大规模无标签的红外光谱数据中自动学习鲁棒特征。