中科闻歌+华为云:高质量打造数据平台底座推动大模型赋能产业

  公司新闻     |      2024-06-24 02:36

  面对新一轮大模型引领的人工智能变革,加快推进大模型赋能数智化应用健康发展具有重要意义。如何把大模型技术应用到数据开发、治理与分析全流程,提供高效产品与服务,让AI和数据持续释放价值,成为包括中科歌闻在内的众多人工智能企业的探索和实践方向。

  6月22日,华为开发者大会2024(HDC 2024)在广东东莞松山湖召开,中科闻歌技术副总经理盘浩军先生受邀出席大会,并在DataArts全新升级专题论坛上围绕《基于Data4AI为模型训练打造高质量数据平台底座》作主题分享,深入交流基于数据集的大模型构建实践,探索新的创新方向和可能。

中科闻歌+华为云:高质量打造数据平台底座推动大模型赋能产业(图1)

  作为一家中科院自动化所孵化的人工智能公司,中科闻歌聚焦复杂数据解析和 AI 辅助决策。三年来,中科闻歌与华为云携手共进。通过华为云IaaS、PaaS以及昇腾云等云服务的支撑,中科闻歌在云上打造了认知与决策智能基础平台DIOS和雅意大模型,引领人工智能技术实现跨越,全面赋能各行业数字化、智能化的转型升级。

  盘浩军先生表示,作为训练大模型的基石,数据集的质量直接影响到模型的表现,当前国内高质量数据集面临中文、小语种高质量数据缺乏,意识形态安全性不可控,行业专业知识、著作等高质量精确数据缺少以及数据质量参差不齐等问题。针对行业痛点,中科闻歌基于数据集的大模型构建,提出了“数据工程、模型工程、领域工程”领域AI落地三步曲。

  大模型的预训练到推理应用需要高质量的数据。来自开源和企业内部的原始数据,要经过高质量数据清理工具的处理,才能成为高质量数据。中科歌闻多语言语料库经过文档数据去重、标准化、启发式清理、段落及句子去重 、“毒性”过滤5大工序层层加工,确保预训练数据安全可控。

  开云体育 网页版入口

  丰富的数据集提升模型对各种数据格式、各个场景任务的响应能力,多语言语料库增强了模型多语言场景的理解和分析能力,中科闻歌参与国家级AI高质量数据集平台的数据积累已达240TB,为雅意大模型开发提供了坚实的数据基础。

  在模型工程上,盘浩军先生表示可以采取“1+N+MoE”的策略,暨“打造一个基座模型确保自主可控,多种领域模型博采众长,形成多专家模型”。中科闻歌的雅意大模型作为国产安全可靠的原生大模型代表,具备国产自主可控、十余年数据集积累、生态开源开放,垂直领域知识增强等特点,可提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。

  雅意大模型2.0从数据、算法、模型到应用拥有全自主知识产权 ,可面向行业应用场景自主训练和微调,支持多款国产算力硬件兼容,为政府、企业打造安全可靠的专属AI模型能力。盘浩军先生透露,进一步升级的雅意大模型3.0即将在2024年7月推出。

  会上,盘浩军还分享了某银行财报问答、航天信息财税大模型、深圳市龙华政务问答GPT、中医科学院国医金匮智能问诊等雅意大模型在金融、媒体、安全领域的应用案例。

  对于中科闻歌来说,未来大模型的发展方向要瞄准通用人工智能前沿技术,从理解语义到理解世界,从感知智能向认知和决策智能跨越,不唯参数规模,做“小”做“精”做“深”大模型,打造更高效、更经济的轻量化行业专用模型

  随着AI应用场景不断丰富,大模型加速更迭,算力需求也迎来持续扩张,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。未来,中科闻歌将继续携手华为云及相关合作伙伴,基于国产算力突破训练国产模型,高质量打造数据平台底座,共同构建大模型行业生态集群,加速行业大模型落地应用。

  OpenHarmony最新行业创新成果亮相HDC 2024统一互联展区

  HarmonyOS NEXT技术创新媒体体验,百亿级宣发资源激活高品质数字内容分发

  深圳看到科技发布Kandao Meeting S 180°超广角智能视频会议机

  BATTLEACE(格斗大师)青少年挑战赛正式发布,开启全民竞技格斗机器人赛事新时代

  6月18日至23日,三星电视携手重百电器,在重庆观音桥步行街精心打造了一场别开生面的主题快闪店活动,为第12届重百家电节增添了一抹亮色。

  kaiyun体育 官方网站入口

  6月19日-20日,由山东省妇联、山东省人力资源和社会保障厅、山东省教育厅主办,滨州市妇联、山东航空学院、山东华普亿方教育科技有限公司承

  6月22日,TCL创始人、董事长李东生受邀出席2024亚布力论坛第十届创新年会,以《百年变局下的中国企业全球化之路》为题发表演讲,分享TCL在

  共享经济作为一种新的社会资源整合分配模式,目前发展迅猛。党的十九大报告明确指出:要在共享经济领域中培育新增长点、形成新动能;这就意

  2024年6月21日,仙居好货电商月启动仪式暨仙居好货选品对接会在仙居盛大举行。本次活动汇集电商平台、MCN机构、采购团长等电子商务产业链上

  6月22日,在华为开发者大会2024期间,以大模型混合云,十大创新技术引领政企智能升级为主题的高峰论坛成功举办。会上,鄂尔多斯市数字投资

  在运动中,人们挥洒汗水、挑战自我,追求更快、更高、更强。然而,运动过程往往伴随着风险,每一次冲刺、跳跃和扭转都可能隐藏着潜在的损伤

  [中国,东莞,2024年6月22日]今日,在华为开发者大会2024期间,以大模型混合云,十大创新技术引领政企智能升级为主题的高峰论坛成功举办。

中科闻歌+华为云:高质量打造数据平台底座推动大模型赋能产业(图2)

  版权所有 本网本网商业快讯取消中科闻歌+华为云 :高质量打造数据平台底座 推动大模型赋能产业

  面对新一轮大模型引领的人工智能变革,加快推进大模型赋能数智化应用健康发展具有重要意义。如何把大模型技术应用到数据开发、治理与分析全流程,提供高效产品与服务,让AI和数据持续释放价值,成为包括中科歌闻在内的众多人工智能企业的探索和实践方向。

  6月22日,华为开发者大会2024(HDC 2024)在广东东莞松山湖召开,中科闻歌技术副总经理盘浩军先生受邀出席大会,并在DataArts全新升级专题论坛上围绕《基于Data4AI为模型训练打造高质量数据平台底座》作主题分享,深入交流基于数据集的大模型构建实践,探索新的创新方向和可能。

  kaiyun体育 官方网站入口

中科闻歌+华为云:高质量打造数据平台底座推动大模型赋能产业(图1)

  作为一家中科院自动化所孵化的人工智能公司,中科闻歌聚焦复杂数据解析和 AI 辅助决策。三年来,中科闻歌与华为云携手共进。通过华为云IaaS、PaaS以及昇腾云等云服务的支撑,中科闻歌在云上打造了认知与决策智能基础平台DIOS和雅意大模型,引领人工智能技术实现跨越,全面赋能各行业数字化、智能化的转型升级。

  盘浩军先生表示,作为训练大模型的基石,数据集的质量直接影响到模型的表现,当前国内高质量数据集面临中文、小语种高质量数据缺乏,意识形态安全性不可控,行业专业知识、著作等高质量精确数据缺少以及数据质量参差不齐等问题。针对行业痛点,中科闻歌基于数据集的大模型构建,提出了“数据工程、模型工程、领域工程”领域AI落地三步曲。

  大模型的预训练到推理应用需要高质量的数据。来自开源和企业内部的原始数据,要经过高质量数据清理工具的处理,才能成为高质量数据。中科歌闻多语言语料库经过文档数据去重、标准化、启发式清理、段落及句子去重 、“毒性”过滤5大工序层层加工,确保预训练数据安全可控。

  丰富的数据集提升模型对各种数据格式、各个场景任务的响应能力,多语言语料库增强了模型多语言场景的理解和分析能力,中科闻歌参与国家级AI高质量数据集平台的数据积累已达240TB,为雅意大模型开发提供了坚实的数据基础。

  在模型工程上,盘浩军先生表示可以采取“1+N+MoE”的策略,暨“打造一个基座模型确保自主可控,多种领域模型博采众长,形成多专家模型”。中科闻歌的雅意大模型作为国产安全可靠的原生大模型代表,具备国产自主可控、十余年数据集积累、生态开源开放,垂直领域知识增强等特点,可提供多语言理解、多模态内容生成、多智能体辅助决策的核心能力。

  雅意大模型2.0从数据、算法、模型到应用拥有全自主知识产权 ,可面向行业应用场景自主训练和微调,支持多款国产算力硬件兼容,为政府、企业打造安全可靠的专属AI模型能力。盘浩军先生透露,进一步升级的雅意大模型3.0即将在2024年7月推出。

  会上,盘浩军还分享了某银行财报问答、航天信息财税大模型、深圳市龙华政务问答GPT、中医科学院国医金匮智能问诊等雅意大模型在金融、媒体、安全领域的应用案例。

  对于中科闻歌来说,未来大模型的发展方向要瞄准通用人工智能前沿技术,从理解语义到理解世界,从感知智能向认知和决策智能跨越,不唯参数规模,做“小”做“精”做“深”大模型,打造更高效、更经济的轻量化行业专用模型

  随着AI应用场景不断丰富,大模型加速更迭,算力需求也迎来持续扩张,“大模型+大算力+大数据”成为新一代人工智能发展的基本范式。未来,中科闻歌将继续携手华为云及相关合作伙伴,基于国产算力突破训练国产模型,高质量打造数据平台底座,共同构建大模型行业生态集群,加速行业大模型落地应用。