分享好友 最新动态首页 最新动态分类 切换频道
数据标注为AI发展加工“优质原料”
2025-02-03 16:08

  随着迅猛发展,高质量训练数据短缺逐渐成为制约行业进步的一大瓶颈,而数据标注产业可为创新发展提供强大动力。国家发展改革委、国家数据局、财政部、人力资源和社会保障部四部门日前联合印发的《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),提出到2027年的发展目标:数据标注产业专业化、智能化及科技创新能力显著提升,产业规模大幅跃升,年均复合增长率超过20%。

  我国数据标注产业现状如何?数据标注产业高质量发展还需要跨过哪些“门槛”?针对这些问题,科技日报记者进行了采访。

  原始数据变为可用资源

  “通俗地说,训练大模型的过程就像老师教学生识字。”华南理工大学计算机科学与工程学院副院长张通形象地解释道,数据标注就是给数据“贴标签”或者“做记号”,需要专业人员向大模型阐释各个数据的标签及需执行的相应任务。他们“教导”大模型参与训练的数据是什么,给图像、语音、文本等各种数据“贴标签”。高质量的数据标注,有助于机器精准理解、快速学习、高效训练,显著提升大模型的准确性和泛化能力。

  在训练ChatGPT时,美国开放人工智能研究中心(OpenAI)就投入了大量资源用于数据标注。为确保标注任务高质量完成,使ChatGPT能更好地理解人类指令,保障大模型的准确性与可靠性,OpenAI聘请了众多“老师”。这些“老师”涵盖一般数据标注人员和专业人士,还包括博士级别的专家。

  数据标注是人工智能发展的核心基石之一。“数据标注产业是对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业,其核心任务是对原始数据进行加工,使之成为可用于训练人工智能大模型的优质原料。”张通介绍,数据标注作为训练大模型至关重要的一环,直接影响机器学习模型的性能,对支撑人工智能能力水平提升有重要作用。

  在张通看来,未经处理的原始数据只是潜在资源,而经过标注处理后沉淀的数据,才能在市场上进行有效交易和流通,从而充分释放价值。培育壮标注产业,对于提升数据供给质量、推动人工智能创新发展不可或缺。

  业内人士认为,随着人工智能技术不断成熟、应用领域持续拓展,数据标注行业将迎来更广阔市场空间,尤其是在、自动驾驶、智慧医疗等新兴科技领域展现出巨大潜力。

  产业步入快速发展阶段

  全球数据标注市场目前正处于迅速增长期。近年来,我国数据标注产业已进入快速发展阶段,产业链条不断完善,技术创新成果逐步实现市场化应用。据测算,2023年我国数据标注产业规模已达800亿元左右。

  四川成都、辽宁沈阳、安徽合肥、湖南长沙等7个承担数据标注基地建设任务的城市,在大模型标注、自动化标注等领域取得重要突破。长沙信息产业园作为长沙首批数据标注基地之一,已吸引智能网联汽车、数据标注、等1万余家各类数字企业入驻,成功打造了人工智能创新中心算力服务平台。

  广东积极推进数据标注训练试点和基地建设,为大模型训练提供坚实数据支撑。2023年9月,广东省公共数据标注训练试点正式启动。在广东省公共数据标注基地(清远),、燕湖科技、好思达等一批在自动驾驶、政务公共标注领域表现突出的企业已率先入驻。凭借龙头企业的带动作用和产业的集聚效应,清远的数据标注产业蓬勃发展。

  “我们以产业为核心,与产业龙头企业紧密合作,致力于打造国家级数据标注产业集聚区和产教融合示范区。”广东省公共数据标注基地(清远)负责人李艳康介绍,落户在此的智能云(清远)人工智能基础数据产业基地已累计引进孵化数据标注企业5家,培育专业数据标注师超300人。未来,基地将持续培育孵化更多优秀数据标注企业,推动清远数据服务产业不断壮大发展。

  复合型人才缺口仍然较大

  《实施意见》的出台,将进一步提升数据供给质量,有效解决制约人工智能产业发展的高质量数据短缺问题。

  值得注意的是,随着人工智能应用的不断深化,对数据标注的需求也愈发细分化和专业化。2024年7月,张通团队和广州华银康医疗集团股份有限公司在人工智能与数字经济广东省实验室(广州)共建AI病理研究中心,着手研发人工智能病理大模型,让人工智能模型能像专业医生一样看病问诊。在其中的数据预处理环节,中心特别聘请了3位资深的主任级医师进行数据标注。

  “医疗、材料等专业领域,涉及到专业对象和术语结合的标注过程,只有专业从业人员才能胜任标注工作。而且,标注任务极其耗时、耗力、耗资源。整个标注工作并非一蹴而就,而是需要在实际应用场景中优化、持续迭代,促使模型智能化水平不断升级。”张通说,当前我国数据标注行业人才缺口仍然较大,亟待培养复合型数据标注人才,这是我国数据标注产业高质量发展必须跨过的“门槛”。

  《实施意见》对加强标注人才队伍建设作出部署。以人才项目计划和科技项目等为抓手,培育和引进高端专业人才;制(修)定人工智能训练、数据标注相关职业国家职业标准;支持数据标注领域职业资格与职业技能等级衔接互认……一项项举措,将为数据标注产业高质量发展提供支撑。

  完善的产业生态建设对数据标注行业发展同样重要。《实施意见》提出,畅通数据采集、标注、人工智能应用产业链,推动数据标注产业上下游协同发展;支持数据标注龙头企业和第三方机构等建设数据标注开源平台,助力中小企业发展;培育一批人力资源、供需对接、国际合作、法律审计等服务数据标注的第三方机构,完善数据标注产业生态。

最新文章
“调小青” 为何行?“一站式解纷”绘新景
近日,浙江省杭州市上城区综治中心“调小青”工作室快速化解一起校园纠纷,获学生家长致谢。两名中学生因琐事发生肢体冲突,导致一名学生脸部受伤住院。青年团干第一时间将事件反映至“调小青”工作室进行处置,工作室迅速组织青年律师、心
圣安地列斯内置作弊菜单(GTA: SA)圣安地列斯手机版「圣安地列斯内置作弊菜单(GTA: SA)」
【圣安地列斯内置作弊菜单最新版】该游戏主打就是刺激,画面将得到优化,流畅的游戏体验,可以直接在这个世界中探索,在这里感受最真实自由的城市生活,体验感满满的,拥有游戏剧情玩法,随着系统提示,看看咱们下一步需要做什么吧,超大地
挖矿模拟器手游正版(挖矿模拟游戏) Hydroneer v1.1 安卓版手机挖矿「挖矿模拟器手游正版(挖矿模拟游戏) Hydroneer v1.1 安卓版」
挖矿模拟器手游正版是一款非常有趣和富有挑战性的挖矿模拟器游戏,可以在手机上游戏了。此款游戏玩家可以在游戏中体验到挖掘、加工和贸易的过程,获得更多的财富和成就感。游戏的开放世界和自由度让玩家可以自由探索和冒险,多种任务和挑战
弹弹play iOS版上架应用商店了苹果手机应用商店「弹弹play iOS版上架应用商店了」
​​我们最近在 AppStore 上架了重写后的弹弹play iOS版本,新的app名称是 AniXPlayer。欢迎您下载进行试用。目前播放器支持从本地文件、SMB共享、WebDAV、FTP等多个来源进行播放,还支持弹幕调整和加载xml弹幕文件。对于您可能关心的更多
华为Mate60Pro2023年的双十一会降价吗?手机降价「华为Mate60Pro2023年的双十一会降价吗?」
按照这一款手机目前的火热程度来看的话,对于这一款手机降价不用抱有太大的期待,作为全新回归的一款手机,对于用户来说有着与众不同的意义,就目前来看,可以买到已经是很不错了。如果等到双十一的话,就算有降价,应该也只是“礼貌”降价
王友明:“大金砖”以四大创新应对不确定性
美国政府的一系列单边主义、保守主义做法给当前的国际经贸秩序和世界发展格局带来严重破坏。在全球南方国家群体性崛起的大背景下,作为其中突出代表的“大金砖合作”也因此面临外部环境层面的一些新挑战。比如,美国挑动关税战、贸易战引发
闵行这个街区的烟火气里藏着哪些宝藏小店?一起来找找看
想探寻街巷深处最地道的烟火滋味?想解锁社区周边不为人知的宝藏好店?街区书记化身“探店官”,亲自甄选、诚意推荐!从街角老店的独家手艺,到巷尾新铺的创意风味,带你感受家门口的幸福烟火气,速来围观↓今天我们探寻的是——江川路街道
iPhone 16 Pro Max价格确定,256GB+A18 Pro,还有必要等618吗?
目前中美关税战又有了全新的进展,对手机圈来说也是有不小的影响。从目前曝光的消息来看,CPU以及GPU都突然要加征125%的关税。这对手机厂商来说无疑是不小的压力。这个时候很多人可能就要问了,iPhone手机会不会涨价呢?对此,我们也在电商
规模增长质量提升 外贸顶压前行
来源:中国证券报规模增长质量提升 外贸顶压前行“我国外贸顶压前行,实现规模增长、质量提升。”海关总署副署长王令浚4月14日在国新办新闻发布会上说,一季度,我国进出口规模创历史同期新高,增速逐月回升。同时,经营主体活跃度进一步增
日常装13利器之手机壳,这8家小众而耐思的淘宝店你值得拥有!小众手机「日常装13利器之手机壳,这8家小众而耐思的淘宝店你值得拥有!」
• 2019 / 04 /25 • 据 小芳的不正经预估,当代青年男女平均每个人的一生要用掉999个手机壳,第333个手机壳通常都是别人送的,而第666个手机壳一定是买完突然不想要了的。现在手机壳作为消耗品更新换代的频率,已经比我买衣服的频率还要高
相关文章
推荐文章
发表评论
0评