发布网友 发布时间:2023-09-06 14:29
共1个回答
热心网友 时间:2023-09-17 23:39
数据标注实务—数据标注概述。
数据标注发展简史
数据标注行业的发展
1、人工智能发展史
人工智能的概念在上世纪五六十年代被正式提出。
图灵测试
1956年在达特茅斯会议上首度提出“人工智能(AI)”概念,被誉为“人工智能的起点”。人工智能的发展经历了起起伏伏,从理论到实践,从初期在现实应用环境中使用效果不佳,到通过技术的突破,实现存储能力、计算能力的大幅提升的过程。
2、数据标注的起源
2007年,斯坦福大学教授李飞飞等人开始启动ImageNet项目。
数据标注的概念:标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。
3、人工智能算法与数据标注之间的关系
强人工智能vs弱人工智能。
深度学习是人工智能目前的一个重要研究领域,其主要有四种方式:监督学习、无监督学习、半监督学习、强化学习,监督学习是当前人工智能的研究重点。
国内数据标注行业的发展现状
数据标注行业近几年发展迅猛,要求越来越高。
1、市场端
预计2025年市场规模将突破100亿元人民币,对标注数据的需求量会更大,数据标注行业的发展前景是十分向好的人工智能算法与数据标注之间的关系。目前数据标注需求量最大的五座城市分别是:北京、成都、杭州、上海、深圳。
2、供应商端
分为三大类:平台数据供应商、中小数据供应商、需求方自建团队。从供应商的发展来看,行业内部处于“洗牌”阶段。
什么是数据标注
数据标注(Data Annotation)是对文本、图像、语音、视频等待标注数据进行归类、整理、编辑、纠错、标记和批注等加工操作,为待标注数据增加标签,生成满足机器学习训练要求的机器可读数据编码的工作。
标签(Label)
标注任务(Annotation Task)
数据标注员(data labeler)
标注工具(annotation tool)
数据标注的工作特点
数据标注工作特点是由数据标注项目的特点决定的,而且需要根据效果不断进行需求调整。
需具备以下能力:可迁移学习能力、重复标记能力、细心专注能力、总结提炼能力。
据标注定义及分类
数据标注的基本流程
包括4个环节:
数据采集:首要环节,来源于提出标注需求的人工智能公司。常通过互联网获取公开的数据集与专业数据集。
数据清洗:重要的环节,对数据进行筛检,去重,并对数据集中存在的异常值与缺失值进行查缺补漏,同时平滑噪声数据,最大限度纠正数据的不一致行和不完整性。
数据标注:由标注员负责标注数据,可采用分类标注、标框标注、区域标注、描点标注或其他标注方法进行。
数据质检:关键环节,常见的控制质量方法:多人验证、埋题验证、标注人员状态验证、机器验证。
数据标注的分类
常根据待标数据类型进行分类:
文本标注:主要是用于自然语言处理(Natural Language Processing,NLP),如:客服行业、金融行业、医疗行业等。其标注方式有:分词标注、词性标注、情感标注、意图识别、实体标注等。
音频标注:主要用于语音识别(Automatic Speech Recognition,ASR)和语音合成(Text-To-Speech,TTS),ASR技术主要是将声音转成文字,而TTS技术主要是将文字转化为声音。目前较常见的应用场景有智能客服、电话机器人、苹果手机的Siri等。音频标注方式有语音转写、语音情感标注等。
图像标注:主要给计算机视觉相关的算法提供数据集,日常能了解到的场景如人脸识别、自动驾驶、车牌识别以及目前比较火的医疗影像的识别等都会用到图像标注。标注方式有矩形框标注、多边形拉框、打点、OCR识别、语义分割、图片审核分类等。
视频标注:主要是通过对视频取帧后进行图片标注,然后再进行合成训练。例如:监控视频、自动驾驶、智慧交通等,其标注方法基本和图片标注一致。
数据标注的应用领域
尽量理解标注数据的应用场景,对于标注质量有重要意义。
出行领域:常见的标注方式有:点标注、线标注、框标注、3D点云标注、场景语义分割、PoI(Point of Interest)标注等。
安防领域:*层面多。人脸标注、视频分割、语音采集、行人标注等是重要的数据标注应用。
金融领域:文字翻译、语义分析、语义转录、图像标注等都会得到很广泛的应用。
电子商务领域:能进一步深度挖掘数据集,通过互联网搜索指定内容的搜索完善、通过语句的情感判断、意图判断、纠错、以及语言的采集、标注等均为重要的数据应用。
公共服务领域:检查内容是否符合要求的内容审核,对具有相同意义的语句进行归类的语义分析、意图识别、语音转录,以及视频审核、文本审核等都是数据标注常见的应用领域。
数据标注行业的运行模式
数据标注的特点
标注内容最小颗粒度、项目标注数量大、标注需求迭代快。
数据标注在人工智能中的地位
数据标注为人工智能公司提供了大量的带有标签的结构化数据集,供机器进行训练和学习,保证算法模型的有效性。而数据标注的准确性决定了人工智能的有效性,因此在目前阶段数据标注在人工智能中还占据着非常重要的角色,而且在未来一段时间依然非常重要。
数据标注运行模式
可以参考PM项目管理。
数据标注行业未来发展趋势及挑战
具前瞻性的数据集产品和高度定制化数据服务将成为数据标注行业发展的主流。
数据标注行业竞争加剧的发展趋势
目前已进入快速增长期,微观角度来看:市场规模不断扩大,市场竞争的加剧,行业内部或将迎来“洗牌期”;宏观角度看:高质量、精细化、定制化的数据集越来越受到需求方的青睐。
*的有力支持
工业和信息化部印发了《促进新一代人工智能产业发展三年行动计划(2018-2020年)》。
2020年2月,“人工智能训练师”正式成为新职业隶属于软件和信息技术服务人员小类。
面临的问题和挑战
挑战1:标注需求难度加大、行业结合深入不够。
挑战2:半自动化标注工具及管理平台的研发不足,关注两个重点:如何提升标注效率和如何做好项目管理。
挑战3:数据标注质量的把控不过关目前已进入快速增长期。
挑战4:数据安全与隐私的保护不容乐观,目前产生了如数据治理、数据分割、数据安全传输和区块链等技术。
数据标注行业的前景与发展
数据标注行业前景广阔,但也面临诸多挑战。
唯有不断提升自身技术实力、快速迭代自身业务以适应需求变化、并打造品牌与实力的双重口碑效应,才能在激烈的市场竞争中更具优势,建立高度排他性技术壁垒,从而保证自身在竞争中立于不败之地。