当前位置 博文首页 > WangBo的机器学习乐园:[科研笔记] 关于人工智能与算法项目的思

    WangBo的机器学习乐园:[科研笔记] 关于人工智能与算法项目的思

    作者:[db:作者] 时间:2021-06-13 21:37

    前言

      [科研笔记] 系列是我在科研道路上的随笔和思考,内容不加以局限,是一个开放的文章系列,这也是给自己一点自由的空间。
      
      本文是我结合自身经验给的一些出关于人工智能技术和算法项目管理方面的思考。欢迎大家批评指正,提出宝贵的意见。
      
      文章小节安排如下:
      1. 人工智能技术火爆引发的问题
        1.1 盲目崇拜人工智能
        1.2 试图借助人工智能进行跨越式发展
      2. 人工智能技术带来的项目管理难题
        2.1 算法项目合作需要理性与务实
        2.2 算法系统与业务系统对接成本较高
        2.3 算法系统的成本和预期效果难以评估
        2.4 算法研究员的工作难以管理
      3. 结语
         

    一、人工智能技术火爆引发的问题

      随着人工智能技术的突飞猛进以及实用化水平越来越高,大量的工程项目开始引入人工智能技术并将其作为重要的组成部分,人工智能技术可以显著提高系统的运行效率、性能和灵活性,甚至解决之前无法解决的业务难题。人工智能技术崛起的如此迅速,甚至如果立项时候不加入点人工智能概念,都不好意思发布出去,但与此同时,我们也应该清醒的认识到智能技术存在的不足,以及在项目中引入人工智能技术引发的个各类问题。
      

    1.1 盲目崇拜人工智能

      个人、社会与国家应该理性认识人工智能,避免泡沫与资源浪费,避免虎头蛇尾。
      
      媒体的过度鼓吹导致很多人对人工智能盲目崇拜,觉得人工智能可以解决所有的问题。在这种狂热的氛围下,很多创业团队都以人工智能技术作为基础,构建自己的商业模式和创业项目。很多大公司的项目经理也依赖人工智能技术设计业务系统。这是一个好现象,大家充分拥抱人工智能,但这也是一个需要警惕的现象,人们崇拜着人工智能技术,将项目的成败完全寄托于人工智能技术的成败,缺少对人工智能技术发展水平的清晰认识,一旦智能技术的研发没有达到预期,项目就会宣告死亡,这是应该极力避免的。
      
      我经历了太多高调立项却草草收尾的人工智能项目,立项之初各参与单位慷慨激昂、热闹非凡,真的是敢想敢吹敢拍着胸脯保证,似乎一切问题都可以利用人工智能技术分分钟搞定。可是到项目结题的时候呢?各个单位相互推卸责任,实验的指标作假,师范系统的数据作假,甚至直接耍无赖说做不出来爱咋咋地,参会现场一片狼藉,争吵不断。
      

    1.2 试图借助人工智能进行跨越式发展  

      智能化一定是未来,但工业化仍然是我国现在的主要技术战略方向,现阶段的人工智能应服务于国家工业化战略。
      
      人工智能技术的发展阶段已经有很多专家大牛在讨论,我就不多说了,这里我结合自身的人工智能技术研发经验和工程项目经验,谈一谈在我的认知里,现阶段人工智能的发展方向是什么。
      
      在我看来,现阶段的人工智能技术解决的比较好的是重复性的、规则性的任务,例如图像分类,视频打标签,人脸检测和识别等等,可以解放人类劳动力,这本质上是一个自动化的过程我们国家仍处在工业化阶段,工业控制和自动化技术是现阶段发展的第一战略方向,这点从我们国家政府制定的制造强国战略《中国制造2025》行动纲领就可以看出来,而目前的人工智能技术,也应该以解决工业化和自动化问题作为重点研究方向,提高我国工业生产的自动化程度。
      
      从提高自动化程度的角度来研究人工智能技术往往能取得比较好的应用效果,例如帮助直播公司做自动内容审核,例如帮助博物馆构建数字图像数据库来提高图像查找速度,例如工厂中的各类工业机器人(也许只是一个机械臂)等等。而从其他角度研发的人工智能产品效果却较差,例如市场上各种家庭陪伴/对话机器人,以及各种主打人类与人工智能交互的产品,实际价值并不大。原因在于现阶段的人工智能技术并不具备任何创造性,才刚刚进入工业应用的阶段。
      

    二、人工智能技术带来的项目管理难题

      如果一个项目中包含有人工智能技术的研发内容,我将其称为“算法项目”。
      

    2.1 算法项目合作需要理性与务实

      科技领域的健康的、可持续的合作模式,应该建立在对科技发展有理性清晰认识的基础上。
      作为人工智能技术的厂商和服务提供商,应该对客户坦诚,避免过度包装自己的产品,应告诉客户现阶段的人工智能技术能帮助解决什么问题,存在哪些不足,哪些可以作为合作后的研究重点,研发中存在的风险是什么样的。
      作为有人工智能技术需求的客户,在寻找人工智能技术方案时候也要保持理性的认识,以及合理的预期,哪些问题可以交给人工智能技术来解决,哪些仍需要传统技术和人工辅助,以及如何应对研究性项目的不确定和高风险。
      算法项目的合作需要甲乙双方的密切、深入、持续合作,才可以充分发挥人工智能的作用。
      

    2.2 算法系统与业务系统对接成本较高

      人工智能技术存在一定的门槛,传统系统开发工程师缺少人工智能技术的相关知识,因此在业务系统与算法系统对接的时候,或者说业务系统开发人员在调用算法的时候,总会有这样的疑问:
      为什么算法需要设置这么多的参数?为什么算法运行效率这么低?算法的输出是不是正常的?算法出错的提示信息到底在说什么???
      
      我在这几年的项目经历中遇到过无数的啼笑皆非的案例,比如总是有工程师不明白为什么一串数字(特征向量)可以代表一副图像?分类算法的输出0-1和0-100有什么区别?一幅图像经过低俗检测模型后输出的0.75到底是什么意思?
      
      这些问题直接导致了项目中的沟通成本极高,进度缓慢,甚至发生问题后相互推诿责任。然而这个问题却很难在短时间内得到解决,一方面,很难要求算法研究人员花时间精力去琢磨业务,搞科研的总是很高冷觉得业务需求什么的弱爆了;另一方面,也很难要求业务系统开发人员花时间精力去研究算法,因为这需要花费大量时间复习概率、矩阵和图的知识。我认为可以在项目团队中设立一个介于算法和业务中间层次的职位,建立起两者之间的沟通桥梁。
      
      

    2.3 算法系统的成本和预期效果难以评估

    1)为什么说算法系统的成本难以预估?

      一个数学公式值多少钱?一个算法模型值多少钱?一手调参技巧值多少钱???论文里的公式和理论晦涩难懂,训练的参数模型看不见摸不着,当你的公司试图引入一套智能算法系统,请问你该如何评估项目难度,以及如何做预算?
      
      这是一个很难评估的问题,我认为很大一部分原因在于人工智能技术市场刚刚兴起,很多市场规范和价格体系还没有形成,加上媒体的肆意鼓吹,因此仍处在混乱的状态。很多公司想浑水摸鱼趁火打劫,也有很多公司借着资本力量不惜成本的铺市场,当然也有很多想要踏实做事的人工智能技术公司。于是作为公司主管也许会在市场看到有人说50w,有人说30w,还有人数15w,更甚者说8w就可以合作!!!那么该如何评判各家的方案和报价呢?
      
      市场是在无数的浪费和骗局中成熟完善起来的,站在企业的角度,我认为对企业来说最好的办法应该是组建具有人工智能技术能力的团队(至少是相关专业具备基础知识),这样一方面可以在各种天花烂坠的智能技术方案中选出最可靠的最实用的,另一方面也能够在合作中减少与算法团队的沟通障碍,提高项目推进效率。同时,也可以逐步帮助企业构建智能化方案,进行企业转型升级。
      
      作为人工智能领域的从业人员,虽然已经参与了很多国家项目,也跟企业合作了很多项目,但我们也并没有特别规范的报价依据,缺少对科研工作和智能技术成果的价值评价标准,这也是需要深刻反思和迫切解决的问题。
         

    2)为什么说算法系统的预期效果难以评估?

      事实上人工智能技术现阶段仍然只能解决针对性的问题,针对具体的场景,具体的数据集等等,同样的模型在不同的场景下的效果可能就大相径庭。
      
      例如我们的图像低俗内容审核算法,在互联网图片数据集上训练的参数模型,具有99.9%的准确率和0.1%的误检率,那么猜猜看这个参数模型在直播视频场景下的识别效果如何呢?答案是不好,有机器学习背景的同学都知道原因,互联网图片数据和直播视频数据的分布是不同的,所以训练的模型也就无法相互适用。最后我们通过在直播视频数据上重新优化参数模型,才达到客户的指标要求。
      
      这样的问题存在于任何一个与人工智能有关的项目中,就说我们常见的人脸识别算法,face++、商汤科技、百度、腾讯等等,公布的算法性能都接近100%,但这只是在某个数据集上的结果,骗骗外行人还可以。如果放到实际业务场景下,比如国家最迫切需要的公安监控视频场景(视频质量参差不齐,画质可能严重不足),那算法的性能就直线下降,甚至惨不忍睹。上述公司的小伙伴们看到这段话不用找我argue,大家都是圈内人,国内很多公安和国安的项目竞标我们也都参与过,大家的技术水平应该是彼此心知肚明O(∩_∩)O~
      
      在封闭的数据环境下,即数据分布相对比较稳定的情况下,可以通过各种奇技淫巧将算法性能优化到一个比较高的水平,此时算法的效果是相对稳定并且可以预判。
      
      在开放的数据环境下,即数据分布不稳定,随时可能变化的情况下,就很难训练算法了。学习型算法确实更加灵活(不用显示的定义计算规则),但依然遵循着规则,而这些规则就来自于数据,不同的数据集合对应着不同的规则,因此开放环境的算法训练极具挑战,运行效果往往不稳定。

      

    2.4 算法研究员的工作难以管理

    1)科研人员每天到底在干什么?

      试想一种场景:你的算法研究人员每天看paper,跑实验,在纸上涂涂画画,搞得热火朝天却迟迟拿不出几行代码,并且永远也无法确定交付日期。作为企业管理人员可能都无法容忍这样的工作模式,但事实上这些科研工作者们的工作模式真的就是这样,而且他们真的非常努力在研究算法方案,只是圈外人很难看懂罢了。
      
      搞研究的人往往喜欢独自战斗不喜协作,并不是他们缺乏团队精神,而是思考这件事本身就很难多人协作,也很难量化考核。所以说做研究需要相对宽松的环境和时间计划,工业生产中每天产出考核的方式并不适用于研究工作。
      
      另一方面,实验室的东西到实际应用往往都有非常长的路要走,很可能兴致勃勃的研究了很久的算法方案拿到实际场景中完全不好使,甚至推到重来。这都是有可能发生的,而且不是小概率。
      

    2)企业如何实施人工智能战略

      我认为最佳模式是企业与科研院所和高校展开深度合作,企业有实实在在的问题和数据,科研院所有算法理论的积累,各自发挥自身的优势并紧密合作,才能一方面提高企业智能化程度,另一方面提高实验室的科技成果转化能力。在这方面,我们国家还有很长的路要走。
      
      

    三、结语

      人工智能技术仍处在非常初级的阶段,仍有很多问题没有解决甚至不知道怎么解决,我们应该理性认识人工智能,使其更好的为工业生产,为居民生活服务。

    下一篇:没有了