前言
在思考产品的时候,我的思路基本上是这样的走向:
增长领域 -> 横向、纵向切入点 -> 对比大公司走向 -> 对比用户需求 -> 根据用户需求以及增长走向,结合现有产品基础,思考下一步产品走向
我对未来的构想:最终机器也能够和人有感情地沟通,机器会协助人完成越来越多的任务。人类在未来世界的存在,在于心智,在于创造有启发性的东西。人类的浪漫的,富有创意的,感性的。
目前无人机领域企业生态
计算机视觉技术:Movidius 提供 VPU 计算机视觉芯片以及SDK支持计算机视觉的应用(可被应用于可穿戴设备,安保设备,无人机,移动设备)
计算机视觉技术: Skydio 提供计算机视觉相关算法以及软件、硬件,利用计算机视觉去控制以及优化无人机飞行,可应用于娱乐,以及相关专业领域。由此可见Skydio与Movidius在某些维度上存在竞争点,主要是无人机领域的计算机视觉技术上,存在竞争的点。
无人机解决方案以及一体化技术: DJI以及其他无人机厂商 提供设备以及开放的接口,消费者购买飞机,并使用。消费者消费的是DJI生产的硬件,『无人机厂商以及第三方开发者开发的各类应用』,Movidius提供的底层的技术。
应用软件开发商: 部分基于无人机的软件开发商
关于Movidius和Skydio的分析
目前无人机中的计算机视觉是能够通过设备将摄像头收集的数据,通过处理器,能够快速处理并对设别作出响应。流程图如下:
Movidius(造价相对高,技术门槛高) 的流程:环境 -> 摄像头 -> 图像数据 -> 数据处理器 -> 无人机控制器 -> 传递到各个动力系统
Skydio(造价相对低) 的流程:环境 -> 摄像头+其他Sensor(没GPS) -> 图像数据+其他维度数据 -> 数据处理器 -> 无人机控制器 -> 传递到各个动力系统
可以预见的未来,计算机视觉的硬件,以及软件都会不断成熟。硬件成熟的表现在硬件的性能提升方面,软件成熟表现在算法的优化,以及可识别的敏感度提升,以及可识别物以及细节会不断增加。
应用开发层面
普通开发者能够利用不同的底层接口进行各种Feature以及娱乐功能开发,或者Feature的拼接销售软件,为用户提供服务,以Software Service -> 切入点。DJI或其他厂商提供与硬件对接的SDK支持
切入点优势:
1.对接不同的平台
2.利用不同的人机交互技术创建不同的服务支持
3.提供学习数据并利用Deep Learning反向应用到不同的计算机视觉应用中
4.能够接触到消费者
反向流程:
Software(User Interaction, Cross Several Platforms[Mobile devices and AR/VR], Data) -> Deep Learning + Reaction (Know Customers and provide services to developers or creators) -> Hardware(DJI,Segway,Xiaomi,Wearable Devices)
大公司期望
Google 希望开发者能够为AI有所贡献,VR方面创造内容
Apple 希望开发者关注健康,以及IoT(家居)
DJI 希望开发者关注专业级领域应用开发,更多开发者加入消费级的应用开发
Facebook 希望开发者能够关注VR(创建内容),以及AI,让用户能够更多地将数据接入Facebook
微软 希望开发者能够为Hololens创建更多内容
…
软件层面怎样去做
面向用户:开发者,消费者(娱乐),企业消费者(专业),硬件厂商
产品形态:Cloud,Client,SDK,Platform,Service,Cross Devices
产品流程: Users action or environments —> Hardware and sensors —> Data Collection —> Analytics , AI Process , Training—> Reaction or Interaction with human being or devices —> User’s devices or users —> Service users
目标: 是人机交互达到机器为人提供服务。无论是平台也好,软件也好,AI都会是影响最深的,以后更多地为人提供服务的。具体表现为:
1,机器与人协作;
2,沟通是感性的;
3,机器是主动服务的。
前提是人与机器能够达到『对等交流』。达成共识后,才能够让机器去做人做不到的事情,这个时候机器才能够算得上是给人提供了帮助。Experience and training help machines to know more things.
Movidius 和 Skydio有一个优势,就是在几乎既定的计算机形态中植入,而且技术上能够复用。而Movidius是针对有摄像头的设备,而Skydio是针对无人机。而如果是后面,要向人提供人机交互的反应部分,则因为机器的不同,导致了要作出的反应是不同的。不能够使用同一种方式让机器与人作出交互的响应。就好像动物一样,不同的动物有不同的特性,有些动物吃东西需要用手,有些动物需要用口,有些动物可能是通过外部环境去捕捉。针对人脸识别目前做得优秀的企业是MSQRD,能够较为精确地识别到人的脸部表情,并将一些Mockup植入到人脸当中。在影像的娱乐方面,用户能够利用无人机,移动行走的玩具车,潜水器去实现怎样的任务以及需求,并且这些需求能够持续地为人提供便利。
需求分析:人类通过动物满足自身需求
飞鸽传书
三千年前人们利用鸽子传递信件,鸽子辨认方向能力很强,嘴巴能够侦测磁体,飞行机动性很强,能够通过地球磁场强度以及三维图像及时在客户端定位并指定方向进行飞行。并且对天敌做到足够的避让。但是只对从上而下的天敌进行避让。
驯鹰捕猎
柯尔克孜族猎鹰驯化分捉鹰、熬鹰、驯鹰三步。猎鹰驯养五六年后,有放鹰的习俗,让鹰自然求偶,在自然界度过余下的数十年。驯鹰时间对鹰极其痛苦,而且时间较长。
犬
狗被用来做各种事情:看家护院、捕猎、拉雪橇、拉车、警用、军用、做宠物、帮助身障人士等。人类在大约在距今18,000年到32,000年之间开始驯养欧洲野狼。
昆虫
昆虫相对低级,难以和人类产生对等交流的信息,因此人类无法利用昆虫强大的飞行能力。再加上昆虫本身的条件反射足够简单,而且对自然的反应较快,所以无法处理复杂的应用。就犹如可行动的简单的Sensor,而且难以和人类产生通讯。所以人类对昆虫的利用一般都是间接性利用,并通过相关复杂的串联反应,解决人类的问题。
旧工业时代的产品就犹如无脊椎动物一样,器官以及身体结构分离不清晰,但一样具有神经元反射,能够针对特定的事物作出反应,但是不具备相对复杂的条件反射,以及本身能够提供的功能相对单一。在运动的时候不受指令控制,会盲目地根据自己的设定,作出反应。而新的数字时代的产品,就犹如脊椎动物一样,身体各个结构相对清晰,并且具备了学习的能力,并且能够根据学习到的技能,作出相对复杂的反应以及分析。接受指令的控制,并且能够和其他东西进行通讯。但是机器相比动物进化,厉害的地方在于脊椎动物一般没有变态的进化过程,例如牛,人,不能进化到飞行状态,但是机器几乎具备变态的进化能力,能够根据不同的环境去调整自己的装备,最终进化并适合不同场景的工作状态,并且学习不同的技能,作出复杂的反应。
而人类在历史当中利用脊椎动物,解决的都是满足相对高级的需求,如通讯,捕猎进食,交通出行,弥补身体缺陷,代替人去做事情,或者提升人体部分的能力。如果未来的机器在发展的过程中发生了变态的进化,即『鸽子具有苍蝇的悬停能力,并能够像鹰一样具备强大的高空滑翔能力,并具备更高级的学习能努力,对人作出反应』,这些能力最终很有可能会附加在人上面,让人去做一些更具创造性的东西。
而在这个过程中,许多围绕人的产品都会出现,但最终可能这些产品都会在人身上。
根据需求作出定位分析
如果将DJI市场定位在无人机的话,无人机的市场就会变得相对狭窄了。所以DJI也没有将自己定位在无人机市场上,而是将自己定位在摄影器材领域,计算机视觉学习,机器人开发等不同的领域。因为这样的话能够让自己的应用领域更广。
所以对于软件开发商来说千万不能够将技术定位在无人机上面,因为无人机深挖的话只有专业级的需求,而是应该定位在不同技术节点的延伸上面,如:摄像头,传感器,定位系统等。
位于Robots上的摄像头与用户关系分析
核心特点:为自拍者提供了第三者视觉
以无人机为例:
1.实时空中FPV:比赛,体验飞行
2.摄影:创意,全景,高空
3.录像:创意,高空,多角度电影,运动记录
4.测绘:建模合成,距离,数据采集
Movidius 以及 Skydio 都在提升计算机视觉相关设备本身的学习能力,分析能力,用以提升整个机器人的运作能力。机器人如果要主动为人提供服务,而机器人对于被服务的人来说,最强的就是既提供了服务,同时也为被服务的人提供了第三者视觉。根据第三者视觉,可以为被服务的人提供怎样的信息参考价值?人在什么时候需要第三者视觉?需要自知,则需要第三者视觉,而第三者不一定是一个人。
所谓 Third-person View的概念最早是出现在游戏中。action games , action adventure games 都存在 Virtual Camera System的需求,在游戏当中,因为这样能够强化:我虚拟的游戏中,我在监控(控制)游戏人物,游戏的人物角色是我的替身。需要需要一个虚拟的Camera系统。(虚拟->现实)
(Image from Wiki)
而我们反观在现实当中,我在现实的游戏中,机器人在监控(控制)我,我是机器人眼里的替身?(现实->虚拟)这样我能够对自己有更全面更清晰的认知,在现实生活中表现得更好。如镜子,前置摄像头,让用户能够在手机上自拍,实际上就是快速地为用户提供了第三者视觉,让用户更加了解自己,在社群生活中表现得更好。具体需求表现在:
人需要被拍照的时候
人需要运动(动作)训练的时候
人需要远行走山路的时候
人的视力有限的时候
人需要作战的时候
潜在的技术需求,如:路线,人脸识别,动作,构图,综合分析 … 针对这些东西做开发,数据在云端,并研究如何协助人的各种行为,改变运动模式。要做的是 Reality Camera System ,让 Automative Camera 为『我』提供第三人称视觉,指导我下一步决策。因为Automative Camera 提供的是一个三维的,全面感知的第三方视觉。