欢迎光临散文网 会员登陆 & 注册

题目:面向未来分布式去中心AR眼镜操作系统

2021-12-22 21:26 作者:帅气多汁の程序猿  | 我要投稿

参加个开发者白嫖广播导的活动,白嫖不到就自己买个mad gaze 玩玩..... 上票!

创意背景: 1. 现阶段面向C端或者B端的AR眼镜所提供的的操作系统往往能力很受限, 算力受限 以及 开发者受限于硬件难以提供更高性能的服务

               2. 缺生态, 再烂的硬件 只要有生态的支持与优化 体验就没有问题.  苹果就是最好的证明

               3. 始于钢铁侠,忠于祖国. 我们都知道大部分开源的操作系统都留有后门,即使是苹果也有自己的后门. 前几年伊核问题 导致电场受到蠕虫攻击而无从还手的境地,就是缺乏自己的生态环境. 钢铁侠把科技树点满的样子确实很帅,但是更值得深思的问题是  未来10-20年内 我们的生产力工具AR眼镜操作系统是不是后门还在别人手里?

               4.其实这个up不提也会有其他人提,开源做一些事情的意义不止于此 其实更重要的是拿到标准制定权   白嫖创意的想法格局太小了...只要项目好 哪个公司都会用你的代码...就像log4j 一样 把up的团伙当做未来的阿帕奇基金会就可以了


研发思路:

1.内核逻辑:这个实在太抽象,并不能很好的找一个名词去解释. 展开说一下

                 1.1 鸿蒙系统的底层逻辑其实非常强,没记错的话是微内核 分布式计算, 这种架构有什么优缺点,首先高可用 一个节点的设备挂了 还有其他节点的设备可以提供计算 其次 是万物智联 所有终端设备都会被一个系统链接在一起.但是缺点也显而易见 当高算力需求的场景下,只能通过云端计算完成服务,并且隐私不能保证

                 1.2 去中心化  :  这个词用来解决什么问题呢?首先是隐私 其次是计算. 未来AR眼镜提供的服务必定是根据用户个性化定制的,那么如果系统非常智能,那用户必定担心自己的隐私. 而去中心化正好能解决这个问题. 类似hdfs文件存储系统或者是美剧硅谷中魔笛手的文件存储系统,所有文件被切块加密存储在云端.只有用户自己能访问,其他人不可能访问到 这种秘钥机制类似以太坊的规则. 其次是计算,即使未来硬件软件技术都很先进,可预见的说 体验良好的服务很难部署在本地, 那么云端首先与网速等场景的限制, 去中心化正好解决了这个问题 令闲置设备提供算力,而他人又没权限获得你的隐私. 类似苹果哪个钥匙扣 只要有苹果设备经过附近 就会发送给你.

               1.3分布式,除了在外消耗算力的场景, 还需要考虑用户终端更换的良好体验,这里分布式的优势就提现出来了.类似两个鸿蒙手机 玩同一局游戏. 那么设备间无缝转换也显得尤为重要. 比如 托尼刚脱下MK8战甲穿上MK52 这个时候mk58的管家还啥也不会.... 你说他难受不难受吧

2.交互逻辑    

2.1 触控

真正的触控基本不好实现,但是通过手势识别完成系统的输入其实是人类的本能. 这种场景很多,技术实现也不难觉得不必多说.只需要说清一点,现阶段手势输入 缺乏深度信息 需要slam技术定位手的深度坐标才行.横纵坐标体验很差拉. 当然也有用算法解决问题的.两个摄像头 计算相似三角形定位手所在空间,但是这个需要设备上的统一,作系统的,要从系统层面解决问题  可以但是没必要

2.2 语音

语音这里要好好说一说. 先说一下前辈TNT 老罗的产品,其实设计的理念很好,面向未来的生产力终端,但是生不逢时.   人除了用手感知世界外,更多的是通过声音交流. 那么声音作为操作系统的输入其实必不可少,眼镜的限制 没有键鼠怎么操作? 对吧. 语音操作拆开来说就是一个多轮对话系统,但是自己其实并不喜欢这么叫,因为就算小爱同学很强,其实功能也很low了. 语音助手目前提供给用户的大部分功能都不能个性化. 不能个性化的语音助手有啥用. 解决方案是这样的,首先肯定需要声学模型提取特征, 拿到输入后的空间 留给开发者使用. 毕竟你不知道开发者使用的框架是端到端的还是流水线化的. 这样既开放了权限 也保护了用户隐私. 因为特征提取出来 基本算加密了一遍.  其次 可以开发基础功能,例如端到端的transformers 实时翻译,意图识别槽位填充的 任务型机器人.  

2.3 多模态

如果语音和视觉的输入有了,其实真正的魅力才来到. 说一个场景,上班的时候想知道自己的宠物在干嘛, 为什么还要自己打开视频看, 问一下语音助手,让他告诉你你的狗在睡觉不就行了. 当然了 多模态这个扯得有点远. 我觉得可以升级成超前点映模式

2.4 slam

slam空间感知就要好好说说了. 这个能力其实吊炸天. 如果你的设备拥有空间感知的能力并且拥有良好的交互体验的情况下. 你其实和超人没差了. 就说一个场景  如果你的车漏气了却没有千斤顶.你就需要找几块砖把车梁撑起来对吧. 那么找几块多大多宽的砖呢  slam扫描一遍附近的物体,匹配几个最合适的在画面上试验一下就知道了  当然还有更多的场景 比如建筑设计,医疗教育等等 不多说


3.场景描述

假设以上系统都完成的情况下, 我们来看一看这套操作系统能提供什么体验. 场景一:

女朋友坐火车来找你玩,火车站人太多了 找不到怎么办. 跟ai说一句找一下我女朋友在哪里.  然后ai开始意图识别 槽位填充 找到你女朋友的照片,把脸抠出来, 在茫茫人海中启用yolo或者ssd算法进行目标检测  最终3秒的时间你就找到了你女朋友所在的位置 然后alt+f4一件查看战斗力 发现女朋友在掉血 马上买个卫生巾送给他止血

场景二: 你要去4s店买车,店里面琳琅满目,你不知道要买啥. 这个时候 你的ai助手来了, 使用yolo算法进行目标检测 或者是语义分割 提取出你视野内所有的车辆 并在多个平台查询新车 二手车 中高地配置 以及驾驶体验等等评价信息 这个时候销售走过来已经没必要被她忽悠了. 这个时候你的ai听出你对她语气暧昧 就帮你记下了她工牌上的名字和电话 并且基于她的数据确认了一下她没对象....


最终目标:

上面的目标扯得有点远啊, 内核开发个人也就是听说过, 本人有hadoop大数据开发经验以及nlp cv的开发经验. java c艹 python scala 前端那些都略懂一二不算精通吧  所以早就有想法了.  原始版本实现思路: 基于安卓无障碍模式进行服务的开发, 机器视觉与自然语言的计算通过手机传输云端计算. 这样即实现了轻便简介,也拥有了良好的操作体验. 硬件估计:yolo 448x448 这个单目单色的设备绰绰有余了. 应该要加两个深度相机或者小功率激光雷达. 其实自己打算买个mad gaze 玩了,只是他们开源的apk还是有局限.   个人对pcb电路不是很懂,只做过8088电路板的设计印刷编程  并不是很懂嵌入式.  之前加的ar眼镜群里有大佬自己的买灵犀的镜片玩...馋的很. 但是其实很明显的问题是pcb太大  佩戴体验不好, 所以个人思路大概是眼镜这就做个简单数据终端, 所有计算传输都给手机和云端  .能蓝牙就别有线 越轻便越好. 嗯基本就这样, 上票上票    


题目:面向未来分布式去中心AR眼镜操作系统的评论 (共 条)

分享到微博请遵守国家法律