语音编程 设想

HN头条 上看到有人说用语音识别 写代码。

现在是疫情在家上班期间,感觉还是可以试试。毕竟公共办公环境搞这个不太现实,怕打扰别人用 TNT 了。也怕自己被打扰。23333

想起了 13 年前就有大神尝试用 Vista 自带的语音识别在 notepad 写 perl。。。

https://www.youtube.com/watch?v=MzJ0CytAsec

不过这篇帖子想说的不是这个 语音编程(voice assisted programming),我想说的是 可编程语音 (programmable speech)

现在市面上有很多「智障音响」比如 Alexa、小爱,手机上都可以直接说 ok boomer,但是我设想的 可编程音响 的使用场景是这样的:

  1. 离线wakup word + 离线识别。数据隐私值得付费
  2. 比如我开始计数,让音响听到3的倍数发音说 Fizz,听到5的倍数说 Buzz,听到同时为3和5的倍数说 Fizzbuzz
  3. 比如让音响听对话,当我们谈论某些话题的时候发出提醒。这就是等同于计算机编程语言里的 if 关键字
  4. 比如我可以录制一首古诗,让音响监听孩子背诵,把背错的漏的字词在下一轮复述中强调出来。
  5. 可以在家庭聚会里充当 出谜语 的角色。dungeon master 的角色。可以人工录入一些游戏规则。
  6. 实时召唤背景音乐。比如说「来段鼓点,我要闪亮登场了!」
  7. 可以存储一些全局list/map变量。比如我家老二是谁?今晚谁最后一个睡觉?
  8. 语音备忘簿和检索工具。安全的离线存储在我的 NAS 里
  9. 教小孩外语。但是这个可以由家长录制、出题,并且可以分享
  10. 如果说字节是文本编程的基本单位,语音编程的话应该是 phoneme ?现在苦于孩子学习外语没法暂停、复读。把困难的地方重音出来,放慢速度反复听。
  11. 听电视节目的片头曲、片尾曲让看完之后休息眼睛。定时休息比较死板可能看一半要求休息,现在都是点播时代,按 集 掌控作息规律更有意义。
  12. 语音 todolist 。比如提醒老人吃药。老人回答一句 吃啦 就不再反复提醒了。
  13. 家里不准说脏话 计数器。谁说了多少次。需要辨别出说话人,外加一个可以持久化的计数器。脏话可以由家长(或admin)定义增删

总之,现在「Smart speaker」 感觉还像机器码时代,一问一答很笨。需要一个更高层的「C语言」甚至对话「库」来更自然的搭配人们的生活。

很期待市面上有这样的硬件 or 开源软件出现!

Comments