ZD至顶网CIO与应用频道 07月14日 专栏:当你需要记笔记、但又腾不出手的时候,你会怎么办?如果你正在搜索Google Play商店,你会发现有大量工具可供选择。其中主要分为音频录音器,以及语音转换为文本的应用。这两种选择都是可行的解决方案,所以我决定特别介绍其中几款。不管你正在寻找哪一款,一定会有一个能够满足你的需求。
1、Google Now/Keep
我会首先介绍排名第一的。如果你正在使用安卓,很可能你就在用Google Now以及它的免提语音交互系统。但是你可能不知道Note To Self选项。只要你说出你的Google Now激活语(我的是“Okay Google Now”),然后是“Note to self”。如果你正确配置它的话,就可以记录笔记并将其自动保存到Google Keep(如图A)。
图A
一旦笔记保存到你的Google Keep帐户,就可以在连接到你Google帐户的所有设备上访问你的笔记。就我的经验来说,这是记录语音笔记到安卓的最好方法之一。当然,我恰好一直在用Google Keep,所以对我来说易如反掌。
2、Smart Voice Recorder
如果你正在寻找一款出色的语音记录应用,那么你不能错过Smart Voice Recorder(如图B)。它提供了静音检测、采样率设置(一路攀升至CD音质)、日期/时间文件命名、实时音频频谱分析、麦克风增益校准、自定义文件保存位置、音频共享(通过安卓内置的共享系统)、暂停录音、2GB文件大小限制,等等。
图B
跳过静音功能这一项,就可以让Smart Voice Recorder值得一用。如果你经常在录音的时候暂停,你就会发现跳过静音绝对是有必要的。
免费版本的Smart Voice Recorder是带有广告的,你可以在应用内购买(1.49美元),不带广告。
3、Note to Self 2.0
Note to Self的开发者已经发布了升级版的语音转换为文本的工具——Note to Self 2.0,增强了界面。该应用很简单,但是可以出色地将你的语音转换为文本笔记,然后你可以共享(使用内置的安卓共享机制)、删除或者编辑笔记。
图C
你会发现该应用的任何设置和接口都是最小的。如果你点击一个笔记,然后点击编辑按钮,你就可以编辑保存的笔记(当你可能漏掉了一些信息,或者只是需要增加更多的信息)。
4、Voice Recorder
Voice Recorder(如图D)的一项功很可能会让它成为那些倾向于以音频形式记笔记的用户必备工具。当你开始记录笔记的时候,Voice Recorder可以在后台进行录制。你会看到通知下拉栏中出现一个条目,然后你可以点击返回应用,暂停或者停止录音。这意味着你可以在使用其他应用的时候记录备忘。当你录音的时候想要搜索一些信息,Voice Recorder是可以让你这么做的。
图D
你可以保存为MP3或者OGG格式,较低或者较高质量的采样率(较低的是8kHz,较高的是44kHz)。Voice Recorder还让你可以定制保存文件的位置,这意味着你可以将文件保存在SD卡或者保存在内部存储上。
5、ListNote
如果你正在寻找一款可以很好地提供标准文本笔记和语音转文本笔记的应用,ListNote Speech-to-Text Notes(如图E)可能正是你需要的。它有易于使用的界面,你可以点击Text或者Speech Recognition,或者手动输入一个笔记,或者使用语音转文本功能。
图E
ListNote还让你可以创建类别,这样你就可以更好地保存笔记。要录制语音转文本的笔记,你可以点击类别按钮,选择分类,点击语音识别按钮,立即开始讲话。一旦你完成了笔记的录制,点击完成,然后保存笔记。然后你可以手动编辑笔记或者删除笔记。
http://www.techrepublic.com/blog/five-apps/five-free-android-apps-for-recording-voice-notes/
好文章,需要你的鼓励
这项研究提出了ORV(占用中心机器人视频生成)框架,利用4D语义占用作为中间表示来生成高质量的机器人操作视频。与传统方法相比,ORV能提供更精确的语义和几何指导,实现更高的时间一致性和控制精度。该框架还支持多视角视频生成(ORV-MV)和模拟到真实的转换(ORV-S2R),有效弥合了虚拟与现实之间的差距。实验结果表明,ORV在多个数据集上的表现始终优于现有方法,为机器人学习和模拟提供了强大工具。
这项研究由Writer公司团队开发的"反思、重试、奖励"机制,通过强化学习教导大型语言模型生成更有效的自我反思内容。当模型回答错误时,它会生成反思并二次尝试,若成功则奖励反思过程。实验表明,该方法在函数调用和数学方程解题上带来显著提升,最高分别改善18.1%和34.7%。令人惊讶的是,经训练的小模型甚至超越了同家族10倍大的模型,且几乎不存在灾难性遗忘问题。这种自我改进技术为资源受限环境下的AI应用开辟了新方向。
FuseLIP是一项突破性研究,提出了通过早期融合离散标记实现多模态嵌入的新方法。与传统CLIP模型使用独立编码器不同,FuseLIP采用单一编码器同时处理图像和文本标记,实现了更自然的模态交互。研究证明,这种早期融合方法在多种多模态任务上表现优异,特别是在需要理解图像结构而非仅语义内容的任务上。研究还开发了创新的数据集和评估任务,为多模态嵌入研究提供了宝贵资源。
ByteDance与浙江大学合作开发的MERIT是首个专为多语言多条件语义检索设计的基准数据集,包含320,000条跨5种语言的查询和135,000个产品。研究发现现有模型在处理多条件查询时过度关注全局语义而忽略特定条件元素,为此提出CORAL框架,通过嵌入重建和对比学习相结合的方式,使检索性能提升45.9%。这项研究不仅识别了现有方法的关键局限性,还为多条件交错语义检索领域的未来研究奠定了基础。