首页 > 加密人物 > 正文

a16z专访Hedra创始人Michael Lingelbach:生成式视频如何从迷因爆发成下一个风口?

链捕手ChainCatcher2025-08-20

内容提要:Hedra公司开发了以角色为中心的生成式AI视频技术,能通过对话驱动快速创建虚拟网红和互动内容,显著降低创作门槛。该技术从消费级迷因应用到企业级解决方案(如自动新闻主播)均有覆盖,通过整合对话、动作与渲染提供沉浸式体验,展现了AI在视频内容创作领域的革新潜力。

Hedra 创办人 Michael Lingelbach 探讨生成式 AI 如何从病毒式迷因跨越到企业级应用,展现其在虚拟网红和互动式内容创作上的革新潜力。本文源自 Michael Lingelbach与Justine Moore,Matt Bornstein,a16z访谈,原文标题「Why AI Characters & Virtual Influencers Are the Next Frontier in Video ft Hedra’s Michael Lingelbach,由Janna,ChainCatcher整理、编译及撰稿。
(前情提要: 多模态视讯生成技术突破,Web3 AI 有何机会?)

 

Michael Lingelbach 是 Hedra 的创办人兼执行长,他曾是史丹佛大学电脑科学博士生,也曾是一名舞台演员,结合技术与表演热情,带领 Hedra 开发出业界领先的生成式影音模型。Hedra 是一家专注于全身体现、对话驱动影片生成的公司,其技术支援从虚拟网红到教育内容的广泛应用,显著降低了内容创作门槛。本文编译自 a16z Podcast,聚焦 AI 技术如何从病毒式迷因内容跨越到企业级应用,展现生成式影音技术的革新潜力。

以下为对话内容,由 ChainCatcher 编译整理(有删减)。

TL&DR

  • 人工智慧正无缝衔接消费与企业场景,例如此技术生成婴儿广告推广企业软体,凸显企业拥抱新技术的热忱。
  • 病毒式迷因内容成为新创企业利器,如「婴儿 Podcast」迅速提升品牌知名度,展现市场策略的巧妙。
  • 全身表情与对话驱动的影片生成技术填补创作空白,极大降低内容制作的时间与成本。
  • 虚拟网红如 John Lawa 透过「摩西 Podcast」塑造独特数位角色,赋予内容鲜明个性与吸引力。
  • 内容创作者如「妈妈部落客」借助技术快速产出影片,轻松维持品牌活跃度与观众连结。
  • 即时互动影片模型开启与虚拟角色的双向对话,为教育和娱乐带来沉浸式体验。
  • 以角色为核心的影片生成技术注重个性表达与多主体控制,满足动态内容创作需求。
  • 整合对话、动作与渲染的平台策略,打造流畅的生成式媒体体验,迎合高品质内容需求。
  • 互动式头像模型支援动态调整影片情感与元素,预示内容创作的下一波革新。

(一)从迷因到企业应用的 AI 融合

Justine:我们看到 AI 在消费场景与企业场景之间的交叉应用非常有趣。几天前,我在《富比士》上看到一则由 Hedra 生成的广告文本,内容竟然是一个会说话的婴儿在推广企业软体。但这也说明我们正处在一个新时代,企业正在快速拥抱 AI 技术,展现出极大的热情。

Michael:作为新创公司,我们的职责是从消费者用户的使用信号中汲取灵感,将其转化为企业用户可以依赖的下一代内容生产工具。过去几个月,Hedra 生成的一些病毒式内容引发了广泛关注,从早期的动漫风格角色到「婴儿 Podcast」,再到本周的热门趋势——我其实也不确定是什么。迷因是一种非常有效的市场策略,透过触达大量受众迅速占领使用者心智。这种策略在新创公司中越来越普遍。例如,a16z 投资的另一家公司 Cluey 就透过 Twitter 的病毒式传播获得了显著的品牌认知度。迷因的本质是技术赋予人们快速发挥创意的载体,短影音内容已主导文化意识。Hedra 的生成式影片技术让用户能在几秒钟内将任何创意转化为内容。

(二)创作者与网红为何选择 Hedra

Justine:请解释一下为什么人们用 Hedra 制作迷因,以及他们如何使用它,这与你目标市场的联系是什么?

Michael:Hedra 是首家大规模部署全身表达式、对话驱动的生成影片模型的公司。我们支援用户创作了数以百万计的内容,之所以能迅速流行,是因为我们填补了内容创作技术堆叠中的关键空白。此前,制作生成式 Podcast、动画角色对话场景或歌唱影片非常困难,要嘛成本高昂,要嘛缺乏灵活性,要嘛耗时过长。我们的模型快速且成本低廉,因此催生了虚拟网红的崛起。

Justine:近期,CNBC 发表了一篇关于 Hedra 驱动的虚拟网红的文章。能否举几个具体例子,说明网红如何使用 Hedra?

Michael:比如,著名演员 John Lawa(《The League》中 Taco 的扮演者)利用 Hedra 创作了从「摩西 Podcast」到「婴儿 Podcast」的系列内容,这些角色如今拥有独特的身分。另一个例子是 Neural Viz,他们基于 Hedra 打造了一个以角色身分为核心的「元宇宙」。生成式表演与单纯的媒体模型不同,它需要在模型中注入个性、一致性和控制力,这对影片表现尤为重要。因此,我们看到这些虚拟角色的独特个性开始流行,尽管它们并非真实人物。

(三)虚拟网红与数位化身

Matt:我在 Instagram Reels 上看到很多 Hedra 影片,既有像 Neural Viz 系列中的外星人这样全新创作的角色——过去只有好莱坞大制作才能实现,也有真实人物利用这些工具扩展自己的数位存在。许多网红或内容创作者不想每次都精心打扮、调整灯光或化妆。Hedra 让像「妈妈部落客」这样的人群能快速生成影片传达讯息,而无需花费大量时间准备。例如,他们可以直接用 Hedra 生成与相机对谈的内容。

Michael:这是一个很重要的观察。维护个人品牌对内容创作者来说至关重要,但保持全天候在线非常困难。如果创作者暂停更新一周,可能会流失粉丝。Hedra 的自动化技术极大降低了创作门槛。用户结合像 Deep Research 这样的工具生成脚本,再透过 Hedra 生成影音内容,并自动发布到他们的频道。我们看到越来越多围绕自主数位身分的工作流,不仅服务于真实人物,也包括完全虚构的角色。

(四)互动式影片的潜力与挑战

Justine:现在很多历史影片在 Reels 上流行。过去,我们透过阅读历史书获取知识,但这有些枯燥。如果能透过角色讲述历史并展示生成式影片场景,体验会更加引人入胜。

Michael:虽然我们不直接针对教育领域,但许多教育公司基于我们的 API 开发应用。影片互动的参与度远高于文字。我们近期推出了即时互动影片模型,这是首款实现低延迟影音体验的产品。从语言学习到个人提升应用,当技术成本足够低时,将彻底改变用户与大型语言模型 (LLM) 的互动方式。我个人最喜欢的专案是「与你最爱的书或电影角色聊天」。比如,你可以问:「为什么明知有凶手你还走进那个黑暗房间?」这种互动式体验比传统有声书更丰富,因为用户可以提出问题、回溯内容,体验更加生动。

Justine:影片模型的搜索空间非常大。单帧图像生成已经很复杂,但生成 120 帧的连续影片更具挑战性。Hedra 聚焦于一个独特且有意义的问题,与其他影片模型有所不同。请描述一下这个问题的定义以及你的灵感来源。

Michael:这是一个很好的问题。我们看到基础模型层出现了专业化分工,就像 Claude 成为程式设计模型的标竿,Open AI 提供通用助理,Gemini 因成本效益和速度服务于企业场景。Hedra 在影片模型领域也有类似定位。我们的基础模型性能很高,尤其是下一代模型,提供了内容创作的极大灵活性。但我们更关注如何让内容「活起来」,让用户愿意与之互动,感受到一致的个性和吸引力。核心在于如何将影片中角色的智慧与渲染体验结合。我的愿景是用户能与影片中的角色双向沟通,角色拥有可编程的独特个性。这需要垂直整合,不仅优化核心模型,还要重新思考用户互动的未来体验。

(五)「以角色为中心」的影片模型与主体控制

Michael:我来自戏剧背景,虽然不是专业演员,但对角色表演充满热情。影片是我们日常互动的核心,无论是广告、线上课程还是 Hedra 驱动的无脸频道,连结感至关重要。我们透过降低创作门槛、加快速度,让普通用户也能轻松生成内容。未来,模型的智慧与渲染界限将逐渐模糊,用户将与理解其意图的系统对话。我们将角色视为控制的核心单元,而不仅仅是影片。这需要收集用户回馈,优化角色真实感和表现力,同时提供针对多主体的控制杠杆。

Matt:我花了很多时间为不同影片创建角色,Hedra 的强大之处在于整合的角色创作工具。你可以创建或上传角色形象,保存以供后续使用,甚至转换语境或克隆声音。我的 YouTube 影片和教学的许多开场白都使用了 Hedra 克隆的我的声音。这种一体化体验在碎片化的生成式媒体市场中尤为珍贵。

(六)打造一体化生成式媒体平台

Justine:许多公司如 Black Forest Labs 在技术上取得突破,但仍需像 Hedra 这样的伙伴将体验传递给消费者和企业用户。你如何决定打造一个一体化平台,而不局限于某一技术?

Michael:这关乎专注与用户需求。我创立 Hedra 时,发现将对话融入媒体非常困难。过去,用户制作短影音需要叠加对嘴,缺乏整体感。我们的技术灵感是将呼吸、手势等信号与对话统一,打造更自然的影片模型。从市场角度看,我们观察到用户对不同应用的付费意愿差异。一些热门应用可能付费意愿低,但某些细分领域(如内容创作者)对高品质体验有强烈需求。我们选择整合最佳技术,无论是 Hedra 的还是伙伴如 11 Labs 的,确保用户获得最佳体验。

Matt:未来,AI 角色会由单一模型生成文本、脚本、语音和视觉吗?

Michael:我认为行业正迈向多模态输入输出范式。单一模型的挑战在于控制力。用户需要精确调整语音、音调或节奏等细节。解耦输入能提供更多控制,但未来可能趋向全模态模型,用户可透过引导信号调整各模态的贴合度。

(七)互动式影片的未来

Justine:Hedra 的长影片生成能力让我印象深刻。你可以上传几分钟音讯,生成角色对话影片,分别调整形象和声音,避免一次性生成浪费资源。这种控制力让我对互动式影片的未来充满期待。

Michael:我们刚推出的互动式头像模型让我兴奋。未来,用户能像在流体画布上一样塑造影片元素,例如暂停影片并要求角色在某段话中更悲伤。这种双向沟通将带来下一代体验,很快就会实现。

Matt:真正的 AI 演员可能吗?用户即时与创建的角色互动,并给予指令。

Michael:绝对可能。但目前限制不在影片模型,而在大型语言模型的个性真实感上。现有的 AI 伴侣(如 Character AI)仍带有明显的模型痕迹。要实现真正互动式数位角色,还需在可配置个性上投入更多研究。

(八)Hedra 的音讯生成与 AI 原生应用

Justine:Hedra 的影片令人惊叹,但音讯有时稍逊。11 Labs 的最新模型提升了音讯品质,但内容吸引力仍需改进。

Michael:音讯生成是一个未充分探索的领域。当前生成式语音多用于旁白或配音,但像在嘈杂咖啡馆中生成自然对话的场景仍具挑战性。我们需要能控制环境音、多轮对话的音讯模型,以提升影片创作的自然度。影片 AI 仍处于早期阶段。就像早期 CGI 特效看似逼真,如今看来却像卡通。我们的第一代模型曾让我惊叹,但现在看来已显粗糙。实现超可控、成本效益高、即时性能强的模型仍需努力。

Matt:用户会更喜欢与真实人类、拟真人类还是卡通角色互动?

Michael:我们生成了很多毛茸茸的小球和猫咪角色。Hedra 的统一模型能处理各种角色,无论是石头还是机器人,让用户自由实验,创造前所未有的内容。我们打造统一模型,而非传统影片加对嘴,是为了避免用户受限于技术。用户可以尝试「会说话的石头」或「机器人与人的 Podcast」,模型能自动处理对话和个性。这种灵活性激发了革命性的消费场景。

Justine:AI 的交叉应用令人兴奋。消费者创造像「婴儿 Podcast」这样的内容,启发企业应用。我在《富比士》看到 Hedra 生成的婴儿广告推广企业软体,令人惊讶。这说明企业正快速拥抱 AI,我们需要将消费者信号转化为企业级解决方案。

Michael:企业是我们增长最快的领域。生成式 AI 让内容创作从数周缩短到即时。例如,自动新闻主播正改变资讯传播方式。过去,地方新闻因成本高昂而消失,但现在一人即可营运新闻频道。这种「中等规模个人化」满足了特定人群的需求,如地方美食或主题公园的精准广告,比过度个人化的 Google 模型更有效。

(九)创办人之路:挑战、热情与协同创新

Justine:作为创办人,你的经历如何?有哪些挑战和收获?

Michael:在旧金山,创办人生活常被美化,像是构建划时代技术的浪漫旅程。我来自佛罗里达小镇,从未想过会走这条路。但做创办人 99% 的时间都很艰难。你必须不断推动,问题从不减少——从潜心开发到面对海量客户支援邮件。身体上很疲惫,但内在满足感无与伦比。我爱我的用户和团队,无法想像做其他事。这是一种「第二类乐趣」——像攀登雪山,手脚受伤,但到达山顶后仍想再来。我每天早 7:30 进办公室,晚 10 点离开,有时凌晨 2 点还在讨论功能。这需要放弃工作与生活的界限,但热爱让我坚持。

Matt:你为何仍亲自写程式?是表达创意还是与团队沟通?

Michael:两者都有。原型帮助我快速验证想法并明确传达预期。作为领导者,清晰沟通至关重要。我会与设计师讨论边界情况,确保系统可扩展。写程式让我保持与团队的连结,了解他们的挑战,同时快速探索产品方向。

相关话题
相关资讯
您可能喜欢的标签
猜你喜欢

2JMTT.com Copyright ©加密头条 All Rights Reserved

加密头条,探索加密世界无限可能