AI Weekly 021

🆕 更新了什么？

博客更新：如何用 ComfyUI 生成粘土质感？ (opens in a new tab)

下载链接：Comflowyspace (opens in a new tab)

🤩 每周 AI 精选

🪐值得尝试的 Workflow

her (opens in a new tab)

这个工作流的灵感来源于电影海报《Her》，通过这个工作流，你可以轻松地将自己的想法和情感融入到电影海报中，创造出一个既具有个人特色又符合电影主题的独特作品。

SKETCH TO REALFACE (opens in a new tab)

这个工作流只需要你上传一张简单的素描作品，无论是手绘的草图还是数字绘图，它便可以帮你生成一个真人质感的照片，且五官的精致度和与原图长相的还原度很高。此外，它还会对人物的肤色、光影效果进行精细调整，以增强照片的逼真度。

你可以订阅我们的 newsletter (opens in a new tab) 以及公众号，或者加入 Discord (opens in a new tab)，以获取最新的教程。

🏗️值得尝试的插件

ComfyUI-Anyline (opens in a new tab)

Anyline 是一个 ControlNet 预处理模型，可以从大多数图像中准确提取对象边缘、图像细节和文本内容。用户可以输入任何类型的图像，快速获得边缘清晰、细节保留充分、文本保真度高的线条图，然后作为稳定扩散条件生成的输入。

ComfyUI-Frame-Interpolation (opens in a new tab)

这是一个视频帧插值工具集，用于在视频帧之间生成中间帧，从而提升视频的流畅度和质量。它提供了多种高效的帧插值算法实现，支持内存优化和调度乘数配置，以适应不同的视频处理需求。该工具集的优势在于其灵活性和易用性，允许用户通过自定义节点快速实现视频帧的插值效果，同时支持非CUDA设备，扩大了其适用性。

📄 值得关注的论文 & 技术

Chameleon (opens in a new tab)

Chameleon 是由 Meta 的 FAIR 团队开发的基于早期融合令牌的混合模式模型。它能够理解和生成任意序列的图像和文本，包括视觉问答、图像字幕、文本生成、图像生成和长格式混合模态生成，并在处理过程中无缝地在不同的数据类型之间切换。例如它可以在生成一段文字后，生成一张相关的图片，或者在描述一张图片的同时生成相关的文字。

Slicedit (opens in a new tab)

Slicedit 是一个文字视频编辑工具，允许用户通过简单的文字输入来精确编辑视频内容。它采用先进的 T2I 扩散模型，不仅保留了原始视频的结构和流畅运动，还能根据目标文本增强视频的连贯性。而 Stable Video Diffusion 则专注于创造全新的视频内容，适用于内容创作、娱乐和研究领域。与此不同，Slicedit 致力于提供专业的视频编辑服务，通过精准的"切片"技术，满足用户对现有视频内容的编辑和修改需求。

Semantic Gaussians (opens in a new tab)

Semantic Gaussians 是一项3D场景理解技术，它能够将多视图图像转换成3D空间中的语义高斯点。这项技术能够实现动态物体跟踪、复杂物体的多部分分割，并通过自然语言指令进行直观的图像编辑。例如，它可以识别并分割吉他的不同部分，或根据用户的语言指令如“删除玻璃瓶”来编辑场景。

TextureDreamer (opens in a new tab)

TextureDreamer 是一个由 Moonshot AI 开发的 AI 模型，专门用于生成和处理纹理，它能够仅用3到5张输入图像就将纹理转移到任意3D模型上。其生成的逼真纹理，可以用于3D渲染、游戏开发、电影制作以及其他需要高质量纹理的领域。

TRANSAGENTS (opens in a new tab)

TRANSAGENTS 是一个基于大型语言模型（LLMs）的多代理翻译系统，专门为文学文本的翻译而设计。它通过模拟传统翻译流程，由多个具有不同角色的代理合作，包括高级编辑、翻译等，智能体协同工作，以克服文学文本翻译的复杂性，从而提升翻译质量。

🛠️ 值得尝试的产品

PictoGraphic (opens in a new tab)

PictoGraphic 是一个插图库，它提供了超过40000张图像和 SVG 文件，涵盖多种风格和概念，以满足设计师的不同需求。你在这里可以找到自己想要的免费插图，也可以在几秒钟内通过文本提示生成自定义插图。

Apriora (opens in a new tab)

Apriora 是一个智能招聘助手，它通过自动化面试安排和实时视频面试功能，大幅提升了招聘效率。Apriora 进行的实时视频面试是对话互动式的，它能够覆盖技术筛选、电话筛选、编程等多种形式。面试结束后，系统会提供定制化报告，协助招聘团队根据企业需求做出明智的招聘决策。

Audio Native (opens in a new tab)

Audio Native 是一个集成在网页中的音频播放工具，它具备自动语音合成功能，通过与 ElevenLabs 的文本到语音技术合作，能够将网页上的文字内容转换为语音输出。用户只需在网页中插入一小段HTML代码，即可将Audio Native播放器嵌入到网页上，实现内容的语音播放。

你可以订阅我们的 newsletter 以及公众号，或者加入 Discord，以获取最新的教程。