
获得徽章 16
- Claude 4 是 Anthropic 推出的下一代 AI 模型,包括 Claude Opus 4 和 Claude Sonnet 4,以下是其主要特点总结:
1. 高级编程能力:Claude Opus 4 是当前最强的编程模型,在 SWE-bench 等基准测试中表现卓越,能长时间处理复杂编码任务,导航错误率从 20 % 降至近 0。支持 20 多种编程语言的代码生成与调试,适合复杂代码库管理。
2. 混合推理模式:提供即时响应和扩展思考两种模式,扩展思考模式支持深入推理并结合工具使用(如网络搜索),提升复杂任务的响应质量。
3. 增强的多模态能力:支持文本、图像处理,并可能扩展到视频内容分析和图像生成,适合媒体、教育和安全等领域的应用。
4. 扩展的上下文窗口:保持 200 K token 的上下文窗口(约 350 页文本),适合处理长文档和复杂对话,上下文保留能力优于前代。
5. 高级推理与问题解决:在研究生级推理(GPQA)、数学和逻辑任务中表现突出,推理能力较 Claude 3.5 提升 40 %,数学错误率降低 60 %。
6. 伦理与安全:延续 Anthropic 的宪法 AI 方法,强化安全措施和偏见缓解,确保 AI 行为负责任,符合 GDPR 等全球法规。
7. 高效性能与成本:处理速度提升 2.5 倍,保持高性能的同时成本效益高,定价为 Opus 4($15 /百万输入 token,$75 /百万输出 token)和 Sonnet 4($3 /百万输入 token,$15 /百万输出 token)。
8. 企业级应用:提供 SDK、实时调试和开源插件,支持跨平台集成,适用于零售、医疗、教育等行业的复杂工作流,如数据分析、个性化体验和自动化任务。
9. 多语言支持与全球化:支持多语言实时翻译和内容生成,增强全球可访问性。
10. 用户体验优化:提供“styles”功能定制写作风格,支持内容创作和技术文档;“artifacts”功能生成交互式内容;支持长期任务的内存优化,提升连续性。
局限性:视觉识别能力可能不如 Gemini 2.5,需更精确的提示工程以充分发挥性能。
Claude 4 在编程、推理和多模态能力上显著提升,强调伦理 AI 和企业应用,适合需要深度推理和复杂任务处理的场景。
#Claude展开评论点赞 - LayerDiffusion:一种使大规模预训练的潜在扩散模型能够生成透明图像的方法。该方法允许生成单个透明图像或多个透明层。该方法学习“潜在透明度”,将 alpha 通道透明度编码到预训练潜在扩散模型的潜在流形中。它通过将增加的透明度调节为潜在偏移量,对预训练模型的原始潜在分布进行最小的更改,从而保持了大型扩散模型的生产就绪质量。通过这种方式,任何潜在扩散模型都可以通过调整后的潜在空间进行微调来转换为透明图像生成器。我们使用人机交互收集方案收集的 1M 透明图像层对来训练模型。我们表明,潜在透明度可以应用于不同的开源图像生成器,也可以适配到各种条件控制系统,以实现前景/背景条件层生成、联合层生成、层内容的结构控制等应用。一项用户研究发现,在大多数情况下 (97%) 用户更喜欢我们原生生成的透明内容,而不是以前的临时解决方案,例如生成和抠图。
#AI #论文
中英文对照版本:yiyibooks.cn
展开赞过12 - AI 提示工程(prompt engineering)的衰落和新发展。提示工程是编写查询语句的技巧,目的是改善大型语言模型(LLM)或 AI 艺术抑或视频生成器的输出或规避保护措施。
主要内容:
1. 自从 ChatGPT 在 2022 年秋季问世后,许多人尝试了提示工程技巧。
2. 商业领域中,许多公司正在使用 LLM 和提示工程师来建立产品副驾驶、自动化繁琐工作、创建个人助理等。
3. 新研究表明,最好由模型本身来完成提示工程,而不是由人类工程师来做。
4. VMware 的 Rick Battle 和 Teja Gollapudi 进行了研究,发现不同提示策略对于 LLM 解决小学数学问题的影响差异很大。
5. 他们提出,没有一个确定的趋势。对任何给定的模型、数据集和提示策略,最好的做法可能特定于手头的特定组合。
6. 他们鼓励使用自动化工具来发现输入到 LLM 的最佳短语,并且这些自动生成的提示往往比通过试错法找到的提示要好。
7. 优化的自动生成提示往往很奇怪,不太可能由人类想出。强调了语言模型的数学特性,而不是人性(如语言)的特性。
发展和挑战:
1. 图像生成算法也可以从自动生成的提示中受益。
2. Intel Labs 的一支团队开发了一个名为 NeuroPrompts 的工具,它可以自动增强输入提示,以产生更好的图片。
3. Lal 和他的团队希望通过这些优化调研,最终将它们整合到基础模型中,从而无需进行复杂的提示工程步骤。
对行业未来的预测:
1. 即使自动化提示成为行业标准,提示工程师在某种形式下的工作不会消失。
2. AI 的应用需要更复杂、多阶段的适应,而人类仍将在可预见的未来参与其中。
3. 新的职位名称可能会出现,如大型语言模型操作(Large Language Model Operations, LLMOps)。
4. 所有这些角色和工作仍将继续迅速发展,而且在当前混沌的形势下,不会很快消失。
5. 特别是在行业的初期阶段,似乎没什么确定的规则,就像"野蛮的西部"一样。
#AI #Prompt展开赞过12 - WebPerf Snippets - 可立即在浏览器控制台中获取 Web 性能指标的代码片段评论点赞
- 使用 Performance API 来采集 Core Web Vitals(CWV)是提升网站性能监控的有效途径。通过 JavaScript,该 API 允许开发者直接在 DOM 中生成和评估性能指标。
Interaction to Next Paint(INP)
1. INP 将在最近几周内成为官方的 CWV 指标,用来取代 First Input Delay(FID)。
2. 开发者可查阅相关文章,以准备迎接这一变化。
Performance API 的应用
1. 通过 performance.getEntries() 方法或使用 PerformanceObserver 实例来获取性能指标。
2. PerformanceObserver 提供了许多优势,它异步地监测性能指标,不会阻塞浏览器的其他操作。
报告 Largest Contentful Paint(LCP)
1. LCP 跟踪并统计最大内容元素的加载时间。
2. 示例代码展示了如何使用 PerformanceObserver 创建性能报告并记录结果。
报告 First Contentful Paint(FCP)
1. FCP 表示页面上第一个 DOM 元素绘制到屏幕的时间。
2. 使用 PerformanceObserver 监测 paint 事件类型,来抓取相关性能数据。
报告 Cumulative Layout Shift(CLS)
1. CLS 跟踪页面在绘画元素时的位移。
2. 使用 performance.getEntries() 方法时,无法使用 element metric 类型。
报告 INP
1. INP 测量用户与页面互动到页面响应该互动的时间。
2. 使用 PerformanceEventTiming 类来监测用户互动详情。
报告 Long Animation Frames(LoAFs)
1. LoAFs API 用于追踪可能导致延迟的动画帧。
2. 提供相关性能指标的详细持续时间和涉及到的脚本信息。
Web-vitals 库的使用
1. web-vitals 库封装了浏览器的 Performance APIs,简化对 CWV 指标的报告。
2. 提供了 reportAllChanges 属性,使开发者能在指标变化时而非最终值时报告数据。展开评论点赞 - #前端开发现状# JSR (JavaScript Package Registry)是由 Deno 团队新推出的 npm 包注册仓库平台,旨在解决 npm 存在的限制,并提供多项改进。以下为概要总结:
Deno 团队背景
1. Deno 是 Node.js 创始人 Ryan Dahl 在承认 Node 早期设计决策的遗憾后,推出的一个运行时项目,旨在提供更快、更安全的 JavaScript 运行环境。
2. 2021 年成立 Deno Land 公司,得到 Shasta Ventures 和 Mozilla Corporation 资助。后续,Deno 在 Sequoia Capital 领投的 A 轮融资中获得 2100 万美元资金。
JSR 特点
1. 强调为 TypeScript 提供更高效的支持。
2. 提升性能和易用性,有集成工作区和无缝的 NPM 集成。
3. 通过 HTTPS 提供安全和可获取的模块。
4. 开源和社区驱动的项目。
5. 防止包名占用和废弃模块占位,支持语义化版本控制。
开发者对 JSR 的看法
1. 部分开发者已获早期访问权限,其余人等待访问;反馈包含对其架构决策的认可。
2. Deno 的 TypeScript-first 环境让 TypeScript 开发者发布包更加顺畅。
3. 尽管 Deno 和 JSR 带来一定改进,JSR 是否能够替代 npm 还有待观察。
4. Deno 相对于 Node.js 和 npm 的改进点可能被视为细微和具有破坏性的,如果被采用将会对现有系统构成显著变化。
JSR 应对生态系统分化的挑战
1. 为确保不加剧生态系统分化,Deno 团队承诺要实现与 npm/Node 的兼容性。
2. 有关方面,包括 Socket,在关注 JSR 的发展,希望在其获得更广泛的社区接受时提供支持。
目前,具体获取 JSR 的权限计划尚未面向等待名单公布。对于如何说服社区采用 JSR,Deno 团队需要投入努力,这将最终决定 JSR 作为有效竞争者的可行性。展开赞过评论2 - 《调试 INP》
文章详细讨论了如何调试和改善网站性能中的一个重要指标——交互到下次绘制(Interaction to Next Paint,简称 INP)。INP 将在 3 月 12 日成为核心网络指标(Core Web Vital)。这一指标衡量页面对用户交互诸如点击、敲击或按键等交互的响应速度,测量从交互到浏览器下一次屏幕绘制(painting)的耗时。
INP 分为三个子部分:
1. 输入延迟:交互处理程序等待执行的时间。
2. 处理时间:交互处理程序执行的时间。
3. 展示延迟:浏览器执行任何工作来绘制由交互处理器触发的更新所需要的时间。
由于页面可能有多个交互,RUM 产品和其他工具(如 Google 搜索控制台和 Chrome 的 UX 报告(CrUX))报告的 INP 时间通常是第 75 百分位最差(最高)的 INP 时间。
为了改善 INP,文章提供了一系列调试步骤和策略:
1. 识别有问题的交互。可以使用 CrUX 提供的高级视图或通过工具如页面速度洞察进行检查。
2. 配置 Chrome DevTools 和移动仿真,将页面加载和记录分析。使用 DevTools 的性能面板记录和停止记录,并分析主线程活动。
3. 分析交互。确定导致 INP 时间延长的原因,并探究减少这些时间的方法。
4. 提出改进方案。包括延迟次要活动、优化代码、减少必要工作和在合适的时机把控制权交还给主线程。
文章中举了三个实际网站的例子,说明了如何基于这些步骤改善具有高 INP 时间的交互:
1. H&M 的移动网站菜单打开事件。
2. John Lewis 的菜单打开事件。
3. Wales Online 接受同意对话框事件。
改善建议包括:
1. 推迟执行不太重要的活动。
2. 优化代码并减少执行量。
3. 把长任务和繁重的处理移出主线程。
4. 使用 setTimeout 和 requestIdleCallback 将长任务拆分。
作者强调使用真实用户监控(RUM)可以帮助快速识别具有高 INP 的页面和交互,但即便没有 RUM 数据也可以开始提升 INP。不过,这可能会导致你无法调试最有影响力的交互。
INP 的测量不是一个完美的科学,可能会遇到一些非常规情况。文章建议逐渐尝试和改善,即使是小的递增变化,也会累积起较大的整体性能提升。展开赞过评论1