集中式太阳能电池板管理需要网络安全监管来减轻电网中断风险；13ft：类似于 12ft.io 但是自托管的网站太阳能电池板

集中式太阳能电池板管理需要网络安全监管来减轻电网中断风险

• **问题：**太阳能电池板的集中管理平台正在获得巨大的权力，可能控制我们很大一部分的电力供应。这些平台目前受到的监管较少，更像是网站，而不是关键基础设施。
• 重要性： 这种控制集中引发了严重的网络安全问题。这些平台中的一个漏洞就可能破坏整个能源网。
• **现有解决方案不足：**现行立法未能充分解决这一问题。虽然可能存在一些创造性的法律解释，但这可能不是一个可持续的解决方案。
• **前景充满希望：**两项即将出台的欧洲指令提供了潜在的解决方案：
- • **NIS2（网络和信息安全指令 2）：**将“能源”归类为“非常关键的行业”，这意味着对该行业内的实体的安全要求更为严格。它需要明确的实施指南，明确包括可以远程控制大量太阳能电池板的太阳能电池板管理平台。
- • **网络弹性法案 (CRA)：**侧重于设备安全，但可能涵盖控制这些设备的软件和服务，因为它们在功能中起着至关重要的作用。该法案规定了高安全标准。
• **行业认可：**行业组织 SolarPower Europe 承认存在风险，并主张在 NIS2 中制定特定行业要求。他们以澳大利亚和德国为例，这两个国家目前都制定了相关规定（尽管尚未执行）。
• **替代方法：**作者建议采用一种去中心化的方法，让面板直接与用户连接进行监控，从而消除依赖互联网的中央控制的需要。这将限制网络攻击造成的潜在破坏。
• 临时解决方案： 限制控制面板的数据可视化并禁止远程切换面板/电池，可以减轻眼前的风险，同时开发更全面的解决方案。
• **行动呼吁：**作者敦促欧盟内部合作有效解决这一问题，并强调需要制定明确的法规来追究这些强大平台的责任。

berthub.eu/articles/po…

13ft：类似于 12ft.io 但是自托管的网站

• 13ft 是什么？

13ft 是 12ft.io 的自托管替代方案，旨在绕过网站上的付费墙和广告。它对于 Medium 和纽约时报等网站特别有用，因为访问这些网站的内容通常需要订阅。

• 它是如何工作的？

13ft 模仿 GoogleBot（谷歌的网络爬虫）来访问网页的全部内容，就像谷歌进行索引一样。这使它能够绕过针对普通用户的付费墙和广告拦截器。

• 使用13英尺：
- • Docker 方法：
  - • 克隆存储库。
  - • 运行docker-compose up以启动服务器。
  - • 该图像也可在 DockerHub 和 ghcr.io 上获得。
- • 标准 Python 脚本：
  - • 安装 Python 和所需的依赖项（pip install -r requirements.txt）。
  - • 跑步python portable.py。
  - • 将所需的 URL 粘贴到控制台中出现的输入框中。
• 替代方法：

将 URL 附加到服务器地址的末尾（例如http://127.0.0.1:5000/https://example.com）。此功能由 atcasanova 贡献。

github.com/wasi-master…

使用 Transformer 模型的音乐推荐系统

• **问题：**传统的音乐推荐系统很难平衡用户历史记录和实时收听环境。例如，健身房里的某个人可能想要听他们平时不会听的高能量音乐。
• 解决方案： Google 将 Transformer 模型集成到其现有的排名系统中。这使他们能够：
- • 了解用户操作： Transformer 会分析跳过曲目、选择歌曲和自动播放等操作。它会考虑歌曲的播放量以及距离上一次操作的时间等因素。
- • **结合音乐背景：**该模型会考虑用户当前的活动（例如健身房、驾驶）来相应地调整推荐。
- • 融合历史和背景： Transformer 将过去的收听习惯信息与实时操作相结合，以创建更加个性化的排名。
• 工作原理：
1. 1. **输入：**用户动作被转换成向量（数值表示）。这些向量与表示音乐曲目的曲目嵌入（也是向量）相结合。
2. 2. Transformer 处理： Transformer 分析这些输入向量，学习用户动作、音乐环境和曲目特征之间的关系。
3. 3. 排名分数： Transformer 为每首音乐曲目输出一个分数，反映其与用户当前状态的相关性。该分数通过神经网络与其他排名模型输入相结合。
• 结果： 现场实验表明，这种方法可以：
- • 降低跳过率（用户对推荐更满意）。
- • 增加了聆听会话的长度（用户更享受体验）。
• **未来方向：**谷歌计划：
1. 1. 将 Transformers 应用于推荐系统的其他部分，如检索模型。
2. 2. 将非序列特征（例如艺术家受欢迎程度、用户语言）直接集成到 Transformer 中，以提高自我注意力和上下文理解。

research.google/blog/transf…

人工智能公司正从创造神转向制造产品

• **人工智能整合将是渐进的：**作者认为，将人工智能整合到现有产品和工作流程中将是一个缓慢的过程，需要十年以上而不是几年的时间。这是因为有效使用人工智能需要仔细思考和规划，而滥用则更容易发生。
• 单一用途的 AI 应用是关键： 本文强调了为特定任务构建专用 AI 工具的重要性，而不是尝试创建过于通用的 AI 系统。这种方法可以更好地控制和理解 AI 的使用方式。
• **解决滥用问题：**虽然限制对强大 AI 模型的访问似乎是解决滥用问题的一种方法，但作者认为这种方法并不有效。他们强调，与开发合法应用程序相比，滥用往往更容易实现。
• **采用速度各不相同：**文章指出，即使是苹果这样的科技巨头也因采用人工智能速度过快而受到批评。这凸显了对人工智能整合采取慎重和深思熟虑的方法的必要性。
• 关注用户体验： 作者在讨论 AI 采用时优先考虑用户体验，暂时将环境成本和训练数据伦理问题放在一边。他们认为，创造有价值且可用的 AI 产品应该是首要关注点。
• **成本考虑：**文章简要提到了各种 AI 模型之间的成本差异，强调功能更强大的模型有时比较功能较弱的模型更便宜。
• 训练数据的隐私问题： 作者对使用私人数据训练 AI 模型提出了担忧。虽然许多公司声称只使用公开数据，但他们的披露往往含糊不清。Anthropic 因承诺未经明确许可不使用用户提交的数据进行训练而受到表扬，因此被列为例外。
• **对具体价值的需求：**文章最后强调了专注于开发为用户提供有形价值的人工智能产品的重要性。他们提倡务实的方法，优先考虑现实世界的应用，而不是追求假设的进步。

www.aisnakeoil.com/p/ai-compan…

XGBoost 嵌入模型在从大型数据集对 PDF 标签进行分类时实现了 85.26% 的准确率

• 目标： Pedroza 的目标是自动对海量数据集中与 PDF 相关的标签进行分类。这涉及识别每个 PDF 中的内容和上下文以分配相关标签。
• **数据集挑战：**数据集非常庞大，包含超过 800 万份 PDF。这对训练机器学习模型提出了巨大的计算挑战。
• 模型探索： Pedroza 尝试了几种模型：
- • gte-large naïve：由于数据集的大小和复杂性，基线模型的准确性受到挑战。
- • XGBoost 嵌入：该模型使用预先计算的嵌入（文本的数值表示），在超参数扫描（模型设置的优化）后实现了最高准确率（85.26%）。
• **分类过程：**一旦选定最佳模型，Pedroza 就会用它来预测整个数据集的标签。这涉及加载预先计算的嵌入并通过经过训练的 XGBoost 模型运行预测。
• **可视化技术：**为了了解预测标签的分布并探索数据中的关系，Pedroza 采用了降维技术：
- • PCA（主成分分析）：该技术在单个图中可视化所有 850 万个数据点，揭示聚类和模式。
- • UMAP（均匀流形近似和投影）：UMAP 提供了数据点之间关系的更详细的可视化，但由于数据集的大小，需要大量的计算资源。
• 要点： Pedroza 强调了使用 XGBoost 等强大的机器学习模型进行大规模文本分类任务的重要性。他还强调了降维技术对于可视化和理解复杂数据集的价值。
• 开放源代码： Pedroza 公开数据集、嵌入和代码，以鼓励该领域的进一步研究和开发。

snats.xyz/pages/artic…

Clang 的 `musttail` 属性提高了性能，但缺乏可移植性，并且需要解决复杂的后备逻辑问题

• **问题：**作者正在开发一个需要高性能的项目 (upb)，可能需要解析二进制数据格式（如协议缓冲区）。他们的目标是通过最小化函数调用开销和最大化代码效率来实现这一点。
• 尾部调用作为解决方案： 他们最初使用musttail属性（在某些编译器（如 Clang）中可用）来优化循环。此属性允许以尾部调用的方式调用函数，这意味着调用者函数不需要在堆栈上保留自己的状态，因为被调用者函数将直接将控制权返回给调用者的调用者。
• 尾调用的局限性：
- • **寄存器溢出：**即使有了musttail，复杂的后备函数（用于处理不寻常的情况）也可能导致过多的寄存器溢出，从而抵消一些性能提升。
- • 不可移植性：musttail并非所有编译器都普遍支持该属性。
• 替代方法：
- • **__attribute__((preserve_most))：**此属性将保存寄存器的责任转移给了 fallback 函数。虽然很有希望，但作者遇到了一些问题（可能是编译器错误），导致他们无法充分利用这种方法。
- • **条件尾部调用：**作为缺少的编译器的后备方案musttail，他们计划使用一个宏，根据编译器支持情况有条件地执行尾部调用或常规返回。这可确保代码在不同平台上正常运行，但可能会因额外的分支逻辑而带来一些性能开销。
• **要点：**作者强调了在性能优化与代码可维护性和可移植性之间取得平衡的持续挑战。他们正在积极探索解决方案以克服这些限制并实现他们期望的性能目标。

blog.reverberate.org/2021/04/21/…

集中式太阳能电池板管理需要网络安全监管来减轻电网中断风险；13ft：类似于 12ft.io 但是自托管的网站