GitHub 的存储库架构允许公众通过 fork 和事件 API 访问已删除和私有的存储库数据

19 阅读10分钟

GitHub 的存储库架构允许公众通过 fork 和事件 API 访问已删除和私有的存储库数据

  • 短 SHA-1 漏洞: GitHub 允许用户使用短 SHA-1 哈希访问提交。这意味着即使不知道完整的 32 个字符的 SHA-1,某些人也可能猜出短哈希并获得提交的访问权限。
  • 公开事件 API 暴露: GitHub 有一个公开 API,用于记录存储库事件。这些数据也由第三方服务存档,这意味着即使存储库被删除后,也可以访问提交信息。
  • • **分叉使数据永久保留:**即使删除了原始存储库,该存储库的任何分叉仍将包含提交历史记录。这意味着,只要至少有一个分叉存在,已删除存储库中的数据就可以无限期地保留。
  • • **删除不等于销毁:**删除 GitHub 上的存储库实际上并不会删除数据。提交仍可通过分叉和公共事件 API 访问。
  • 对安全的影响:
    • • 用户通常认为私有存储库提供了强大的安全性,但由于上述因素,情况并不总是正确的。
    • • 已删除的存储库中泄露的秘密仍然可能带来风险。
    • • 密钥轮换对于降低机密泄露的风险至关重要。Truffle Security 提供了有关如何轮换常见机密类型的密钥的资源。
  • • **更广泛的背景:**虽然研究重点是 GitHub,但其他版本控制系统可能也存在类似的问题。

Truffle Security 强调了解这些潜在漏洞并采取密钥轮换等主动措施来保护敏感数据的重要性。

trufflesecurity.com/blog/anyone…

MINT-1T:用于开源研究的一万亿代币多模式数据集

  • • **介绍 MINT-1T:**这是一个庞大的开源多模态数据集,包含一万亿个文本标记和 34 亿张图片。它旨在通过提供更大、更多样化的数据集来训练多模态模型,从而成为人工智能研究领域的重大进步。
  • • **扩大开源数据:**与现有的开源多模态数据集相比,MINT-1T 的规模大约增加了 10 倍。这种规模对于训练强大的 AI 模型至关重要,这些模型可以理解和生成跨不同模态(文本和图像)的复杂、细微的内容。
  • • **多样化的数据来源:**数据集来自各种来源,包括:
    • • 来自网络的 HTML 数据。
    • • PDF 文档,包括来自 ArXiv 的学术论文。
  • 为方便访问而对 PDF 进行分片: 为了使数据集更易于管理,MINT-1T 的 PDF 部分根据 CommonCrawl 快照(抓取网页内容的日期)分为多个分片。这样研究人员就可以更高效地访问和处理特定部分的数据。
  • ArXiv 数据收录: ArXiv 论文的收录为数据集增加了宝贵的科学维度。这对于在自然语言处理、信息检索和知识表示等领域训练模型特别有用。
  • • **引用:**创建者鼓励使用 MINT-1T 的研究人员引用他们的技术报告,该报告提供了有关数据集的创建、结构和潜在应用的详细信息。

github.com/mlfoundatio…

亚马逊计划推出由生成式人工智能驱动的增强型 Alexa 订阅服务

  • • **亚马逊正在开发一款名为“Remarkable Alexa”的订阅版 Alexa。**这个升级版将比目前的免费版 Alexa 先进得多,并结合了生成式人工智能,实现更自然、更直观的交互。
  • 我们的目标是让智能家居设备和其他功能的控制变得更加轻松和无缝,只需使用语音即可。 想象一下,无需打开应用程序,只需让 Alexa 调节恒温器或调暗灯光即可。
  • 亚马逊首席执行官杰夫·贝佐斯 (Jeff Bezos) 在去年 12 月的播客采访中暗示了这一发展,并表示“Alexa 即将变得更加智能”。
  • • **该服务计划最早于本月推出,但内部对定价和市场吸引力存在担忧。**一些团队成员担心,已经订阅了 Netflix、Spotify、Amazon Prime 等服务的客户可能不愿意为增强的 Alexa 体验支付额外费用。
  • 人们还怀疑新功能是否足够吸引人,是否值得付费订阅。 一位内部人士表示,“技术还不够成熟,但他们有发布产品的最后期限”。
  • • **尽管存在这些担忧,亚马逊仍然保持乐观,并强调打造世界上最好的个人助理是一个巨大的机遇。**他们相信潜在的利益大于任何直接的财务考虑。

www.wsj.com/tech/amazon…

Mistral AI 发布 Mistral Large 2,这是一款 123B 参数开源 LLM,具有增强的代码生成、推理和多语言功能

  • • **Mistral Large 2 介绍:**这是 Mistral AI 的下一代旗舰型号。它在代码生成、数学、推理和多语言支持方面比其前身有了显着改进。
  • 性能与效率:
    • • Mistral Large 2 在 MMLU 基准上实现了令人印象深刻的 84.0% 的准确率,为开源模型中的性能/成本效率树立了新的标准。
    • • 它的 1230 亿个参数使其能够在单个节点上高效运行,非常适合长上下文应用程序。
  • 增强的功能:
    • 代码生成和推理: Mistral Large 2 在代码生成方面表现出色,性能可与 GPT-4o 和 Claude 3 Opus 等领先模型相媲美。它经过了大量的代码训练,可以最大限度地减少“幻觉”(生成错误信息),从而获得更可靠的输出。
    • 指令遵循与协调: Mistral Large 2 表现出改进的指令遵循和对话能力,有效地处理复杂的多轮对话。
    • 多语言支持: Mistral Large 2 支持数十种语言,包括英语、法语、德语、西班牙语、意大利语、葡萄牙语、阿拉伯语、印地语、俄语、中文、日语和韩语。它在多语言 MMLU 基准测试中表现出色。
  • 函数调用和工具使用: Mistral Large 2 配备了先进的函数调用功能,使其能够对复杂的业务应用程序执行并行和顺序函数调用。
  • 可访问性:
    • • Mistral Large 2 在 la Plateforme 上以“mistral-large-2407”的名称提供,可以使用 le Chat 进行测试。指导模型的权重也托管在 HuggingFace 上。
    • • 现在,可以在 La Plateforme 上为 Mistral Large、Mistral Nemo 和 Codestral 提供微调功能。
  • 云合作伙伴关系: Mistral AI 扩大了与 Google Cloud Platform(Vertex AI)、Azure AI Studio、Amazon Bedrock 和 IBM watsonx.ai 等领先云提供商的合作伙伴关系,以使 Mistral Large 2 可在全球范围内使用。

mistral.ai/news/mistra…

上下文块头和动态分段可提高 RAG 系统的检索准确性

  • • **问题:**使用检索增强生成 (RAG) 从大型文档中检索准确信息通常会受到“脱离上下文的块”的阻碍。这意味着单个文本块缺乏足够的上下文,无法让 LLM 正确理解它们,从而导致答案不准确或产生幻觉。
  • 上下文问题示例:
    • • 块内的隐含引用和代词使检索和理解变得困难。
    • • 答案可能分布在多个部分。
    • • 无序呈现的内容会让法学硕士 (LLM) 感到困惑。
    • • 简单的分块可能会在思考过程中分割文本,导致两个块都没有有用的上下文。
  • • **解决方法:**本文提出了解决这些问题的两种主要方法:
    1. 1. 上下文块标头: 为每个块添加一个标头,以提供更高级别的上下文。这可能包括文档标题、简明摘要和章节/小节标题。通过在嵌入和重新排序期间将标头与块文本连接起来,LLM 可以接收更多相关信息,以实现准确检索。
    2. 2. **块 -> 段:**不要仅仅依赖单个块,而是动态构建相关文本的“段”。这涉及:
      • • 使用 LLM 将文档分成语义上连贯的部分。
      • • 根据查询识别相关块的集群。
      • • 计算块值(相关性分数减去不相关块的惩罚)以确定最佳片段。
  • 好处:
    • 改进的上下文: 片段比单个块提供更丰富的上下文,使 LLM 能够更好地理解信息并生成更准确的响应。
    • • **稳健性:**该方法对排名模型的错误不太敏感,因为通常会考虑夹在高度相关块之间的相关块。
  • • **开源工具:**对于那些想要尝试这些方法的人,文章提到了一些开源工具,比如 dsRAG(检索引擎)和 LangChain 自定义检索器实现。

d-star.ai/solving-the…

遗传算法在糖尿病模拟中优化胰岛素注射时间表以控制血糖

  • • 作者正在使用遗传算法来优化糖尿病管理的胰岛素剂量。
  • • 他们根据胰岛素注射和进餐情况模拟一段时间内的血糖水平。
  • • 适应度函数用于评估一组胰岛素剂量的表现,其计算成本很高,但可以记忆(缓存)以提高效率。
  • • 遗传算法成功优化了假设患者的胰岛素摄入量,使他们的血糖保持在目标范围内。
  • • 为了使该工具更加实用,作者设想增加交互性,允许用户调整注射和膳食,并观察对模拟血糖水平的影响。
  • • 他们计划通过将该模型与来自 Freestyle Libre 传感器的自己的历史血糖数据进行匹配,从而实现模型的个性化。
  • • 当前算法假设使用胰岛素泵,但作者需要对其进行修改以考虑基础(长效)胰岛素注射。
  • • 作者简要提到尝试使用随机游走作为另一种优化技术,但他们最终选择了遗传算法。

martin.janiczek.cz/2024/07/23/…

NoteTech 通过自然语言笔记书写实现编程

  • NoteTech:用文字编程
    • • NoteTech 是一个革命性的平台,用户只需通过写笔记即可构建个人自动化和工具。这就像编程一样,但使用自然语言而不是代码。
  • 怎么运行的:
    1. 1. 撰写描述性说明: 撰写一份说明,清晰概述您要创建的程序的步骤和功能。
    2. 2. 大功告成! NoteTech 的 AI 引擎会解读您的笔记并自动生成必要的代码,让您的程序焕发生机。
  • 您可以构建的技术类型:
    • • **自动:**这些是按计划运行或由特定事件触发的自动化程序,可简化任务和流程。
    • • **工具:**您可以在需要时随时执行以执行特定功能的按需程序。
    • • **小程序(即将推出):**提供更具吸引力的用户体验的交互式小应用程序。
  • 主要优点:
    • • **可访问性:**任何能够描述程序的人,无论编码经验如何,现在都可以构建自己的技术。
    • AI 集成: 轻松将 AI 功能融入您的创作中,为智能自动化和工具开辟可能性。
    • • **API 连接:**无缝连接各种在线服务(如电子邮件)以增强您的技术功能。
  • Beta 访问: NoteTech 目前处于 Beta 测试阶段。立即在其网站上注册加入并开始构建您自己的技术!

www.simpltech.ai/

.hljs.code__pre::before { position: initial; padding: initial; content: ''; display: block; height: 25px; background-color: transparent; background-image: url("doocs.oss-cn-shenzhen.aliyuncs.com/img/123.svg"); background-position: 14px 10px!important; background-repeat: no-repeat; background-size: 40px!important; } .hljs.code__pre { padding: 0!important; } .hljs.code__pre code { display: -webkit-box; padding: 0.5em 1em 1em; overflow-x: auto; text-indent: 0; }

本文使用 文章同步助手 同步