《The AI Journal》2025.01.31

252 阅读6分钟

大家好,又见面了。本期内容为大家带来6个GitHub项目,包括1个最近超火的大语言模型,4个实用有趣的AI工具,和1个高阶AI助手。

1 DeepSeek-V3 通用大语言模型的当红辣子鸡

1.1 简介

DeepSeek-V3是一个强大的混合专家(MoE)语言模型,具有671B的总参数,每个token都激活了37B参数。

1.png

1.2 功能

deepseek-V3不用过多介绍,是近几周AI界的顶流,其主要特点是:

  • 知识问答:在 MMLU、GPQA 等知识类任务中,DeepSeek-V3 的表现接近 Claude-3.5-Sonnet-1022(国际顶尖模型)。

  • 长文本处理:在 DROP、LongBench v2 等长文本测评中,DeepSeek-V3 的平均表现超越了其他模型。

  • 代码生成:在算法类代码场景(如 Codeforces)中,DeepSeek-V3 远远领先于其他开源模型。

  • 数学能力:在美国数学竞赛(AIME 2024)和中国高中数学联赛(CNMO 2024)中,DeepSeek-V3 的表现超过了所有开源和闭源模型。

  • 生成速度:60TPS(每秒生成 60个token)

  • 价格便宜:

    • 输入 tokens:每百万 tokens 仅需 0.5 元(缓存命中)或 2 元(缓存未命中)。
    • 输出 tokens:每百万 tokens 仅需 8 元。
  • 开源,支持本地部署

1.3 适用

适合所有对AI感兴趣的读者,即使你不感兴趣,也建议下载其官方客户端进行体验。

1.4 点评

直接让NVIDIA股价大跌超过12%,市值蒸发超4000亿美元,干翻一众美国拥有先天圣体(训练显卡)的大模型的价格屠夫。

2 AI Comic Factory 开源免费的AI漫画生成器

2.1 简介

假如你梦想成为一名漫画家,但缺乏一项重要技能——绘画能力,可能导致你痛失梦想。今天开始,你不用气馁了,AI Comic Factory可以帮你实现这些梦想,它可以基于你提供的描述(Prompt)为你完成一本漫画书。

2.jpg

2.2 功能

AI Comic Factory是一个免费开源的在线AI漫画生成工具,使用LLM和SDXL开发。用户只需输入文字描述提示词,就能生成排版后的精美漫画作品,而且支持用户设计漫画书的页面,让每个人都可以轻松创作出独一无二的漫画风格图片。与其他AI项目不同,这个项目实现了科技与艺术的融合,为漫画爱好者和喜欢尝试新技术的人提供了创作平台。其功能包括:

  • 自定义场景和故事描述
  • 漫画样式自定义
  • 漫画布局选择
  • 漫画对白设置
  • 漫画页面生成
  • 创建连续漫画
  • 生成漫画书

2.3 适用

职业漫画家或对创作漫画感兴趣的读者。

2.4 点评

这可能是我的第一个专栏项目,毕竟它点燃了我心中的一团火😀。

3 DeOldify 老照片上色工具

3.1 简介

DeOldify是一款开源且免费的图像着色器。

3.jpg

3.2 功能

该项目基于深度学习实现了对黑白图像和视频进行着色的功能,主要功能或特点如下:

  • 可以同时消除照片中丢失的部分
  • 上色自然,比如逼真的皮肤效果
  • 更详细和逼真的渲染
  • 避免其他工具产生的“蓝色偏差”
  • 支持视频
  • NoGAN-一个新奇但非常有效的方法做GAN训练

3.3 适用

适合需要对黑白照片进行上色的读者和需要进行相关研究的读者。不适合追求新算法的读者,作者于2024年10月19日开始停止维护,他认为该技术稍微过时。

3.4 点评

早期的深度学习成功案例,依旧实用。

4 openai-edge-tts 免费文本转语音工具

4.1 简介

一个使用ege-tts的支持本地、与OpenAI兼容的语音合成(text-to-speech TTS)API,它模拟OpenAI TTS端点(/v1/audio/speech),使用户能够像使用OpenAI API一样从具有各种语音选项和播放速度的文本中生成语音。

4.png

4.2 功能

ede-tts无需安装Microsoft Edge浏览器、不依赖Windows操作系统和API密钥,就能利用微软Edge提供的在线文本转语音功能。该项目是直接调用微软Edge浏览器的文本朗读有关API实现的文本转语音功能,不需要本地部署模型,使用简单,声音效果好。主要功能或特点为:

  • 使用Microsoft Edge的在线语音合成服务,完全免费
  • OpenAI兼容端点:具有相似请求结构和行为的 /v1/audio/speech
  • 支持的声音:将OpenAI声音(合金、回声、寓言、玛瑙、nova、微光)映射到边缘tts等价物
  • 灵活的格式:支持多种音频格式(mp3、opus、aac、flac、wav、pcm)
  • 可调速度:可以修改播放速度(0.25倍至4.0倍)
  • 可选的Direct Ege-TTS语音选择:使用OpenAI语音映射或直接指定任何ege-tts语音

4.3 适用

需要进行文字转语音的读者,特别是对OpenAI TTS API有需要又不想付费的读者,比如不厌其烦给小朋友讲述同一个幼稚故事的爸爸。

4.4 点评

免费好用的工具,效果不错。

5 AnimatedDrawings 卡通形象的动画化AI库

5.1 简介

让自己绘制的小人偶(或更加高级的人物)实现指定的动作,甚至形成动画。

5.2 功能

这是一个功能简单但是很有意思的库,能让你的画动起来。无论是小朋友画的粗糙小人,还是专业绘画师绘制的高水平卡通人物,它都能让它们跟着你一起做动作。这也是亲子娱乐的一个很好的载体,比如父母和小朋友一起实现一部专属的动画短片。

5.3 适用

拥有有趣灵魂的我们。

5.4 点评

不得不说,非常喜欢这种有意思的小项目。

6 screenpipe 全天候录制屏幕的 AI 助手

6.1 简介

ScreenPipe是一个开源工具,可以24小时不停地录制你的屏幕和麦克风,结合大模型成为高阶AI助手。

6.1.png

6.2.png

6.2 功能

ScreenPipe连续屏幕捕获和文字识别、自动录音与会议转录,收集生活中的各种信息、结合 LLMs 的能力,实现自动记录、上下文感知的 AI 助手,其主要功能是:

  • 捕获采集自动化
  • 支持中文 OCR
  • 数据本地存储,确保用户完全掌控自己的信息
  • 跨平台:支持Mac、Windows和Linux等
  • 支持个人知识管理、生产力优化和智能助手等多种应用,能与Ollama、OpenAI、Obsidian等工具无缝集成

由于其特性,根据使用的不同存在的一些问题:

  • 接入互联网后监控面克风和屏幕的隐私性问题
  • 数据存储的大小空间问题 ;

6.3 适用

对AI助手感兴趣的高阶玩家。

6.4 点评

随着技术的发展,Jarvis一定会到来,相信本项目一定在这个发展历程中占有一席之地。

本期内容就到这里,如果你更好的推荐或者对哪个项目特别感兴趣,欢迎在评论区给我留言,我将根据情况进行收录,并将大家喜欢的项目加入专栏,进行更加详细的介绍。我们下期再见!