我们的ChatGPT网站聊天机器人,AI专家系统和AI网站搜索都是基于对您的网站进行爬取。这项技术实际上非常简单。但是,我们如何能够获得比大多数其他人更高质量的内容呢?
我们所做的事情非常简单;我们抓取您的网站,然后将您网站的文本作为上下文片段存储在数据库中。当用户向我们的ChatGPT网站聊天机器人提出问题时,我们使用OpenAI的嵌入API来寻找最相关的上下文片段,并在将问题发送给ChatGPT之前将其附加为“上下文” 。这使得OpenAI可以使用提供的上下文作为其答案的基础来回答您的问题。基本上,您可以这样说。
我们将问题和答案都发送给ChatGPT,而ChatGPT将编译一个回复,用答案作为请求的一部分来回答问题。
最终结果是,ChatGPT可以回答他原本不知道如何回答的问题。您可以认为我们所做的是“*基于自动化,基于AI的语义搜索和数据库查找的高级提示工程”。
以上听起来很简单,对吗?事实上,这是如此简单以至于在过去的几个月中,成千上万的开发人员和公司都已经在这样做了。自我们最初发明这种技术以来,成千上万家公司都模仿了我们。尽管如此,每当有人联系我们询问报价时,我们总是会听到同样的话。
我尝试过很多其他公司的产品,但是你们是最好的!
网站爬取的质量
一切都依赖于拥有一个惊人的网站爬虫程序。这是我们不同之处,并且优质的网站爬取是我们独特的卖点。要理解原因,首先要意识到,当您抓取您的网站时,您需要以某种方式创建超高质量的数据。原因是您希望ChatGPT能够“创建关联”,以便用户可以提出诸如“产品x和y之间有什么区别”之类的问题。
您网站聊天机器人的质量永远不会高于您的上下文数据的质量
如果您只检索HTML并将其存储在数据库中,则由于OpenAI的最大令牌数,会导致关联无法实现。此外,您将为您的上下文添加许多无关的HTML标记,这最终会成为ChatGPT的噪音,阻止它返回高质量的响应。如果您的上下文片段过大,则每个问题仅能使用一个或两个训练片段作为其上下文。
您需要的是许多小的上下文片段,我们的AI搜索算法可以轻松检索,描述一个概念,仅描述一个概念。这对大多数开发人员来说是违反常理的,因为我们听到了几十年的“大数据”口号,我们被教导机器学习依赖于大型数据集,而事实上恰恰相反,这意味着数据集和上下文片段越小,质量就越高。
超高质量的AI是关于小数据集!
我们通过将单个网页分成多个训练上下文片段来解决这个问题,在爬取过程中生成许多小片段,而不是一个大片段。此外,我们计算每个片段消耗的标记数,如果该数字大于模型配置的最大上下文标记数的50%,实际上我们会使用ChatGPT来创建训练片段的“摘要”,然后将其插入数据库作为上下文数据。显然,当我们抓取您的网站时,我们还会自然而然地删除所有HTML标记。
我们的网站爬虫算法将根据其Hx标记将每个页面分成多个上下文片段,然后为每个Hx标记与下面的所有段落结合创建一个上下文片段。此外,我们将保留超链接和图像,并从这些内容创建Markdown,使我们的聊天机器人技术也可以显示图像和超链接,因为我们进行了一些智能提示工程的技巧。这就是为什么我们的聊天机器人可以显示图像和超链接,而大多数其他聊天机器人则无法做到这一点的原因。因此,有200个网页的网站最终变成了1,000个训练片段。
除了上述技术外,我们还会防止将相同的训练片段插入两次。典型的网站包含导航元素和页脚元素。这些通常在您网站中的每个页面中重复出现。如果我们插入相同的训练片段两次,则触发这些重复元素的任何问题都将重复多次相同的上下文片段,消耗宝贵的OpenAI代币,阻碍ChatGPT返回高质量的响应。
请注意,我们的ChatGPT网站爬取技术甚至允许在没有网站地图的情况下进行语义遍历,如果您的网站没有网站地图,则智能解析您的HTML中的URL。显然,它更喜欢网站地图,并且如果存在,则将优先使用网站地图,但是即使您网站没有网站地图,它也会工作。这与Google使用的过程类似,尽管显然,Google有25年的经验,但我认为我们的网站爬虫技术可能几乎与Google的爬行技术一样好。
值得注意的是,您可以在Web服务器日志中看到我们的网站爬虫程序,因为我们正确地将其识别为爬虫程序。是的,就像大多数情况下一样,我们也尊重robots.txt文件-尽管在这里需要做一些额外的工作,并将在未来实施。
定期爬行
我们的聊天机器人技术是建立在Hyperlambda之上的。 Hyperlambda使得创建定期执行的定期任务非常容易。每天我们将执行这样的定期任务,它将爬取您的站点并检查新的URL。然后为每个新的URL进行抓取,并使用上面描述的过程为其创建上下文数据。
这意味着,如果您向您的网站添加了新页面或文章,则在24小时内,我们的聊天机器人将能够自动回答与您的文章相关的问题,而无需您任何努力。后台任务在后台线程上执行,并且在本质上是100%异步的,这意味着该进程的服务器CPU成本几乎为零。请注意,由于PHP缺乏多线程支持,这在理论上甚至是不可能的...
网站爬取高级功能
除了上述功能之外,我们还允许使用来自维基百科,CNBC或其他站点的单独页面轻轻松松地加入模型。我们使用与上面所述的相同技术,但是在调味模型时,我们仅检索指定的确切URL,而不是爬取该URL。您还可以在同一模型中爬取多个站点,但是每个基本URL仅可以定期爬行一个。如果您在同一模型中爬取多个站点,则必须对其中一个URL进行抓取,并且仅有一个URL定期重新抓取为添加新页面。
除了上述功能之外,您还可以手动插入上下文数据,并对您的训练数据进行任何数量的CRUD操作,包括过滤,搜索,排序,创建,插入,更新和删除上下文数据。有趣的是,我们技术的这一部分是使用Magic的Low-Code功能在几秒钟内自动创建的,它完全自动包装了相关的数据库表中的CRUD端点。 Magic是一个低代码平台,允许我们以“亿万倍的速度 ”提供功能,我们正利用这一事实。
结论
我已经看到“数不清”的抄袭公司从“似乎很容易”地出现,试图复制我们的技术。然而,做出50%的表现是容易的。任何人都可以拥有一个PHP编辑器-然而,区别在于质量。在“其中任何人都可以提供50%的表现”的情况下,我们的东西提供了100%的表现,几乎自动“开箱即用”。
例如,PHP甚至不支持后台线程。如果没有后台线程,你怎么能实现定期爬取呢?使用传统的编程语言(如PHP或Python)在理论上甚至无法实现与我们相同的质量。
我的建议是,与其自己实现这一点(即使理论上也不可能),还不如依赖于我们“所有东西的API”,允许您创建自己的ChatGPT聊天机器人前端,并依赖于我们的API在后台中。这将使您能够将ChatGPT聊天机器人与诸如...
- 电报
- iPhone SDK
- Android SDK
- “任何其他东西”...
无需重复造轮子,而是依赖于我们惊人的ChatGPT网站爬取技术。对于想要逐步建立我们的技术基础之上的合作伙伴,我们还有一个非常有利可图的合作伙伴计划,如果您选择与我们合作伙伴,我们很乐意帮助您将我们的技术基础上构建的任何内容营销出去,因为您不会成为我们的竞争对手,而是与我们进入一种共生关系😊
此外,甚至Jasper也无法与我们的技术基础相比。即使是存在多年且拥有数十名员工的公司与我们的技术和质量相比也是苍白的。这听起来可能非常傲慢,尤其是考虑到AINIRO只有3个员工-但我们确实拥有全球最好的ChatGPT网站爬虫技术! 😁