-
谷歌搜索如此有价值的一个主要原因不是这些数据的量有多大,而是人们对谷歌很诚实。人们会对朋友、爱人、医生、调查人员乃至他们自己说谎,但在谷歌网站,他们可能会分享令人尴尬的信息,比如他们的无性婚姻、心理健康问题、不安全感和对黑人的仇恨等。最重要的是,为了从大数据中获得见解,问题必须问到点上。
-
H2O以分布式和并行CPU在内存运行
-
“The Whys and Hows of Licensing Scientfic Code”
(1)一定要对代码进行许可。未许可的代码是封闭代码,因此任何开放许可都优于没有许可(见第2条)。
(2)一定要使用GPL兼容的许可证。GPL兼容许可证可以确保你的代码具有广泛
的兼容性,这种许可证包括GPL、新BSD以及其他一些许可证(见第3条)。
(3)一定要使用宽松式的、BSD风格的许可证。相比于GPL或LGPL
这样的copy-left许可证,更应该使用新BSD或MIT这样的宽松式许可证。
-
copy-left许可证也允许他人使用、编辑和重新发布你的代码。但是,这种许可证还规定衍生代码必须用copy-left许可证发布。通过这种方式,copy-left许可证对代码的用途进行了限制。 最常见的copy-left许可证是GPL(GNUPublic License)。使用copy-left许可证的最大问题是,经常会使那些来自于私人部门的潜在用户和贡献者无法使用你的代码,甚至包括未来的你!这会严重削减你的用户基础,进而影响软件取得的成就。在科学界,这就意味着更少的引用数。 -
FBML AS Data-Driven Execution Markup
-
knowledege graphas augmentation
-
OLAP
-
架构演进
-
《资治通鉴》 魏文帝 曹操
春,正月,武王至洛阳;庚子,薨。王知人善察,难眩以伪。识拔奇才,不拘微贱,随能任使,皆获其用。与敌对陈,意思安闲,如不欲战然;及至决机乘胜,气势盈溢。勋劳宜赏,不吝千金;无功望施,分毫不与。用法峻急,有犯必戮,或对之流涕,然终无所赦。雅性节俭,不好华丽。故能芟刈群雄,几平海内。
-
自大-实力使然
-
FinTech 早在上世纪80年代,华尔街已经使用
-
避免狗的攻击 让狗松口【勒紧脖子,然后远离】 保持冷静 避免眼神接触 不要笑【在动物世界,露出白森森的牙齿通常是一个侵略信号】 站着不动 让狗分心 爬高点 慢慢地离开 打电话求助
-
ANN
认知科学中理解语言的传统方法是基于符号表征。例如,“杯子”这个词是代表杯子概念的符号,不是特指某个杯子,而是指所有杯子。符号的美妙之处在于,它们让我们能够对复杂的概念进行压缩,并运用它们;而符号的问题在于,这种过分概括的表达形式使其很难在现实世界中被精确地描述出来一在现实世界中,杯子的样式、形状和尺寸有着无数种可能。虽然我们大多数人在看到杯子的时候都能很快认出它是什么,但没有一个逻辑程序能够清楚地指认哪个东西是杯子,哪个不是,也无法识别出图片中的杯子。正义、和平之类的抽象概念更会让一个计算机程序产生困惑。另一种方法是,通过大量神经元上的活动模式来表示杯子,如此一来就可以捕捉概念之间的相似和差异点。这赋予了符号可以反映其含义的丰富的内部结构。问题在于,在1980年,还没有人知道如何创建这些内部表征。
- 黑盒子反向促进科学进步
医生和算法一样,也要接受一系列测试和决策点的指导,通过常规案例进行培训。但问题在于,有些罕见的情况并不在他们算法覆盖的范围之内,而神经网络则经历过更多案例的训练,远远超过一般医生在一生中会经历的,网络可能会很好地捕捉到些罕见病例。但是,你会相信无法解释其理由,但从统计上来说诊断能力更强的神经网络,而不去相信看似有凭有据的医生吗?事实上,那些能够精确诊断罕见病例的医生都有着丰富的经验,并且大多数使用了模式识别而不是算法。正如可以训练网络来提供专业的诊断,是否有可能把其背后的解释作为训练集的一部分,来训练网络对其行为进行解释呢?这样一来也许还可以帮助改善诊断。这一建议是存在问题的,原因是医生给出的许多解释都是片面的、过度简化的,或错误的。每一代医疗实践与前一代相比都发生了巨大的变化,因为人体的复杂性大大超出了我们目前的理解能力。如果我们可以通过分析网络模型的内部状态来提取因果解释,就可能会产生能够推动医学发展的新的见解和假设。神经网络是一个黑盒子,其理论尚无法被理解
- “时域贡献度分配问题”(temporal creditassignment problem)
机器如何学会下棋:使用专家监督来训练反向传播网络,以评估当前的布局和可能 的摆法。这种方法的缺陷在于,该程序永远比不过专家,而专家的水平并未达到世界冠军的级别。然而通过自我对局,网络可能会有更出色的表现。当时自我对局面临的问题是,在比赛结束时,唯一的学习信号就是赢或输。但是当一方获胜时,应该归功于之前若干步骤中的哪些步骤呢?
- 存量和流量
在计量经济学时间序列中,一个量通常被定义为存量或流量。存量度是指特定时间点的数量。流量的度量是指一段时间内的速率。美国股市从2009年到2010年的增长率就是流量的度量。在预测方面,通常会关注流量的预测。如果将预测看作一种特定类型的回归,那么偏好流量预测的首要原因,也是最明显的原因,是流量估计更可能是插值而不是外推,并且插值几乎总是更安全的。此外,大多数时间序列模型都具有平稳性的假设。
词嵌入有时又被叫作word2vec
word2vec只是实现词嵌入的一些算法的集合,包含了CBOW和Skip-Gram方法。不过很多时候,“word2vec”也会代指词嵌入。
- 科学实验-求索于自然
科学实验的全部艺术和实践都被一种对自然的巧妙询问囊括其中了。观察活动为科学家提供了关于大自然某些方面的图景,而其中包含着主动陈述所具有的全部瑕疵。科学家希望通过提出旨在建立因果关系的具体问题来检查对于该陈述的解释。他的问题以实验操作的形式出现,因而必然是特殊的。他必须依赖大自然的内在一致性,根据大自然在特定情况下给出的回答推导出一个一般性的推论,或预测在其他场合中进行类似操作的可能结果
- 第三代医疗支付方式-DRGs点数法付费
医保蛋糕就这么大,医疗机构需要通过竞争来得到。从最新的数据来看,在省级医院里,浙江大学附属医院效益相对比较好。比如做胆囊切除手术,如果用微创手术,今天住院明天就出院了,资源消耗就会降低。而用传统的医疗方法,至少得住5天院。这样的话,两者成本消耗不一样,但DRG点数一样,实际的效益是一样的。DRG付费办法本质是引入社会平均成本概念,用设区市所有医疗机构的平均成本,来确定付费标准。
按照支付方式改革进程来看,第一代是按项目付费,第二代是按项目付费加总额预算,第三代就是总额预算加上住院DRGs点数法付费,到第四代是价值医疗,现在到这一步还尚早。浙江全面推行住院DRGs点数法付费改革,相当于进入第三代支付方式改
- 明朝医学
“记含有所,在脑囊,盖颅囟后,枕骨下,为记含之室。故人追忆所记之事,骤不可得,其手不觉搔脑后,若索物令之出者,虽儿童亦如是。或人脑后有患则多遗忘。”这是西医脑主记忆在中国的传播,对习惯于“心主神明”“心藏神”说的中国传统医界无疑影响很大,并被不少人所接受。