自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(18)
  • 资源 (380)
  • 论坛 (88)
  • 问答 (48)
  • 收藏
  • 关注

原创 its rank is undefined, but the layer requires a defined rank

tf.layers.dense的输入的tensor要tf.reshape指定一下shape

2021-03-30 09:49:37 57

原创 CTR模型归纳来说就是三种类型的特征作为输入

int list即 id listfloat list即一些比如价格、销量等特征fixed float list即固定的embedding

2021-03-26 10:11:10 167

原创 Spark 把几列concat成新一列(来join),而不通过对所有列map

dataFrame = dataFrame.withColumn("the_key", concat_ws("-", col("column1"), col("column2")))

2021-03-17 18:02:55 50

原创 Spark java.lang.ClassCastException

详细报错信息:Driver stacktrace: at org.apache.spark.scheduler.DAGScheduler.org$apache$spark$scheduler$DAGScheduler$$failJobAndIndependentStages(DAGScheduler.scala:1588) at org.apache.spark.scheduler.DAGScheduler$$anonfun$abortStage$1.apply(DAGScheduler.scala:

2021-03-17 11:38:18 29

原创 Spark 填充默认值 实例

dataFrame.na.fill(Map( "column1" -> "0", "column2" -> "-1", ))

2021-03-16 16:30:47 51

原创 Spark 利用udf只对DataFrame其中几列操作,而不对所有列map

定义UDFimport org.apache.spark.sql.functions.udfdef theUDF = udf((inputColumn1: String, inputColumn2: BigInt)=>{ var resultColumn = 0 inputColumn1.split(",").foreach(item=>{ if(java.lang.Long.valueOf(item).equals(inputColumn2)) {

2021-03-16 16:23:44 40

原创 CTR任务的两种特征embedding方式

如果是user对poi的点击率,user最近买了1,2,3,4个item,poi高销的几个item是3,4,5,6,则第一种embedding方式是:每个item一个embedding,一共6个embedding第二种embedding方式是:每两个item一个embedding,一共4乘4=16个embedding...

2021-03-16 14:13:45 75

原创 学数学 最好的方法是 做数学

The only way to learn mathematics is to do mathematics.“Doing mathematics” means a lot more than writing a solution to a math problem - it means thinkingdeeply about math, struggling with math, communicating about math, practicing math skills, andtrying

2021-03-16 09:28:10 16

原创 推荐系统的 ctr cxr rpm

ctr 点击数除以曝光数,cxr 成单数除以曝光数,rpm 收入额除以曝光数,

2021-03-15 11:41:58 67

原创 pv事件 mv事件 mc事件

pv,page view 页面打开的次数,无论用户是否浏览里面的子模块,都会记录,mv,module view 页面打开了,用户浏览了页面里的子模块的次数,mc,module click 页面打开了,用户点击了页面里的子模块的次数,...

2021-03-15 11:40:09 98

原创 tensorflow tf.estimator 打印AUC

auc,auc_op = tf.metrics.auc(labels=labels, predictions=tf.sigmoid(logits))if mode == tf.estimator.ModeKeys.EVAL: eval_metrics = {"auc":(auc,auc_op)} output_spec = tf.estimator.EstimatorSpec( mode=mode, loss=total

2021-03-12 15:28:55 81

原创 roc_auc_score 传参

from sklearn.metrics import roc_auc_scorey_true = [0, 0, 1, 1, 1]y_score = [0.1, 0.2, 0.7, 0.8, 0.9]print(roc_auc_score(y_true, y_score))y_score = [0.7, 0.8, 0.9, 0.1, 0.2]print(roc_auc_score(y_true, y_score))打印结果:1.00.33333

2021-03-12 11:00:03 39

原创 【笔记】推荐系统CTR模型数据正负样本准备

www.zhihu.com/question/3249860541在feed场景中,使用曝光(展示)日志时,应该选择APP的SDK埋点的日志,而不是服务器Web接口返回的日志,因为Web接口返回的日志中的后果是会增加很多无效的负样本。举个例子,Web接口每次返回10条数据,但是APP屏幕最多只能展现3条数据,剩下的7条数据需要用户在feed中滑动屏幕后,才算真正的曝光,但很多用户可能并不会滑动屏幕或者滑动屏幕幅度较小,导致剩下的7条数据并未真正在APP上曝光。2针对同一个内容在不同时间对同一个用户曝

2021-03-12 10:29:56 96

原创 Invalid argument: Key: XXX. Can‘t parse serialized Example.

一般就是维度没对上,tfrecord里的维度和代码里的维度没对上,

2021-03-11 15:37:25 107

原创 vim ctrl+v 粘贴时错乱

先执行 :set paste 再粘贴

2021-03-11 10:12:07 17

原创 作为CTR模型输入的 feature index 的意思

比如一共所有 feature value 的集合是 0.1 0.2 0.5 0.7则 feature index 就是将这些value给映射到 0 1 2 3例如一行数据是 0.5 0.7 0.1 则这条数据feature index就是 2 3 0

2021-03-04 14:36:11 51 1

原创 tensorflow index一个tensor

这个示例是不用tensor来index另一个tensor的方式import tensorflow as tfinput_tensor = tf.random_uniform([2,4,3])index = tf.placeholder(tf.int32)index2 = tf.placeholder(tf.int32)print(input_tensor[:,0:2].shape) # 一种方式output = input_tensor[:,index:index2] # 另一种方式sess

2021-03-03 09:43:14 33

原创 BORT 阅读笔记

《Optimal Subarchitecture Extraction For BERT》用神经网路搜索的方法寻找一个最优的BERT:最终寻到的最优BERT:其中D是transformer encoder层数A是attention headsH是hidden sizeI是intermediate layer size对比了 普通预训练 和 基于蒸馏的预训练(下面第二第三列):...

2021-03-02 10:43:21 33

hadoop-2.2.0.tar.gz

hadoop-2.2.0.tar.gz

2015-07-29

标准的quora数据集

标准的quora pairs数据集,判断两句话是否同义,BiMPM得分ACC88,

2018-11-27

WMT14数据集

机器翻译数据集 ACL 2014 NINTH WORKSHOP ON STATISTICAL MACHINE TRANSLATION

2018-04-09

ROCStories Cloze Test 数据集

'Story Cloze Test' is a new commonsense reasoning framework for evaluating story understanding, story generation, and script learning. This test requires a system to choose the correct ending to a four-sentence story. We propose the Story Cloze Test to replace the state-of-the-art for evaluating narrative structure learning, the 'Narrative Cloze Test'

2019-02-27

大规模新闻文本分类数据集

大规模新闻文本分类数据集,有多个领域,按文件夹摆放,不仅可以用来做文本分类实验,数据不少甚至可以用来做BERT预训练

2020-07-01

蚂蚁金服文本匹配竞赛训练数据

金融大脑-金融智能NLP服务 以人工智能技术为核心的智能客服,为广大用户提供高效、个性化的普惠金融服务体验,本质是充分理解用户意图,在已有知识体系中精准地找到与之相匹配的内容,提供答案或解决...

2018-05-28

train-images-idx3-ubyte.gz 和 train-labels-idx1-ubyte.gz

train-images-idx3-ubyte.gz train-labels-idx1-ubyte.gz t10k-images-idx3-ubyte.gz t10k-labels-idx1-ubyte.gz

2020-12-03

imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集

imdb、SST-1、SST-2、yelp-2013、yelp-2014 文本分类数据集 https://github.com/JerrikEph/Capsule4TextClassification/blob/master/data/downloadDataset.md

2020-04-10

cocos2d-x 贪吃蛇

替换官方包的相应文件,VS2010可运行

2012-02-04

_bz2.cpython-36m-x86_64-linux-gnu.so

Python3.6的bz2模块需要的so文件,可复制到lib/python3.6/lib-dynload使用

2017-10-30

scipy-0.16.1-cp27-none-win_amd64.whl

scipy-0.16.1-cp27-none-win_amd64.whl

2016-01-08

Facebook bAbI dataset

Facebook bAbI dataset Facebook bAbI dataset Facebook bAbI dataset Facebook bAbI dataset Facebook bAbI dataset

2017-03-06

_sqlite3.cpython-36m-x86_64-linux-gnu.so

Python 3.6的sqlite3的so文件,放到lib/python3.6/lib-dynload解决No module named '_sqlite3'问题

2018-05-29

知识图谱 family 数据集

家庭背景的知识图谱三元组数据, entities.txt facts.txt relations.txt test.txt train.txt valid.txt

2018-03-15

scipy-0.18.1-cp35-cp35m-win_amd64.whl

scipy-0.18.1-cp35-cp35m-win_amd64.whl

2016-12-21

pytorch resnet 101 模型参数数据

pytorch resnet 101 模型参数数据 pytorch resnet 101 模型参数数据 pytorch resnet 101 模型参数数据 pytorch resnet 101 模型参数数据 pytorch resnet 101 模型参数数据

2017-12-29

cityscapes数据集

cityscapes数据集,pix2pix模型用的。 Semantic, instance-wise, dense pixel annotations of 30 classes

2019-04-08

glove.42B.300d 词向量

著名的glove词向量,上Billion个词,每个词N维,可用于深度模型初始化,BERT之后仍有其价值

2020-07-06

基于知识图谱的问答系统综述

Question Answering over Knowledge Bases

2016-09-19

chinese_L-12_H-768_A-12.zip

https://github.com/google-research/bert 里的预训练好的模型,中文的

2020-06-21

TextCNN在文本分类的应用.pptx

TextCNN在文本分类的应用,深入浅出,通俗易懂,图是自己画的。

2019-05-31

mnist数据 tfrecords版本

数据读法: https://gitee.com/779222056/capsule-net/tree/master/input_data/mnist

2018-03-06

cudnn 7.6.4 linux

cudnn 7.6.4 的so文件,配合cuda10.0,配合TensorFlow1.14,export LD_LIBRARY_PATH使用

2020-04-15

机器翻译WMT14数据集

机器翻译WMT14数据集,ACL2014公布的share task,很多模型都在这上benchmark

2018-04-09

aclImdb_v1.tar.gz

https://huggingface.co/transformers/custom_datasets.html#seq-imdb 用到的数据

2020-11-19

glove.840B.300d-char.txt

character level(字母字符级)的glove embedding https://github.com/minimaxir/char-embeddings

2017-12-11

整理过的金庸TXT训练集

整理过的金庸TXT训练集,包括16本书,和全部16本放一个TXT文件里的一个文件

2019-03-14

NLTK wordnet.zip

id: wordnet; size: 10775600; author: ; copyright: WordNet 3.0 Copyright 2006 by Princeton University. All rights reserved.; license: Permission to use, copy, modify and distribute this software and database and its documentation for any purpose and without fee or royalty is hereby granted, provided that you agree to comply with the following copyright notice and statements, including the disclaimer, and that the same appear on ALL copies of the software, database and documentation, including modifications that you make for internal use or for distribution.... [see webpage for full license];

2019-12-01

libcublas.so.9.0

错误:ImportError: libcublas.so.9.0: cannot open shared object file: No such file or directory cudnn-9.0-linux-x64-v7.1

2018-05-29

NELL-995 知识图谱 数据集

Format of the dataset raw.kb: the raw kb data from NELL system kb_env_rl.txt: we add inverse triples of all triples in raw.kb, this file is used as the KG for reasoning entity2vec.bern/relation2vec.bern: transE embeddings to represent out RL states, can be trained using TransX implementations by thunlp tasks/: each task is a particular reasoning relation tasks/${relation}/*.vec: trained TransH Embeddings tasks/${relation}/*.vec_D: trained TransD Embeddings tasks/${relation}/*.bern: trained TransR Embedding trained tasks/${relation}/*.unif: trained TransE Embeddings tasks/${relation}/transX: triples used to train the KB embeddings tasks/${relation}/train.pairs: train triples in the PRA format tasks/${relation}/test.pairs: test triples in the PRA format tasks/${relation}/path_to_use.txt: reasoning paths found the RL agent tasks/${relation}/path_stats.txt: path frequency of randomised BFS

2018-03-28

知乎文本分类竞赛 数据集2/2

https://biendata.com/competition/zhihu/ 参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。 标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」

2018-07-16

知乎文本分类竞赛 数据集1/2

https://biendata.com/competition/zhihu/ 参赛者需要根据知乎给出的问题及话题标签的绑定关系的训练数据,训练出对未标注数据自动标注的模型。 标注数据中包含 300 万个问题,每个问题有 1 个或多个标签,共计1999 个标签。每个标签对应知乎上的一个「话题」

2018-07-16

bochs-2.6.2 .tar.gz

bochs-2.6.2 .tar.gz

2013-06-14

nlpcc 2018 知识图谱 数据集

Task 7 - Open Domain Question Answering In this year’s NLPCC open domain QA share task, we focus on KNOWLEDGE and propose three sub-tasks, including (a) knowledge-based question answering (KBQA), (b) knowledge-based question generation (KBQG), and (c) knowledge-based question understanding (KBQU). The task of KBQA is to answer natural language questions based on a given knowledge base. The task of KBQG is to generate natural language questions based on given knowledge base triples. The task of KBQU is to transform natural language questions into their corresponding logical forms. The first two sub-tasks are in Chinese, while the last sub-task is in English.

2018-03-28

cuda_10.0.130_410.48_linux.run

cuda10 CentOS7 Linux runfile 安装文件,网速慢的用户用, 安装前要先禁用nouveau,

2020-06-21

Python-3.6.8.tgz

Python-3.6.8源码安装包 ./configure --prefix=/your_path make make install

2019-12-16

维基百科中文预训练数据

用于BERT预训练,Bidirectional Encoder Representation from Transformers

2020-07-10

PTB数据集和baseline

Penn Tree Bank (PTB) dataset, is widely used in machine learning of NLP (Natural Language Processing) research.

2019-03-01

glove.840B.300d.txt 压缩包1/2

GloVe is an unsupervised learning algorithm for obtaining vector representations for words. Training is performed on aggregated global word-word co-occurrence statistics from a corpus, and the resulting representations showcase interesting linear substructures of the word vector space.

2018-04-11

Facebook的SimpleQuestions数据集

https://research.fb.com/downloads/babi/ https://research.fb.com/downloads/babi/ https://research.fb.com/downloads/babi/ https://research.fb.com/downloads/babi/ https://research.fb.com/downloads/babi/

2017-03-29

编译时 java -d 是什么意思?

发表于 2011-01-20 最后回复 2020-03-26

android 怎么输出变量的的值到log

发表于 2011-06-09 最后回复 2020-03-12

guotong1988的留言板

发表于 2020-01-02 最后回复 2020-01-02

请问linux里的 # 和 $ 都有什么意思啊?

发表于 2011-01-24 最后回复 2018-06-19

问下付费VIP能扩大上传资源权限到500M吗

发表于 2017-12-04 最后回复 2017-12-04

怎么用html里的button里的onclick的运行一段java

发表于 2011-02-23 最后回复 2017-09-30

linux里面有很多goto,为什么明确不提倡用goto

发表于 2012-01-14 最后回复 2017-08-05

华为手机的AI部门 和 联想的AI部门 去哪个

发表于 2016-11-20 最后回复 2016-11-21

做AI的话是搞 底层框架大牛 和 应用层业务大牛 哪个有前途?

发表于 2016-11-20 最后回复 2016-11-21

什么情况下用plsql?

发表于 2015-03-12 最后回复 2016-10-26

为什么我是博客专家了还是不能把微博搞上

发表于 2016-01-25 最后回复 2016-01-28

创业公司老板兼CTO把我们看成打杂的怎么办???

发表于 2014-11-14 最后回复 2016-01-15

一段scala代码读不懂。。。

发表于 2015-03-02 最后回复 2015-04-22

jsp问题,入门级,求助啊!!! 搜遍了网上方法,(附图)

发表于 2015-03-18 最后回复 2015-03-24

Java 线程共用run方法里的代码段吗?

发表于 2014-11-24 最后回复 2015-03-02

为什么列式数据库适用于OLAP,行式数据库适用于OLTP?

发表于 2014-10-18 最后回复 2015-03-02

问下搞机器学习的童鞋,都用什么数据库,还是不用数据库?

发表于 2015-02-05 最后回复 2015-03-02

如何把 linux0.11更高的版本 用bochs编译并运行

发表于 2014-12-23 最后回复 2015-03-02

小弟今年27了,该不该跳这个槽,明天给那边回复

发表于 2015-02-01 最后回复 2015-03-02

有多少人和我一样觉得老板兼CTO从不考虑员工所想的

发表于 2014-11-11 最后回复 2015-01-04

从mysql、oracle、sqlserver、db2里取数据,怎样取最快?

发表于 2014-11-12 最后回复 2014-11-19

世界上有哪些非计算机专业出身的IT精英?

发表于 2014-11-09 最后回复 2014-11-11

求推荐一款优秀的开源的数据库管理工具,可以支持mysql、oracle、sqlserver、db2等。

发表于 2014-11-06 最后回复 2014-11-09

the import com.mysql can not be resolved 请问

发表于 2011-02-21 最后回复 2014-10-31

怎么把 指针b的指向的地址作为值 放到指针a指向的地址里?

发表于 2014-10-19 最后回复 2014-10-19

Java,我有一个外网IP比如7.7.7.7:port的server,想和一内网192.168.0.13client通信,server端求个java小例子

发表于 2013-08-27 最后回复 2014-10-18

windows核心编程 看不懂

发表于 2012-02-25 最后回复 2014-03-14

各位大侠,什么书有讲C++多线程的知识?

发表于 2012-02-20 最后回复 2013-08-27

各位大侠,什么书里有讲P,V操作的?

发表于 2012-03-04 最后回复 2013-08-27

as3 addchild() 的机制????????

发表于 2011-09-05 最后回复 2013-07-28

如何实现比如五子棋的联机对战,在iphone上,主要是网络编程方面

发表于 2011-06-10 最后回复 2012-11-23

谁帮我详细解释下这句: <script type="text/javascript">

发表于 2011-02-21 最后回复 2012-09-20

比如做一个 绑定IE首页的程序 需要什么知识?看什么书?

发表于 2012-02-19 最后回复 2012-02-20

做游戏 美工 和 程序 可否都学?

发表于 2012-02-16 最后回复 2012-02-19

各位大侠 想做游戏 程序 和 美工 可不可以都学?

发表于 2012-02-16 最后回复 2012-02-19

哪里可以做业余项目?

发表于 2012-02-05 最后回复 2012-02-16

大家怎么看 程序实现 和 更好的实现 这件事?

发表于 2011-11-01 最后回复 2012-01-20

大家怎么看 程序功能实现 和 更好的实现 这件事?

发表于 2011-11-01 最后回复 2011-11-11

android的调试速度怎么这么慢

发表于 2011-10-28 最后回复 2011-11-01

大家怎么看 实现 与 更好的实现 这件事???????

发表于 2011-10-28 最后回复 2011-11-01

现在我工作就是提升APP用户点击率,可以推荐个为国为民的计算机方向吗?

2021-05-23

所谓的RNN不能并行到底指的什么?跟数据并行训练冲突吗?

2021-03-26

有没有一些在java+cpu训练机器学习模型的方案?

2021-05-11

我们代码里的learning rate是一个batch总的学习率还是一个data的学习率?

2021-04-28

有没有办法在map里面得到Spark的worker信息,然后固定仅让那一个worker输出日志?

2021-04-15

2021年了,主流神经网络是不是可以说就是transformer、RNN、CNN三种基础模块了?

2021-03-26

除了#TODO在pycharm还有哪些高亮的注释?

2021-03-26

问下有人知道和BERT论文用的一模一样的预训练源数据从哪找吗

2021-03-23

CTR模型的交互类的特征是怎么做的和存储的?

2021-03-19

解决 Spark OOM 有哪些基本思路?

2021-03-19

多GPU数据并行训练的加速原理到底是什么?

2021-02-18

2021年了,有哪些稳压bert和roberta的预训练模型?

2021-01-20

现在机器学习的库都是Python的,而服务器貌似是Java性能最好,怎么处理这个问题?

2016-11-22

gdb都能调试什么类型的文件?

2016-10-17

Spark里一行scala代码看不懂?

2016-02-29

spark example 有个地方看不懂

2016-02-01

maven,自己的 程序包不存在?

2015-12-03

如何寻找一个java文件的所有import的java,把这些所有java都打到一个jar包,自动化?

2015-12-03

Eclipse有办法打Jar包时自动解决(自身项目内的)依赖问题吗?

2015-12-03

google的protobuf比这样java原生的方式更有效率吗?

2015-11-19

.h文件里定义了一个类,怎么链接到so文件里?

2015-09-09

cocos2d-x lua怎么滤色?

2015-09-02

看jvm某个类的成员变量的值

2015-08-28

JAVA怎么从特定【行】开始读字串?

2015-08-24

一小段scala代码看不懂?

2015-08-21

scala如何初始化一个Tuple3数组?

2015-08-18

用jstack看到的WAITING和BLOCK的区别的是什么

2015-08-18

linux搭建spark源码环境,执行build/sdt gen-idea要twitter东西?

2015-08-14

Spark里的DAG是怎么回事?

2015-08-12

invoke方法如何加-Xmx2000M之类的VM参数

2015-08-03

spark1.2里的一小段scala代码看不懂

2015-03-03

为什么数据库要插入数据后再建B-Tree等结构的索引,而不是边插边建?

2015-03-24

Spark哪些分布式计算可以脱离HDFS跑?

2015-07-03

akka 简单例子总是 not delivered和dead letters encountered

2015-07-09

Eclipse里如何debug跟踪MapReduce程序到hadoop源码里?

2015-07-31

有没有自动生成复杂sql的软件?

2015-07-14

java swing awt, 如何实现一个按钮按下之后刷新界面

2015-07-03

java正则表达式,怎么写一个match包含空格的pattern?

2015-06-04

java正则表达式,如何表示一个非某个字符的匹配

2015-06-04

为什么hdfs不支持随机写?

2015-03-11

TA创建的收藏夹 TA关注的收藏夹

TA关注的人 TA的粉丝

提示
确定要删除当前文章?
取消 删除